記者 | 崔鵬
4月25日,騰訊云首次對外公布小樣本數智人生產平臺,該平臺具有訓練樣本小、生產效率高、自動化生產等特性,可以實現低成本“自助式”數智人生產制作。
雖然數字人越來越受企業和廣告主的歡迎,但高昂的制作和運營成本問題仍然有待解決。過往復雜的訓練樣本數據采集,導致數字人定制過程長、成本高,一定程度上限制了數字人的快速應用落地。
本次騰訊云智能推出的平臺,依托騰訊自研AI能力和技術經驗,只需要3分鐘真人口播視頻、100句語音素材,平臺便可通過音頻、文本多模態數據輸入,實時建模并生成高清人像,在24小時內制作出與真人近似的“數智人”。

借助該平臺,數字人制作能實現千元級別的成本和小時級的制作時長,大幅降低數字人使用門檻。
騰訊云智能數智人產品總經理陳磊表示,騰訊云智能希望建設自動化的“AI+數智人工廠”,依靠“產、銷、服”的一站式平臺,實現“自助式”購買、生產和應用數智人。
騰訊云智能依托于自研小樣本數智人驅動技術框架,以及基于自監督機制的通用多模態模型,讓用戶實現提交少數樣本數據進行AI訓練。
例如3分鐘真人口播視頻、100句語音素材,就能獲得與真人形象、語音近似的數智人,生產周期縮短至天級別,價格也能低至千元級別。
陳磊表示,小樣本數智人支持半身、全身形象展示,手勢動作會根據內容靈活調整,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場景。
相較于2D真人精品數字人,小樣本數智人無需專業影棚錄制素材,成本更低;相較于照片生成、僅能呈現面部形態的數字人,小樣本數智人可根據文本設計手勢,唇動、口型、表情復現真人風格。
以知識分享口播視頻生產為例,小樣本數智人可以代醫生、律師等專業人士出鏡,大大節省視頻錄制時間。
為了加速數智人服務普及,騰訊云智能還提出自動化“AI+數智人工廠”的方向。開箱即用的數智人生產服務,依托騰訊云TI平臺,內置超過10項AI算法能力。未來,無需任何算法、研發經驗,只要在平臺導入視頻、語音訓練素材,即可通過“自助式”服務,完成大批量數智人形象、音色定制。
針對數智人的運營,騰訊還提供了播報數智人平臺和交互數智人平臺服務。播報數智人平臺支持通過文字、語音輸入快速生成數智人視頻;交互數智人平臺可打造數智員工,定制專屬問答庫,提供7*24小時人機雙向交互服務,還能實現數智人直播服務,自由切換真人語音接管,與用戶問答互動。
騰訊自2018年開始投入數智人研發和服務,是國內最早投入數字人領域的企業之一,已發布數百篇相關技術頂會、期刊論文、專利近百份。

對于騰訊數字人的技術特點,騰訊優圖實驗室研究總監汪鋮杰稱,2D小樣本技術的背后是3D技術。
“小樣本數智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐,是一個從‘文本/音頻’信息到‘3D人像驅動’,再到‘2D人像視頻’的模式。通過對3D人臉結構的先驗信息引入,使數智人口型、表情更到位。”汪鋮杰表示。
另一方面,基于自監督機制的通用多模態模型經過大規模數據訓練,可以將語音、文本與人像的表情、口型進行關聯。
汪鋮杰表示,小樣本數智人使用門檻、成本都大幅降低,但騰訊希望通過綜合運用多項視覺AI技術,提升小樣本數智人品質,其中就包括高精度人像分割、光照優化、人像美化、視線矯正等。
在聲音復刻方面,基于騰訊自研的新一代小樣本音色定制技術,以及深度學習的聲學模型及神經網絡聲碼器,小樣本數智人改善了傳統聲學模型語音韻律單一,語調平淡的問題,讓語音合成更加精細。
此外,通過構建大規模高質量音色數據的預訓練基底模型,未來小樣本數智人還將支持用戶只錄制普通話即可合成英文及方言語音。
目前,騰訊云智能數智人已經覆蓋3D寫實、3D半寫實、3D卡通、2D真人、2D卡通五種形象風格,可實現超細微面部情感表情以及數百種肢體動作,支持形象資產管理、業務服務配置及內容生產相關服務。據悉已有數十家合作伙向行業提供數智人直播SaaS、知識口播SaaS應用,覆蓋醫療、傳媒、金融多個行業。