云棲大會透出數字人演進方向：大模型訓練、大規模交互將帶來什么？-存儲在線-存儲專業媒體

（圖：李小龍介紹全新數字人引擎技術架構）

數字人領域正由喧囂轉向理性。雖然高精度高顏值的人偶形象不斷出現，但絕大部分場景缺乏與用戶的持續性、個性化互動，進而商業化規模有限。如，只能在短視頻和動畫中存在的虛擬偶像?；蛑辉趩我辉O備或界面中面向大眾支持問答的虛擬員工，這些形態缺乏大模型訓練和大規模交互，無法個性化學習升級，用戶感受就像“沒有靈魂”。

數字人Inside接管終端——則是阿里巴巴正在嘗試的新方式。天貓精靈產品規劃負責人盧勇介紹，接入AliGenie系統的終端已覆蓋4000多萬家庭、包含1600多個品牌的4.6億已接入產品，能讓數字人在可持續、大規模、組合式的場景與用戶交互。AliGenie此前公布，僅智能音箱產品每月交互80億次以上，70%是主動型服務。許多消費硬件領域廠商，也迫切希望有超出單出連接、單一設備對話的智能體驗。

以多模態大模型驅動的智能化，理論上也非常適合缺乏數據、場景碎片化的智能終端場景。李小龍列舉了達摩院積累的包括多模態大模型、語音、自然語言、3D構建驅動、各個領域近兩年百項專利與頂會論文，通過將這些成果，在諸多交互場景驗證，一個多模態大模型為基礎的數字人的引擎已初顯雛形。

例如，由通義多模態大模型（BroadScope）訓練的數字人，可以具備可泛化的認知驅動能力，數字人根據音樂進行舞蹈、根據文字產生行動，改變了過去完全要單一維度數據訓練的模式，能夠讓數字人遷移場景進行服務。

在云語音語義技術方面，Gartner 2022報告顯示，阿里綜合能力居全球第二。并在Wizard of Wiki（知識對話）、Commonsense QA（常識問答）和VQA（視覺問答）三項全球評測中連續獲得冠軍，并超過人類能力基準。

以天貓精靈日常對話場景為例，通過大模型底座進一步訓練的對話大模型mPLUG-dialog，將可能成為包含知識、情感、個性、記憶的全新交互系統。

在內容上，不再是單純地按知識庫或搜索結構在檢索和回答問題，而是綜合這四個維度，努力給出更有趣更有情商的回復，在聲音上，不再是字正腔圓的播報音，會包含更豐富更細膩的情緒。實時溝通時，AI不僅能被隨時打斷，也能穩定接茬，還會主動追問。

（圖：大模型將提升數字人的自主對話能力）

2022年開始，達摩院多模態大模型開始應用于天貓精靈語音搜索與百科場景。雙方目前將合作場景推向AliGenie交互的系統層和用戶感知層。預計，第一款由數字人全面接管交互引擎的產品，將在2023年一季度讓用戶升級體驗。

未經允許不得轉載：存儲在線-存儲專業媒體 » 云棲大會透出數字人演進方向：大模型訓練、大規模交互將帶來什么？

分享到

2022云棲大會數字人

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走