(圖:李小龍介紹全新數字人引擎技術架構)

數字人領域正由喧囂轉向理性。雖然高精度高顏值的人偶形象不斷出現,但絕大部分場景缺乏與用戶的持續性、個性化互動,進而商業化規模有限。如,只能在短視頻和動畫中存在的虛擬偶像?;蛑辉趩我辉O備或界面中面向大眾支持問答的虛擬員工,這些形態缺乏大模型訓練和大規模交互,無法個性化學習升級,用戶感受就像“沒有靈魂”。

數字人Inside接管終端——則是阿里巴巴正在嘗試的新方式。天貓精靈產品規劃負責人盧勇介紹,接入AliGenie系統的終端已覆蓋4000多萬家庭、包含1600多個品牌的4.6億已接入產品,能讓數字人在可持續、大規模、組合式的場景與用戶交互。AliGenie此前公布,僅智能音箱產品每月交互80億次以上,70%是主動型服務。許多消費硬件領域廠商,也迫切希望有超出單出連接、單一設備對話的智能體驗。

以多模態大模型驅動的智能化,理論上也非常適合缺乏數據、場景碎片化的智能終端場景。李小龍列舉了達摩院積累的包括多模態大模型、語音、自然語言、3D構建驅動、各個領域近兩年百項專利與頂會論文,通過將這些成果,在諸多交互場景驗證,一個多模態大模型為基礎的數字人的引擎已初顯雛形。

例如,由通義多模態大模型(BroadScope)訓練的數字人,可以具備可泛化的認知驅動能力,數字人根據音樂進行舞蹈、根據文字產生行動,改變了過去完全要單一維度數據訓練的模式,能夠讓數字人遷移場景進行服務。

在云語音語義技術方面,Gartner 2022報告顯示,阿里綜合能力居全球第二。并在Wizard of Wiki(知識對話)、Commonsense QA(常識問答)和VQA(視覺問答)三項全球評測中連續獲得冠軍,并超過人類能力基準。

以天貓精靈日常對話場景為例,通過大模型底座進一步訓練的對話大模型mPLUG-dialog,將可能成為包含知識、情感、個性、記憶的全新交互系統。

在內容上,不再是單純地按知識庫或搜索結構在檢索和回答問題,而是綜合這四個維度,努力給出更有趣更有情商的回復,在聲音上,不再是字正腔圓的播報音,會包含更豐富更細膩的情緒。實時溝通時,AI不僅能被隨時打斷,也能穩定接茬,還會主動追問。

(圖:大模型將提升數字人的自主對話能力)

2022年開始,達摩院多模態大模型開始應用于天貓精靈語音搜索與百科場景。雙方目前將合作場景推向AliGenie交互的系統層和用戶感知層。預計,第一款由數字人全面接管交互引擎的產品,將在2023年一季度讓用戶升級體驗。

未經允許不得轉載:存儲在線-存儲專業媒體 » 云棲大會透出數字人演進方向:大模型訓練、大規模交互將帶來什么?
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走