技術分享 | 語音AI如何驅動虛擬人
發布時間 : 2022-10-20 閱讀量 : 1986
關于虛擬數字人的起源最早可以追溯到上個世紀八十年代的日本經典動畫片《超時空要塞》的女主角林明美。作為虛擬偶像的開端,動畫公司以她的虛擬形象發行唱片,虛擬人第一次進入了現實世界。
2000年-2016年,虛擬數字人還只是停留在研究階段。2016年以來,深度學習和元宇宙的出現,使得虛擬偶像一夜火遍全世界。
虛擬數字人根據驅動方式的不同可分為AI智能驅動型和真人驅動型(動作捕捉技術)。在真人驅動型虛擬數字人中,真人也被稱為“中之人”,配合動作捕捉設備,讓虛擬數字人能夠與觀眾進行實時交互。而AI智能驅動型虛擬人,則是通過智能系統自動讀取并解析識別外界輸入信息,根據解析結果決策輸出文本,驅動人物模型生成相應的語音與動作與用戶交互。由于虛擬數字人的口型和微表情等微動作較多,真人拍攝耗資巨大,AI語音口型驅動成為主流。
AI語音驅動虛擬數字人微表情
AI語音驅動又稱為虛擬形象語音動畫合成技術(Voice-to-Animation),用戶通過輸入文本或語音,以一定規則或深度學習算法,生成對應的3D虛擬形象的人臉表情系數,完成口型和面部表情的精準驅動。開發者可以快速構建豐富的虛擬形象智能驅動應用,如虛擬主持人、虛擬客服、虛擬教師等。根據輸入內容的不同(文本/語音),可以分為三種驅動方法:
-
1、語音驅動
-
語音作為驅動源頭。將語音輸入到深度模型,預測嘴型和面部微表情系數。該方法不受限于不同人、國家,但是受到語音特性(音色、強度、噪聲等)影響較大,較難提升模型的泛化能力。
-
2、音素驅動
-
文本作為驅動源頭。將文本時間序列轉換成音素時間序列,并輸入到深度模型,預測嘴型和面部微表情系數。該此方法與語音無關,只與文本內容相關,不受語音特性變換影響。但是模型受限于不同國家的文本語言(中英等);同一文本內容、不同類型的合成聲音,最后合成的口型及面部表情相似度高,缺乏風格和特性。
-
3、語音和音素多模融合驅動
-
語音和音素同時作為驅動源頭。該方法融合語音和文本兩個模態的信息,驅動系數更準確,效果更好,但模型更復雜。
AI語音驅動虛擬數字人全身
近期,百度推出了語音驅動虛擬數字人全身動作的算法框架Speech2Vedio。是一種從語音音頻輸入合成虛擬人全身運動(包括頭、口、臂等)視頻的任務。根據其算法框架,預計產生的視頻在視覺上較為自然,且與給定的語音一致。
該論文作者將3D骨骼知識和模型學習的個性化語音手勢字典,嵌入到整個模型的學習和測試中。通過3D人體骨骼知識限制生成的動作幅度,限定符合正常人類肢體的伸展范圍,通過語音驅動算法合成符合語音場景的動作,形成協調一致,口手合一的虛擬數字人形象。其算法流程如下:

出自Miao Liao. et.al《Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses》
該系統的輸入是音頻或文本,用于訓練LSTM深度模型。使用文本到語音(TTS)和語音到文本(STT)技術實現音頻和文本互換。LSTM的輸出是將人體、面部和手部的3D聯合模型參數化,形成一系列人體姿態,再通過GAN(生成對抗神經網絡)合成最終的虛擬人形象。
AI語音驅動虛擬數字人作為虛擬人落地的核心技術,不僅大幅節省了制作成本,同時精細化的培養了虛擬數字人口手合一的協調性。
AI語音驅動技術的重要底座
自2021年以來,相關部門紛紛出臺政策大力支持人工智能、區塊鏈、大數據等產業的發展,而虛擬數字人產業則是這些產業的重要組成部分。根據量子位發布的《虛擬數字人深度產業報告》預測,到2030年,我國虛擬數字人整體市場規模將達到2700億元。
而所有的虛擬數字人其背后的算法和模型都需要高質量的數據進行大量訓練、測試、調參才能達到最終的最優效果。數據作為虛擬數字人的“基礎設施”,其重要性不言而喻。
Magic Data 作為全球領先的AI數據解決方案提供商,擁有海量經由專業錄音棚錄制的高質量數據集。Magic Data TTS數據集涵蓋天津話、東北話、四川話、上海話、廣西話、長沙話眾多方言。同時,擁有英語、葡萄牙語、韓語等多語種TTS數據。并能夠匹配男聲、女聲、童聲、二次元、甚至Rap說唱等各類需求。讓虛擬數字人的互動擁有更多豐富的可能性,助力企業實現業務增長。
東北話男聲TTS數據集:點擊了解更多
中文男聲TTS多情感庫:點擊了解更多
中文女聲TTS數據集:點擊了解更多