技術分享 | 語音AI如何驅動虛擬人

發布時間 : 2022-10-20 閱讀量 : 1986

關于虛擬數字人的起源最早可以追溯到上個世紀八十年代的日本經典動畫片《超時空要塞》的女主角林明美。作為虛擬偶像的開端，動畫公司以她的虛擬形象發行唱片，虛擬人第一次進入了現實世界。

2000年-2016年，虛擬數字人還只是停留在研究階段。2016年以來，深度學習和元宇宙的出現，使得虛擬偶像一夜火遍全世界。

虛擬數字人根據驅動方式的不同可分為AI智能驅動型和真人驅動型（動作捕捉技術）。在真人驅動型虛擬數字人中，真人也被稱為“中之人”，配合動作捕捉設備，讓虛擬數字人能夠與觀眾進行實時交互。而AI智能驅動型虛擬人，則是通過智能系統自動讀取并解析識別外界輸入信息，根據解析結果決策輸出文本，驅動人物模型生成相應的語音與動作與用戶交互。由于虛擬數字人的口型和微表情等微動作較多，真人拍攝耗資巨大，AI語音口型驅動成為主流。

AI語音驅動虛擬數字人微表情

AI語音驅動又稱為虛擬形象語音動畫合成技術（Voice-to-Animation），用戶通過輸入文本或語音，以一定規則或深度學習算法，生成對應的3D虛擬形象的人臉表情系數，完成口型和面部表情的精準驅動。開發者可以快速構建豐富的虛擬形象智能驅動應用，如虛擬主持人、虛擬客服、虛擬教師等。根據輸入內容的不同（文本/語音），可以分為三種驅動方法：

1、語音驅動
語音作為驅動源頭。將語音輸入到深度模型，預測嘴型和面部微表情系數。該方法不受限于不同人、國家，但是受到語音特性（音色、強度、噪聲等）影響較大，較難提升模型的泛化能力。
2、音素驅動
文本作為驅動源頭。將文本時間序列轉換成音素時間序列，并輸入到深度模型，預測嘴型和面部微表情系數。該此方法與語音無關，只與文本內容相關，不受語音特性變換影響。但是模型受限于不同國家的文本語言（中英等）；同一文本內容、不同類型的合成聲音，最后合成的口型及面部表情相似度高，缺乏風格和特性。
3、語音和音素多模融合驅動
語音和音素同時作為驅動源頭。該方法融合語音和文本兩個模態的信息，驅動系數更準確，效果更好，但模型更復雜。

AI語音驅動虛擬數字人全身

近期，百度推出了語音驅動虛擬數字人全身動作的算法框架Speech2Vedio。是一種從語音音頻輸入合成虛擬人全身運動（包括頭、口、臂等）視頻的任務。根據其算法框架，預計產生的視頻在視覺上較為自然，且與給定的語音一致。

該論文作者將3D骨骼知識和模型學習的個性化語音手勢字典，嵌入到整個模型的學習和測試中。通過3D人體骨骼知識限制生成的動作幅度，限定符合正常人類肢體的伸展范圍，通過語音驅動算法合成符合語音場景的動作，形成協調一致，口手合一的虛擬數字人形象。其算法流程如下：

出自Miao Liao. et.al《Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses》

該系統的輸入是音頻或文本，用于訓練LSTM深度模型。使用文本到語音（TTS）和語音到文本（STT）技術實現音頻和文本互換。LSTM的輸出是將人體、面部和手部的3D聯合模型參數化，形成一系列人體姿態，再通過GAN（生成對抗神經網絡）合成最終的虛擬人形象。

AI語音驅動虛擬數字人作為虛擬人落地的核心技術，不僅大幅節省了制作成本，同時精細化的培養了虛擬數字人口手合一的協調性。

AI語音驅動技術的重要底座

自2021年以來，相關部門紛紛出臺政策大力支持人工智能、區塊鏈、大數據等產業的發展，而虛擬數字人產業則是這些產業的重要組成部分。根據量子位發布的《虛擬數字人深度產業報告》預測，到2030年，我國虛擬數字人整體市場規模將達到2700億元。

而所有的虛擬數字人其背后的算法和模型都需要高質量的數據進行大量訓練、測試、調參才能達到最終的最優效果。數據作為虛擬數字人的“基礎設施”，其重要性不言而喻。

Magic Data 作為全球領先的AI數據解決方案提供商，擁有海量經由專業錄音棚錄制的高質量數據集。Magic Data TTS數據集涵蓋天津話、東北話、四川話、上海話、廣西話、長沙話眾多方言。同時，擁有英語、葡萄牙語、韓語等多語種TTS數據。并能夠匹配男聲、女聲、童聲、二次元、甚至Rap說唱等各類需求。讓虛擬數字人的互動擁有更多豐富的可能性，助力企業實現業務增長。

東北話男聲TTS數據集：點擊了解更多

中文男聲TTS多情感庫：點擊了解更多

中文女聲TTS數據集：點擊了解更多

產品推介｜LLM多領域超自然SFT多輪對話文本數據集

晴數智慧深耕對話式AI領域多年，構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫療等近20個領域。

勇立潮頭！高品質SFT語音數據實現Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音，有不少機構及企業都進行了相關項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發布的Voicebox（https://voicebox.metademolab.com/），都是利用大數據、大模型和零樣本（zero-shot)合成技術，實現語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現？高質量端到端數據助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。

助力數據要素市場標準化，晴數智慧發布大模型數據集企業標準

數據確權授權的標準制定，首先是對數據進行分級分類。結合在高質量數據上多年積累，晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準，級別越高，數據精度越高。晴數智慧希望通過這套企業標準劃分不同的數據處理層級，規范并提升數據質量，并確保數據的可靠性、有效性和知識產權的清晰性。

晴數智慧推出MagicData-CLAM高質量SFT數據集，助力大模型實現更優效果

如果開源大模型使得企業不再制肘于自研大模型，那么基于大模型的生成式AI決勝關鍵將只有一個答案：數據。

新聞

技術分享 | 語音AI如何驅動虛擬人

AI語音驅動虛擬數字人微表情

AI語音驅動虛擬數字人全身

AI語音驅動技術的重要底座

即刻與 Magic Data 建立聯系？