行業(yè)洞察 | 愛聊天的虛擬人

發(fā)布時間 : 2022-11-03 閱讀量 : 1740

現(xiàn)如今，越來越多的年輕人在電商平臺購買“陪聊服務(wù)”，嘗鮮“虛擬陪伴”，向“陪聊師”傾訴交流、吐露心聲。從幾十元的“陪聊盲盒”，到上千元的定制“虛擬戀人”。近年來，“虛擬陪伴”服務(wù)已成為年輕人在網(wǎng)絡(luò)上尋求心靈慰藉、吐露心聲的時尚自愈。“溫柔可愛小甜心”、“霸道獨裁總裁”，只要付費都能找到自己喜歡的“人設(shè)”。

虛擬人發(fā)展的勢頭如同雨后春筍一般層出不窮。根據(jù)億歐數(shù)據(jù)庫顯示，截至2022年9月，我國虛擬數(shù)字人賽道投融資金額已超去年，達24.9億元。而在2015年，這一數(shù)字僅為0.33億元，年復合增長率達到97.71%。如此巨大的市場份額，到底是什么原因讓虛擬人如此令人著迷？

市場需求

虛擬角色所帶來的世界是未來的、無邊界的、技術(shù)感的藝術(shù)視野。人們可以與虛擬人建立良好的互動關(guān)系，與虛擬人之間的愛戴是相互、平等的，通過彼此之間的互動而產(chǎn)生新的想象。人們在虛擬角色身上完成了他們作為觀眾與自我之間的不停轉(zhuǎn)換。那么虛擬人強大的交互能力到底是如何實現(xiàn)的？

交互能力

虛擬人與人類的交互需要通過文字、語音、視覺的理解和生成，結(jié)合動作識別和驅(qū)動、環(huán)境感知等多種方式，多模態(tài)人機交互能夠充分模擬人與人之間的交互方式。其中語音識別和語音合成是虛擬人交互的核心功能之一。語音識別的簡單定義是使計算機能夠識別、理解并將人類語音翻譯成文本的技術(shù)。也就是讓計算機模仿人的聽覺系統(tǒng)，能夠接收理解輸入的語音信號，并輸出對應(yīng)的文字信號。虛擬人的語音識別流程圖如下所示：

虛擬人迷人的聲線則來自對聲優(yōu)聲音的合成，語音合成是將人類語音用人工的方式所產(chǎn)生。若是將電腦系統(tǒng)用在語音合成上，則稱為語音合成器，而語音合成器可以用軟/硬體所實現(xiàn)。文字轉(zhuǎn)語音其流程如下所示：

無論是虛擬人的語音合成還是語音識別算法，都需要海量高質(zhì)量精標語料庫來訓練。數(shù)據(jù)的質(zhì)量和數(shù)量往往決定著深度學習算法優(yōu)化程度。數(shù)據(jù)量越大標注越準確，訓練出來的虛擬人會越聰明。與人溝通交互會更順暢，合成的語音會更擬人化。

數(shù)據(jù)是一切深度學習任務(wù)的基石。Magic Data 擁有海量經(jīng)由專業(yè)錄音棚錄制的高質(zhì)量數(shù)據(jù)集。涵蓋天津話、東北話、四川話、上海話、廣西話、長沙話眾多方言，以及英語、葡萄牙語、韓語等多語種TTS數(shù)據(jù)。樣例如下：

中文女聲TTS多情感庫：點擊了解更多

中文男聲TTS多情感庫：點擊了解更多

廣式粵語女聲TTS數(shù)據(jù)集：點擊了解更多

產(chǎn)品推介｜LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集

晴數(shù)智慧深耕對話式AI領(lǐng)域多年，構(gòu)建了累計千萬輪LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫(yī)療等近20個領(lǐng)域。

勇立潮頭！高品質(zhì)SFT語音數(shù)據(jù)實現(xiàn)Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發(fā)展。為了實現(xiàn)高效合成既自然又高質(zhì)量的人類語音，有不少機構(gòu)及企業(yè)都進行了相關(guān)項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發(fā)布的Voicebox（https://voicebox.metademolab.com/），都是利用大數(shù)據(jù)、大模型和零樣本（zero-shot)合成技術(shù)，實現(xiàn)語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現(xiàn)？高質(zhì)量端到端數(shù)據(jù)助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經(jīng)中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創(chuàng)造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現(xiàn)。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續(xù)合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉(zhuǎn)錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構(gòu)建“巴別塔”的又一次嘗試。

助力數(shù)據(jù)要素市場標準化，晴數(shù)智慧發(fā)布大模型數(shù)據(jù)集企業(yè)標準

數(shù)據(jù)確權(quán)授權(quán)的標準制定，首先是對數(shù)據(jù)進行分級分類。結(jié)合在高質(zhì)量數(shù)據(jù)上多年積累，晴數(shù)智慧首發(fā)了大模型數(shù)據(jù)集企業(yè)標準。晴數(shù)智慧將大模型數(shù)據(jù)集生產(chǎn)分為L1到L3三個標準，級別越高，數(shù)據(jù)精度越高。晴數(shù)智慧希望通過這套企業(yè)標準劃分不同的數(shù)據(jù)處理層級，規(guī)范并提升數(shù)據(jù)質(zhì)量，并確保數(shù)據(jù)的可靠性、有效性和知識產(chǎn)權(quán)的清晰性。

晴數(shù)智慧推出MagicData-CLAM高質(zhì)量SFT數(shù)據(jù)集，助力大模型實現(xiàn)更優(yōu)效果

如果開源大模型使得企業(yè)不再制肘于自研大模型，那么基于大模型的生成式AI決勝關(guān)鍵將只有一個答案：數(shù)據(jù)。

新聞

行業(yè)洞察 | 愛聊天的虛擬人

市場需求

交互能力

即刻與 Magic Data 建立聯(lián)系？