行業(yè)洞察 | 愛聊天的虛擬人
發(fā)布時間 : 2022-11-03 閱讀量 : 1740
現(xiàn)如今,越來越多的年輕人在電商平臺購買“陪聊服務(wù)”,嘗鮮“虛擬陪伴”,向“陪聊師”傾訴交流、吐露心聲。從幾十元的“陪聊盲盒”,到上千元的定制“虛擬戀人”。近年來,“虛擬陪伴”服務(wù)已成為年輕人在網(wǎng)絡(luò)上尋求心靈慰藉、吐露心聲的時尚自愈。“溫柔可愛小甜心”、“霸道獨裁總裁”,只要付費都能找到自己喜歡的“人設(shè)”。
虛擬人發(fā)展的勢頭如同雨后春筍一般層出不窮。根據(jù)億歐數(shù)據(jù)庫顯示,截至2022年9月,我國虛擬數(shù)字人賽道投融資金額已超去年,達24.9億元。而在2015年,這一數(shù)字僅為0.33億元,年復合增長率達到97.71%。如此巨大的市場份額,到底是什么原因讓虛擬人如此令人著迷?
市場需求
虛擬角色所帶來的世界是未來的、無邊界的、技術(shù)感的藝術(shù)視野。人們可以與虛擬人建立良好的互動關(guān)系,與虛擬人之間的愛戴是相互、平等的,通過彼此之間的互動而產(chǎn)生新的想象。人們在虛擬角色身上完成了他們作為觀眾與自我之間的不停轉(zhuǎn)換。那么虛擬人強大的交互能力到底是如何實現(xiàn)的?
交互能力
虛擬人與人類的交互需要通過文字、語音、視覺的理解和生成,結(jié)合動作識別和驅(qū)動、環(huán)境感知等多種方式,多模態(tài)人機交互能夠充分模擬人與人之間的交互方式。其中語音識別和語音合成是虛擬人交互的核心功能之一。語音識別的簡單定義是使計算機能夠識別、理解并將人類語音翻譯成文本的技術(shù)。也就是讓計算機模仿人的聽覺系統(tǒng),能夠接收理解輸入的語音信號,并輸出對應(yīng)的文字信號。虛擬人的語音識別流程圖如下所示:

虛擬人迷人的聲線則來自對聲優(yōu)聲音的合成,語音合成是將人類語音用人工的方式所產(chǎn)生。若是將電腦系統(tǒng)用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現(xiàn)。文字轉(zhuǎn)語音其流程如下所示:

無論是虛擬人的語音合成還是語音識別算法,都需要海量高質(zhì)量精標語料庫來訓練。數(shù)據(jù)的質(zhì)量和數(shù)量往往決定著深度學習算法優(yōu)化程度。數(shù)據(jù)量越大標注越準確,訓練出來的虛擬人會越聰明。與人溝通交互會更順暢,合成的語音會更擬人化。
數(shù)據(jù)是一切深度學習任務(wù)的基石。Magic Data 擁有海量經(jīng)由專業(yè)錄音棚錄制的高質(zhì)量數(shù)據(jù)集。涵蓋天津話、東北話、四川話、上海話、廣西話、長沙話眾多方言,以及英語、葡萄牙語、韓語等多語種TTS數(shù)據(jù)。樣例如下:
中文女聲TTS多情感庫:點擊了解更多
中文男聲TTS多情感庫:點擊了解更多
廣式粵語女聲TTS數(shù)據(jù)集:點擊了解更多