ASR&SD挑戰賽正式打響基線系統和開發訓練集發布

發布時間 : 2021-08-09 閱讀量 : 2413

在數字經濟快速發展的時代，數據成為生產要素，算力成為重要生產力，推動各大行業數字化轉型和生產力變革。以數據、算法和算力“三駕馬車”驅動的人工智能，正在改變基礎學科和各個行業的創新模式。鼓勵AI開發者積極創新，引領時代發展，是應對未來社會變革的必然要求。

由北京Magic Data、中科院聲學所和江蘇師范大學主辦，MagicHub.io開源社區、上海白玉蘭開源開放研究院、華為MindSpore社區、英特爾OpenVINO中文社區協辦的“對話式AI語音識別及說話人識別（ASR&SD）挑戰賽”自開展以來已經收到四十多個來自各大高校和企業參賽隊伍注冊報名。報名通道于8月6日關閉，主辦方正式開啟下一階段的賽程，8與7日正式向參賽隊伍開放開發訓練集和基線系統。

開發訓練集

主辦方針對賽道一“對話場景下的語音識別（ASR）準確率”和賽道二“對話場景下的說話人識別（Speaker Diarization）準確率”開放了以下訓練數據集： 1.160小時中文對話數據，主辦方通過郵件形式將下載鏈接發送到參賽者郵箱，下載時間為8月7日~8月9日24時止，請參賽者及時查收和下載。 2.MagicData開源的755小時ASR中文朗讀數據，請參賽者登錄MagicHub.io開源社區并注冊社區賬號進行數據集下載，下載地址為：https://magichub.io/cn/datasets/mandarin-chinese-scripted-speech-corpus-daily-use-sentence-command-and-query-sms/ 3.此外，賽道二SD賽道允許使用兩個開源數據集：[VoxCeleb Data (openslr-49)]，下載鏈接：http://www.openslr.org/49/和[CN-Celeb Corpus (openslr-82)] ，下載鏈接：http://www.openslr.org/82/供參賽者使用。

基線系統介紹

GitHub上基線系統教程

為了幫助參賽者快速、高質量完成模型開發和訓練，主辦方提供了基線系統，提供給參賽者使用。我們基于 kaldi 與 espnet 等開源工具與項目搭建了簡易的基線系統，賽道一ASR 賽道的基線系統我們使用了端到端系統，用 Conformer 對北京Magic Data提供的160小時中文對話數據和開源的755小時ASR中文朗讀數據進行了訓練。賽道二SD賽道上，我們使用了 VBHMM-XVector 系統，訓練時加入了 VoxCeleb 與 CN-Celeb 數據集，從而實現說話人特征的提取。詳細的使用教程請見：https://github.com/MagicHub-io/Magic-Data-ASR-SD-Challenge

基線系統答疑指導

參賽者在比賽過程中，對基線系統有任何問題，可在以下鏈接中提交：https://github.com/MagicHub-io/Magic-Data-ASR-SD-Challenge/issues，將有專家團隊給予解答。

競賽主委會支持團隊

參賽者在挑戰賽中遇到相關問題，可通過發送郵件至ncmmsc16th@163.com郵箱，郵件標題為“ASR&SD挑戰賽疑問”，由組委會的以下資深技術專家提供專業技術問答和指導：

競賽主委會支持團隊

指導專家們均是在語音界積累豐富的研究和實戰經驗，在他們的指導下，相信會給參賽者帶來不少啟發。

產品推介｜LLM多領域超自然SFT多輪對話文本數據集

晴數智慧深耕對話式AI領域多年，構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫療等近20個領域。

勇立潮頭！高品質SFT語音數據實現Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音，有不少機構及企業都進行了相關項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發布的Voicebox（https://voicebox.metademolab.com/），都是利用大數據、大模型和零樣本（zero-shot)合成技術，實現語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現？高質量端到端數據助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。

助力數據要素市場標準化，晴數智慧發布大模型數據集企業標準

數據確權授權的標準制定，首先是對數據進行分級分類。結合在高質量數據上多年積累，晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準，級別越高，數據精度越高。晴數智慧希望通過這套企業標準劃分不同的數據處理層級，規范并提升數據質量，并確保數據的可靠性、有效性和知識產權的清晰性。

晴數智慧推出MagicData-CLAM高質量SFT數據集，助力大模型實現更優效果

如果開源大模型使得企業不再制肘于自研大模型，那么基于大模型的生成式AI決勝關鍵將只有一個答案：數據。

新聞

ASR&SD挑戰賽正式打響基線系統和開發訓練集發布

即刻與 Magic Data 建立聯系？