該數(shù)據(jù)集專為訓(xùn)練更懂口語表達的AI模型打造,有利于提升中文語音識別的自然交互能力,覆蓋多場景真實對話,由多樣化人群錄制,字準率高。所有語句完整保留口語韻律特征,精準標注的停頓與標點助力模型學(xué)習(xí)中文節(jié)奏,顯著提升識別模型對自然發(fā)音的包容性與交互流暢度。
語種
中文
數(shù)據(jù)風(fēng)格
spontaneous
比特率
16bits
聲道
1
時長
20000+小時
符合ISO/IEC 27001和ISO/IEC 27701:2019標準認證
音頻、文本、圖像、音視頻多模態(tài)數(shù)據(jù)
涵蓋多領(lǐng)域的對話式、朗讀式及自發(fā)式數(shù)據(jù)
人機協(xié)同高精度標注