該數(shù)據(jù)集專為訓(xùn)練更懂口語表達(dá)的AI模型打造,有利于提升粵語語音識別的自然交互能力,覆蓋多場景真實對話,由多樣化人群錄制,字準(zhǔn)率高。針對粵語九聲調(diào)、懶音、俚語等特性優(yōu)化標(biāo)注,嚴(yán)格保證音字匹配質(zhì)量。完整語句結(jié)構(gòu)與符合口語習(xí)慣的標(biāo)點(diǎn)設(shè)計,幫助模型精準(zhǔn)捕捉粵語特有的停頓節(jié)奏和語氣詞用法,攻克方言識別中的泛化瓶頸。
語種
粵語
數(shù)據(jù)風(fēng)格
spontaneous
比特率
16bits
聲道
1
時長
5000+小時
符合ISO/IEC 27001和ISO/IEC 27701:2019標(biāo)準(zhǔn)認(rèn)證
音頻、文本、圖像、音視頻多模態(tài)數(shù)據(jù)
涵蓋多領(lǐng)域的對話式、朗讀式及自發(fā)式數(shù)據(jù)
人機(jī)協(xié)同高精度標(biāo)注