Magic Data亮相2021中國汽車論壇 AI數(shù)據(jù)推動汽車行業(yè)高質(zhì)量發(fā)展
發(fā)布時間 : 2021-07-01 閱讀量 : 1898

6月下旬,由中國汽車工業(yè)協(xié)會(CAAM)主辦、世界汽車組織(OICA)支持的“2021中國汽車論壇”在上海嘉定圓滿召開,論壇現(xiàn)場匯聚了政府部門主管領(lǐng)導(dǎo)、全球汽車企業(yè)領(lǐng)袖、領(lǐng)先科技公司代表、汽車行業(yè)精英和權(quán)威專家等,共謀汽車產(chǎn)業(yè)發(fā)展新格局。
論壇圍繞“新起點(diǎn)、新戰(zhàn)略、新格局——推動汽車產(chǎn)業(yè)高質(zhì)量發(fā)展”主題,涉及車市轉(zhuǎn)型、新能源、智能化、技術(shù)創(chuàng)新、品牌化等議題。在智能化方面,智能網(wǎng)聯(lián)汽車發(fā)展及數(shù)據(jù)安全、智能座艙創(chuàng)新技術(shù)等話題成為業(yè)內(nèi)外關(guān)注的焦點(diǎn)。Magic Data作為全球領(lǐng)先多模態(tài)數(shù)據(jù)服務(wù)提供商亮相此次大會,普及對話式AI數(shù)據(jù)對推動智能座艙發(fā)展的重要作用。在智能座艙創(chuàng)新技術(shù)論壇上,Magic Data創(chuàng)始人兼CEO張晴晴發(fā)表題為“數(shù)據(jù)推動智能座艙發(fā)展”的主題報告。
智能座艙成車企發(fā)力重點(diǎn)
隨著人工智能技術(shù)的發(fā)展以及汽車市場的轉(zhuǎn)型加快,座艙數(shù)字化成為汽車智能化的重點(diǎn),各大車企通過發(fā)力智能座艙提升消費(fèi)者體驗(yàn)。據(jù)數(shù)據(jù)顯示,國內(nèi)智能座艙系統(tǒng)主要部件市場空間在2020年達(dá)到480億元左右,2025年有望達(dá)到982億元左右,2019年至2025年年均增長14%左右。
汽車座艙實(shí)現(xiàn)智能化需要云計算、AI、芯片、操作系統(tǒng)、數(shù)據(jù)等技術(shù)合力,其中通過語音方式的人機(jī)交互是解放消費(fèi)者雙手的核心技術(shù)之一,而讓人機(jī)交互更自然,體驗(yàn)更好,離不開大量對話式AI語音訓(xùn)練數(shù)據(jù)的支撐。
用數(shù)據(jù)解決智能座艙痛點(diǎn)

在車載信息空間內(nèi),語音是傳遞信息的主要載體,也是智能座艙落地的重要方面。智能座艙諸多功能中,涉及到語音的地方較多,比如智能導(dǎo)航、智能音樂搜索、命令控制等都可以通過語音進(jìn)行操控。
與家居等環(huán)境不同的是,車載環(huán)境復(fù)雜,特別行車過程中伴隨著噪音、開關(guān)車窗、多人說話等復(fù)雜環(huán)境,模型在復(fù)雜的車內(nèi)環(huán)境聽懂人說話還要解決說話人的方言、重口音、吞音等問題。以至于模型對人聲反應(yīng)較為機(jī)械,代入感較差,和消費(fèi)者要求的自然流暢對話體驗(yàn)存在一定差距。
在解決這些痛點(diǎn)時,開發(fā)者可能認(rèn)為算法不好,重點(diǎn)要進(jìn)行算法優(yōu)化。事實(shí)上,相對于算法,數(shù)據(jù)對模型的影響才是根本的。通過對比顯示,不同算法的模型使用同一組數(shù)據(jù)訓(xùn)練,結(jié)果沒有太大差異;如果用同一個算法的兩個模型,分別選擇不同的數(shù)據(jù),得出的結(jié)果有很大不同。所以,AI系統(tǒng)的增益主要來自數(shù)據(jù)。
數(shù)據(jù)配比2-8原則幫助車企降本增效

對于模型來說,提升識別率需要高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)是人工智能的燃料,未被結(jié)構(gòu)化的原始數(shù)據(jù)好比原油,需要經(jīng)過清洗、分類、標(biāo)注、質(zhì)檢和篩選等專業(yè)步驟,形成結(jié)構(gòu)化數(shù)據(jù),才能有用于模型訓(xùn)練。數(shù)據(jù)結(jié)構(gòu)化每一個步驟都會影響到模型性能,也就是說,結(jié)構(gòu)化質(zhì)量決定了智能系統(tǒng)的性能。
結(jié)構(gòu)化的數(shù)據(jù)用的越多,模型性能就越好,但對于車企來說,提高汽車智能座艙的人機(jī)交互體驗(yàn)同時,還需考慮到投入產(chǎn)出比,盡量以適當(dāng)?shù)耐度胗休^好的產(chǎn)出。因此,Magic Data提出數(shù)據(jù)配比2-8原則,先保證通用性能,再進(jìn)行個性化定制。對于車企來說,用于提升模型性能的80%數(shù)據(jù)都屬于共性數(shù)據(jù),現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)即可滿足要求,可一次性投入;剩余20%數(shù)據(jù)根據(jù)需求進(jìn)行精準(zhǔn)定制化服務(wù),進(jìn)一步提升模型性能。
Magic Data目前擁有超過150000小時結(jié)構(gòu)化的AI訓(xùn)練數(shù)據(jù)集,其中超過90000小時對話式AI訓(xùn)練數(shù)據(jù)集,超過50000小時朗讀數(shù)據(jù)集,超過10000小時自發(fā)式數(shù)據(jù)集。結(jié)構(gòu)化AI訓(xùn)練數(shù)據(jù)集在數(shù)據(jù)安全上達(dá)到國際標(biāo)準(zhǔn),有利于車企更快地迭代模型。
Magic Data擁有超過60種語言的數(shù)據(jù)服務(wù)能力,包括中文、英語、德語、日語等大語種,同時覆蓋上海話、四川話、粵語等八大方言區(qū)方言。針對車企需求,Magic Data開發(fā)中英文混合對話數(shù)據(jù)集、車載噪音等數(shù)據(jù)集,滿足車載場景下的AI模型訓(xùn)練需求。
智能座艙是車企提升消費(fèi)者體驗(yàn)的重要發(fā)力點(diǎn),智能座艙實(shí)現(xiàn)更自然更智能的人機(jī)交互體驗(yàn),離不開對話式AI數(shù)據(jù),Magic Data為智能座艙提供專業(yè)的數(shù)據(jù)服務(wù),用數(shù)據(jù)推動汽車行業(yè)高質(zhì)量發(fā)展。