數據開源 | Magic Data 開源中日跨境電商平行語料1000+

發布時間 : 2022-12-01 閱讀量 : 1819

如果問近兩年最熱的概念，相信不少人會回答：元宇宙。但元宇宙到底是什么，目前還尚未有明確定義。廣義來說，元宇宙是一個視覺圖像豐富的虛擬空間，在這個空間中人們可以工作、娛樂、購物、社交等。

你可以想像自己真的“存在”于一個虛擬的世界中，不僅可以訂制自己的化身 (Avatar)，還能夠擁有數位資產，從而可以與來自全世界不同地區、不同膚色、不同語種的伙伴進行互動交流。

跨境電商中的虛擬人

如今元宇宙已經滲透到各行各業，從游戲到影視，從客服到電商，從主播到藝術界、旅游界等等，仿佛一夜之間我們的生活離不開元宇宙的加持。

而提到元宇宙的商業前景和發展，虛擬人絕對會占有一席之地。各類虛擬人不斷跨界，不僅成功變身新一代IP偶像，甚至不乏影視明星和歌手。其中，電商領域客服則是虛擬人營業最多的場景之一，也是我們經常在購物APP中見到的7x24小時在線的電商小姐姐小哥哥。

目前國內各大電商平臺的競爭已進入白熱化，眾多電商平臺開始布局跨境電商。11月24日，國務院批復同意在廊坊市、滄州市、運城市等33個城市和地區設立跨境電子商務綜合試驗區。這是中國設立的第七批跨境電子商務綜合試驗區。此次擴圍之后，中國跨境電子商務綜合試驗區數量達到165個，覆蓋31個省份。這也體現了國家對于跨境電商的大力支持。

跨境電商的溝通挑戰

困擾跨境電商發展的重要問題之一在于語言，采用多語系直播人員會大幅增加企業的資金成本和時間成本投入。而虛擬人則體現出其獨有的強大優勢，比真人效率高、待機時間長、可復用性強，具有巨大的商業潛力。

虛擬人主流的對話功能主要依賴自動語音識別、自然語言處理、自動語音合成技術。目前這三種技術都是依賴深度學習模型，需要經過大量數據的訓練，才能夠得到可以識別和合成文本、語音的虛擬人。

而訓練掌握雙語種甚至多語種的虛擬人，需要多語種的平行語料。平行語料庫是由原文文本及其平行對應的譯語文本構成的雙語或多語語料庫。其對齊程度可有詞級、句級、段級和篇級幾種。平行語料庫按翻譯方向的不同有單向平行語料庫、雙向平行語料庫和多向平行語料庫等三種形式。平行語料庫指庫中的兩種或多種文本互相是對方的譯文，可以用于翻譯或者機器翻譯研究。

但是由于平行語料采集比單一語種語料庫需要更加高級的采錄人員，投入更多的時間和財力成本，因此非常稀缺。很多基于平行語料研究的自動語音識別、自然語言處理、語音合成技術的研究和落地，都因為數據的缺乏，沒能得到很好的推進和執行。

Magic Data數據開源 | 跨境電商場景中日平行語料庫

為更好的助力跨境電商虛擬人客服的發展，Magic Data開源跨境電商場景下的中日平行語料庫，為模型訓練提供幫助。Magic Data本次開源1000+中日平行語料數據集，文本內容選自電商平臺。數據類別豐富多樣，包含如數碼產品、衣帽服飾、兒童玩具、美發美妝等多種商品種類。數據題材涉獵廣泛，包含商品標題、產品說明、用戶評價、商戶問答等。文本由日本本國譯員完成，并由在日華人進行校對，適用于零售場景的機器翻譯領域。

數據集下載：https://magichub.com/datasets/nlp_chinese-japanese-parallel-corpus-e-commerce/

海量數據的開源是眾多科研工作者的訴求，Magic Data希望通過開源數據激發技術的革新，促進行業進步。

更多開源數據，歡迎訪問 MagicHub 開源社區 https://magichub.com/

產品推介｜LLM多領域超自然SFT多輪對話文本數據集

晴數智慧深耕對話式AI領域多年，構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫療等近20個領域。

勇立潮頭！高品質SFT語音數據實現Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音，有不少機構及企業都進行了相關項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發布的Voicebox（https://voicebox.metademolab.com/），都是利用大數據、大模型和零樣本（zero-shot)合成技術，實現語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現？高質量端到端數據助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。

助力數據要素市場標準化，晴數智慧發布大模型數據集企業標準

數據確權授權的標準制定，首先是對數據進行分級分類。結合在高質量數據上多年積累，晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準，級別越高，數據精度越高。晴數智慧希望通過這套企業標準劃分不同的數據處理層級，規范并提升數據質量，并確保數據的可靠性、有效性和知識產權的清晰性。

晴數智慧推出MagicData-CLAM高質量SFT數據集，助力大模型實現更優效果

如果開源大模型使得企業不再制肘于自研大模型，那么基于大模型的生成式AI決勝關鍵將只有一個答案：數據。

新聞

數據開源 | Magic Data 開源中日跨境電商平行語料1000+

跨境電商中的虛擬人

跨境電商的溝通挑戰

Magic Data數據開源 | 跨境電商場景中日平行語料庫

即刻與 Magic Data 建立聯系？