數據開源 | Magic Data 開源中日跨境電商平行語料1000+
發布時間 : 2022-12-01 閱讀量 : 1819
如果問近兩年最熱的概念,相信不少人會回答:元宇宙。但元宇宙到底是什么,目前還尚未有明確定義。廣義來說,元宇宙是一個視覺圖像豐富的虛擬空間,在這個空間中人們可以工作、娛樂、購物、社交等。
你可以想像自己真的“存在”于一個虛擬的世界中,不僅可以訂制自己的化身 (Avatar),還能夠擁有數位資產,從而可以與來自全世界不同地區、不同膚色、不同語種的伙伴進行互動交流。
跨境電商中的虛擬人
如今元宇宙已經滲透到各行各業,從游戲到影視,從客服到電商,從主播到藝術界、旅游界等等,仿佛一夜之間我們的生活離不開元宇宙的加持。
而提到元宇宙的商業前景和發展,虛擬人絕對會占有一席之地。各類虛擬人不斷跨界,不僅成功變身新一代IP偶像,甚至不乏影視明星和歌手。其中,電商領域客服則是虛擬人營業最多的場景之一,也是我們經常在購物APP中見到的7x24小時在線的電商小姐姐小哥哥。
目前國內各大電商平臺的競爭已進入白熱化,眾多電商平臺開始布局跨境電商。11月24日,國務院批復同意在廊坊市、滄州市、運城市等33個城市和地區設立跨境電子商務綜合試驗區。這是中國設立的第七批跨境電子商務綜合試驗區。此次擴圍之后,中國跨境電子商務綜合試驗區數量達到165個,覆蓋31個省份。這也體現了國家對于跨境電商的大力支持。

跨境電商的溝通挑戰
困擾跨境電商發展的重要問題之一在于語言,采用多語系直播人員會大幅增加企業的資金成本和時間成本投入。而虛擬人則體現出其獨有的強大優勢,比真人效率高、待機時間長、可復用性強,具有巨大的商業潛力。
虛擬人主流的對話功能主要依賴自動語音識別、自然語言處理、自動語音合成技術。目前這三種技術都是依賴深度學習模型,需要經過大量數據的訓練,才能夠得到可以識別和合成文本、語音的虛擬人。
而訓練掌握雙語種甚至多語種的虛擬人,需要多語種的平行語料。平行語料庫是由原文文本及其平行對應的譯語文本構成的雙語或多語語料庫。其對齊程度可有詞級、句級、段級和篇級幾種。平行語料庫按翻譯方向的不同有單向平行語料庫、雙向平行語料庫和多向平行語料庫等三種形式。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,可以用于翻譯或者機器翻譯研究。
但是由于平行語料采集比單一語種語料庫需要更加高級的采錄人員,投入更多的時間和財力成本,因此非常稀缺。很多基于平行語料研究的自動語音識別、自然語言處理、語音合成技術的研究和落地,都因為數據的缺乏,沒能得到很好的推進和執行。

Magic Data數據開源 | 跨境電商場景中日平行語料庫
為更好的助力跨境電商虛擬人客服的發展,Magic Data開源跨境電商場景下的中日平行語料庫,為模型訓練提供幫助。Magic Data本次開源1000+中日平行語料數據集,文本內容選自電商平臺。數據類別豐富多樣,包含如數碼產品、衣帽服飾、兒童玩具、美發美妝等多種商品種類。數據題材涉獵廣泛,包含商品標題、產品說明、用戶評價、商戶問答等。文本由日本本國譯員完成,并由在日華人進行校對,適用于零售場景的機器翻譯領域。

數據集下載:https://magichub.com/datasets/nlp_chinese-japanese-parallel-corpus-e-commerce/
海量數據的開源是眾多科研工作者的訴求,Magic Data希望通過開源數據激發技術的革新,促進行業進步。
更多開源數據,歡迎訪問 MagicHub 開源社區 https://magichub.com/