行業洞察 | OCR文字識別技術都有哪些用途

發布時間 : 2022-11-10 閱讀量 : 1606

現在連一支筆也卷起來了。

近期，網易有道先后發布了新一代詞典筆，此前科大訊飛也發布了智能錄音筆。這些科技含量滿點的筆不僅可以支持高質量的錄音和高效率的文字轉寫，同時能夠識別眾多語種和方言，中文在線轉寫識別率非常高，并支持離線轉寫等功能。

這些筆還配備文字識別OCR（Optical Character Recognition）攝像頭。通過攝像頭拍攝所需內容后，可對圖像自由進行剪裁，同時幫助提升識別的準確率。通過文字識別技術，進一步拉進與消費者的距離。近年來文字識別也幾乎成為了無處不在的便利小幫手。

OCR文字識別的應用場景

1.證件識別：主要識別證件信息，用于身份證、護照、駕駛證等20余種證件識別，目前有證件采集儀、護照閱讀器、門禁考勤機、人證一體掃描儀、移動端證件識別。

2.銀行卡識別：主要識別銀行卡卡號，用于移動支付綁卡，提升APP用戶體驗。支持國內各個銀行的信用卡、儲蓄卡等識別。

3.車牌識別：主要識別車牌號碼、顏色、類型、車標、車身顏色等車輛特征信息，用于移動警務，占道停車，停車場管理，車險等領域。

4.名片識別：主要識別名片內容，用于移動展業、CRM客戶管理系統等領域，支持各種板式的各種名片，還支持多語種名片識別。

5.營業執照識別：主要識別營業執照信息，用于需要代替人工提取營業執照信息的領域。

6.汽車VIN碼識別：主要識別車架號（汽車VIN碼），用于汽車管理、汽車服務、二手車交易、租車等領域。

7.票據類識別：主要識別增值稅發票等不同格式的票據內容，用于財務管理、汽車、銀行、金融等領域。

8.文檔文字識別：主要識別文檔文字，用于圖書館、報社等針對圖書、報紙、雜志等文本類，及其他需要將紙質文檔進行電子化的領域。

OCR文字識別的應用難點

通常來說，證件類文字識別相對較為簡單，其次是通用文檔和自然場景的文字識別，最后是通用表格類的文字識別。

相對來講，證件證類圖像各項約束更多，或者說問題空間更小。比如身份證的“性別”一欄，只有 “男”或者“女” 兩種可能性。在版面上，目前以二代身份證為主，版式單一、字體確定，文字識別正確率更高。

但也存在著識別的難點，比如在識別人名和地名的時候，最大的風險是用戶隱私，以及數據合規的問題。為此就需要數據合成，但如何更好的合成對模型有效的數據？數據的合成不好就會導致顯示不正確，識別率下降。

通用文檔它的難點在于如何很好的結構化。如簡歷識別。想象各種各樣的版式，但是鍵值對幾乎是可以枚舉的。完全給你純文本版的簡歷，利用 N;P 做好各類樣式適配的結構化都應該不太簡單，更何況是非文字版。

自然場景的難點在于，背景的復雜多樣、字體五花八門、遮擋、光照、多尺度以及如何大批量快速訓練，而現在的自然場景，還有一個特點就是目標文字區域附近會有噪音（比如：樓牌附近都是廣告），使得目標信息解析結構化也是痛點難點。

表格識別最難，因為表格之間風格的高度相似和單元格推理的極度易錯（對于多行密集型，基本上一行出錯，全表完蛋），同時無邊框的表格推理識別更難。

OCR文字識別數據資源稀缺

俗話說“人類的物質需求的是促進生產力發展的動力”，上述這些落地場景促進者OCR技術的快速發展。

目前，深度學習算法成為了OCR為題的SOTA方案。當前深度學習OCR算法均采用上述的兩階段模式：文本檢測+文本識別。這些深度學習算法需要大量的數據訓練，數據永遠是深度學習算法取得卓越效果的前提。

但是由于場景數據不易獲取，很多生活場景數據具有隱私性，標注困難且需要專業團隊清洗、標注。數據的稀缺對于OCR技術的落地和發展具有阻礙性。因此工程師們更需要借助專業的數據公司的力量，取得更多精標的OCR圖像數據，從而加速科研進程和技術落地的可能性。

Magic Data提供的數據服務均符合ISO/IEC 27001和ISO/IEC 27701標準認證，同時自研Annotator平臺能夠通過人機協同對音頻、文本、圖像、音視頻多模態等數據進行高精度標注，并可以根據企業需求進行私有化部署，受到全球 200 多家頂級 AI 公司的信賴。

了解更多詳情 m.yebxkn.cn

產品推介｜LLM多領域超自然SFT多輪對話文本數據集

晴數智慧深耕對話式AI領域多年，構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集，覆蓋近20個語種及方言，語料話題分布廣泛，涉及休閑娛樂、衣食住行、教育醫療等近20個領域。

勇立潮頭！高品質SFT語音數據實現Zero-Shot語音復刻大模型

文本到語音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音，有不少機構及企業都進行了相關項目的研究，包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）還有Meta今年發布的Voicebox（https://voicebox.metademolab.com/），都是利用大數據、大模型和零樣本（zero-shot)合成技術，實現語音合成的音色、韻律、風格的多樣性的代表。

巴別塔再現？高質量端到端數據助力Meta推出AI模型SeamlessM4T

追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事：在古代，人們說著同一種語言，決定建造一座高聳入云，塔頂能觸及天堂的塔，被稱為巴別塔，以彰顯人類的力量和創造力。然而上帝看到人類的意圖，并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同，使他們無法相互理解。這導致了混亂和分裂，無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日，Meta推出AI模型SeamlessM4T，該模型可翻譯和轉錄近百種語言，似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。

助力數據要素市場標準化，晴數智慧發布大模型數據集企業標準

數據確權授權的標準制定，首先是對數據進行分級分類。結合在高質量數據上多年積累，晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準，級別越高，數據精度越高。晴數智慧希望通過這套企業標準劃分不同的數據處理層級，規范并提升數據質量，并確保數據的可靠性、有效性和知識產權的清晰性。

晴數智慧推出MagicData-CLAM高質量SFT數據集，助力大模型實現更優效果

如果開源大模型使得企業不再制肘于自研大模型，那么基于大模型的生成式AI決勝關鍵將只有一個答案：數據。

新聞

行業洞察 | OCR文字識別技術都有哪些用途

OCR文字識別的應用場景

OCR文字識別的應用難點

OCR文字識別數據資源稀缺

即刻與 Magic Data 建立聯系？