行業洞察 | OCR文字識別技術都有哪些用途
發布時間 : 2022-11-10 閱讀量 : 1606
現在連一支筆也卷起來了。
近期,網易有道先后發布了新一代詞典筆,此前科大訊飛也發布了智能錄音筆。這些科技含量滿點的筆不僅可以支持高質量的錄音和高效率的文字轉寫,同時能夠識別眾多語種和方言,中文在線轉寫識別率非常高,并支持離線轉寫等功能。
這些筆還配備文字識別OCR(Optical Character Recognition)攝像頭。通過攝像頭拍攝所需內容后,可對圖像自由進行剪裁,同時幫助提升識別的準確率。通過文字識別技術,進一步拉進與消費者的距離。近年來文字識別也幾乎成為了無處不在的便利小幫手。
OCR文字識別的應用場景
1.證件識別:主要識別證件信息,用于身份證、護照、駕駛證等20余種證件識別,目前有證件采集儀、護照閱讀器、門禁考勤機、人證一體掃描儀、移動端證件識別。
2.銀行卡識別:主要識別銀行卡卡號,用于移動支付綁卡,提升APP用戶體驗。支持國內各個銀行的信用卡、儲蓄卡等識別。
3.車牌識別:主要識別車牌號碼、顏色、類型、車標、車身顏色等車輛特征信息,用于移動警務,占道停車,停車場管理,車險等領域。
4.名片識別:主要識別名片內容,用于移動展業、CRM客戶管理系統等領域,支持各種板式的各種名片,還支持多語種名片識別。
5.營業執照識別:主要識別營業執照信息,用于需要代替人工提取營業執照信息的領域。
6.汽車VIN碼識別:主要識別車架號(汽車VIN碼),用于汽車管理、汽車服務、二手車交易、租車等領域。
7.票據類識別:主要識別增值稅發票等不同格式的票據內容,用于財務管理、汽車、銀行、金融等領域。
8.文檔文字識別:主要識別文檔文字,用于圖書館、報社等針對圖書、報紙、雜志等文本類,及其他需要將紙質文檔進行電子化的領域。
OCR文字識別的應用難點
通常來說,證件類文字識別相對較為簡單,其次是通用文檔和自然場景的文字識別,最后是通用表格類的文字識別。
相對來講,證件證類圖像各項約束更多,或者說問題空間更小。比如身份證的“性別”一欄,只有 “男”或者“女” 兩種可能性。在版面上,目前以二代身份證為主,版式單一、字體確定,文字識別正確率更高。
但也存在著識別的難點,比如在識別人名和地名的時候,最大的風險是用戶隱私,以及數據合規的問題。為此就需要數據合成,但如何更好的合成對模型有效的數據?數據的合成不好就會導致顯示不正確,識別率下降。
通用文檔它的難點在于如何很好的結構化。如簡歷識別。想象各種各樣的版式,但是鍵值對幾乎是可以枚舉的。完全給你純文本版的簡歷,利用 N;P 做好各類樣式適配的結構化都應該不太簡單,更何況是非文字版。
自然場景的難點在于,背景的復雜多樣、字體五花八門、遮擋、光照、多尺度以及如何大批量快速訓練,而現在的自然場景,還有一個特點就是目標文字區域附近會有噪音(比如:樓牌附近都是廣告),使得目標信息解析結構化也是痛點難點。
表格識別最難,因為表格之間風格的高度相似和單元格推理的極度易錯(對于多行密集型,基本上一行出錯,全表完蛋),同時無邊框的表格推理識別更難。
OCR文字識別數據資源稀缺
俗話說“人類的物質需求的是促進生產力發展的動力”,上述這些落地場景促進者OCR技術的快速發展。
目前,深度學習算法成為了OCR為題的SOTA方案。當前深度學習OCR算法均采用上述的兩階段模式:文本檢測+文本識別。這些深度學習算法需要大量的數據訓練,數據永遠是深度學習算法取得卓越效果的前提。
但是由于場景數據不易獲取,很多生活場景數據具有隱私性,標注困難且需要專業團隊清洗、標注。數據的稀缺對于OCR技術的落地和發展具有阻礙性。因此工程師們更需要借助專業的數據公司的力量,取得更多精標的OCR圖像數據,從而加速科研進程和技術落地的可能性。
Magic Data提供的數據服務均符合ISO/IEC 27001和ISO/IEC 27701標準認證,同時自研Annotator平臺能夠通過人機協同對音頻、文本、圖像、音視頻多模態等數據進行高精度標注,并可以根據企業需求進行私有化部署,受到全球 200 多家頂級 AI 公司的信賴。

了解更多詳情 m.yebxkn.cn