光學(xué)字符識別OCR技術(shù)是指從圖像中自動提取文字信息的技術(shù),這項技術(shù)橫跨了人工智能里的兩大領(lǐng)域:CV(計算機視覺)和NLP(自然語言處理),綜合使用了這兩大領(lǐng)域中的很多技術(shù)成果。在過往的發(fā)展歷程中,OCR始終具備很強的產(chǎn)業(yè)應(yīng)用背景,是計算機領(lǐng)域里少數(shù)幾個一開始就由工業(yè)界和學(xué)術(shù)界雙輪驅(qū)動的領(lǐng)域。
不過,盡管OCR技術(shù)已走過一個世紀的發(fā)展,現(xiàn)今卻仍存在文檔圖像質(zhì)量退化嚴重、文字檢測及版面分析困難、非限定條件文字識別率低、結(jié)構(gòu)化智能理解能力差等亟待解決的問題。OCR技術(shù)的進階之路上,文檔圖像質(zhì)量的增強是重要的研究方向,需克服頁面彎曲、陰影遮擋、摩爾紋、圖片模糊等現(xiàn)代文本圖像處理中常見的干擾狀況。
合合信息基于自研的計算機圖形圖像技術(shù),推出多種圖像智能處理引擎,可實現(xiàn)圖像切邊增強、形變矯正、PS篡改檢測、去摩爾紋、水印去除、陰影處理、手寫文字擦除、圖像質(zhì)檢等多種圖像智能處理效果,規(guī)范圖像采集,提升圖像質(zhì)量,幫助各應(yīng)用領(lǐng)域簡化下游文檔處理任務(wù),通過圖像預(yù)處理提升文字識別效率與準確性。
切邊增強
智能判斷圖像中的主體邊緣并切除多余背景,同時通過增強銳化提升圖像質(zhì)量、突出文字。通過合合信息的切邊增強技術(shù),可自動裁切出圖像主體區(qū)域,并增強圖像質(zhì)量,經(jīng)過該項處理后再進入后續(xù)的文字識別、信息提取、材料審核等業(yè)務(wù)。
彎曲矯正&透視矯正
合合信息采用基于位移場網(wǎng)絡(luò)學(xué)習(xí)方法的系統(tǒng)構(gòu)架,可對形變文檔進行智能矯正,包括彎曲矯正與透視矯正,同時智能定位文檔邊緣,切除多余背景。
依托合合信息的圖像形變矯正技術(shù)與圖像增強能力,可將手機、相機等設(shè)備拍攝的文檔、書籍圖像優(yōu)化為如同平面掃描儀獲得的圖像。而對于本身就存在于彎曲載體上的文字,通過彎曲矯正技術(shù),可自動“拉平”圖像,提升各類非常規(guī)載體文字的識別效率與質(zhì)量。
PS篡改檢測
合合信息自研了基于深度學(xué)習(xí)的圖像篡改檢測方法,采用神經(jīng)網(wǎng)絡(luò)模型捕捉圖像在篡改過程中留下的細微痕跡,基于百萬級的數(shù)據(jù)學(xué)習(xí)圖像被篡改后統(tǒng)計特征的變化,可智能判斷圖片是否被篡改,支持檢測復(fù)制粘貼、拼接、擦除等多種篡改形式與混合篡改,還可定位修改區(qū)域,以熱力圖形式展示圖像區(qū)域篡改置信度。
去摩爾紋
合合信息采用多重神經(jīng)網(wǎng)絡(luò)技術(shù),通過分析暗角、摩爾紋的形成原理,對圖像中存在的干擾因素進行對應(yīng)處理,可去除所有樣式的摩爾紋,同時保證圖像信息完整、顏色不失真。
水印去除
合合信息基于全卷積網(wǎng)絡(luò)搭建圖像水印去除模型,支持對圖像中日期、logo、文字等形式的水印進行自動擦除,高保真處理,無痕還原圖像。
陰影處理
智能消除圖像中存在的各類形狀的陰影,解決圖像因光線條件復(fù)雜產(chǎn)生的有陰影、亮度不均勻問題。
手寫文字擦除
合合信息融合了內(nèi)容切分、手寫字跡分離網(wǎng)絡(luò)、文檔質(zhì)量增強等技術(shù),將待處理圖像劃分為手寫的“擦除區(qū)域”和印刷的“非擦除區(qū)域”,快速識別與自動擦除手寫文字,并對噪點、陰影、背景雜亂等復(fù)雜場景進行處理,將文檔圖像恢復(fù)至手寫前的狀態(tài)。
圖像質(zhì)檢
智能判斷圖像是否內(nèi)容完整、拍攝清晰、光線充足等,對圖像質(zhì)量進行自動化的準入判斷與實時反饋。
目前,合合信息相關(guān)智能文字識別及圖像處理技術(shù)已被應(yīng)用于公司旗下掃描全能王等C端APP中及行業(yè)解決方案中,輻射全球百余個國家和地區(qū)的億級用戶。
(新媒體責編:wa12)
聲明:
1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權(quán)轉(zhuǎn)載應(yīng)在授權(quán)范圍內(nèi)使用,并注明來源。
2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。電話:010-67683008
人民交通24小時值班手機:17801261553 商務(wù)合作:010-67683008轉(zhuǎn)602 E-mail:zzs@rmjtzz.com
Copyright 人民交通雜志 All Rights Reserved 版權(quán)所有 復(fù)制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層
增值電信業(yè)務(wù)經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務(wù)所 李大偉
京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2 廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號