OCR 圖像矯正

wenshi11019 發(fā)布于2019-07-31 10:10 / 1428人閱讀

摘要：一般來說，分為分割和識別兩個部分。此文將探討分割問題。通常我們第一步是將用戶傳入的照片進(jìn)行掃描，提取待識別的區(qū)域，也就如圖下面將文件摳出來。

OCR（Optical Character Recognition，光學(xué)字符識別）是指電子設(shè)備檢查紙上字符然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程；采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件，并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式，供文字處理軟件進(jìn)一步編輯加工的技術(shù)。
一般來說，OCR分為分割和識別兩個部分。此文將探討分割問題。
通常我們第一步是將用戶傳入的照片進(jìn)行掃描，提取待識別的區(qū)域，也就如圖下面將文件摳出來。

具體步驟：
（1）獲取文件輪廓
（2）獲取文件四角的點(diǎn)坐標(biāo)
（3）透視變換

導(dǎo)入庫

import numpy as np
import cv2
import matplotlib.pyplot as plt
import math

獲取文件輪廓

image = cv2.imread("原始照片.jpg")                                             #讀原始照片
gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)                                 #二值化
gray = cv2.GaussianBlur(gray, (5, 5), 0)                                      #高斯濾波
kernel = np.ones((3,3),np.uint8)  
dilation = cv2.dilate(gray,kernel)                                            #膨脹
edged = cv2.Canny(dilation, 30, 120)                                          #邊緣提取
_, cnts, hierarchy = cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)
cv2.drawContours(image,cnts,-1,(0,0,255),3)

獲取文件四角點(diǎn)的坐標(biāo)

cnts0=cnts[0]
cnts1=cnts[1]

rect = np.zeros((4,2), dtype="float32")

rect[0] = cnts1[np.argmin(np.sum(cnts1,axis=-1))]
rect[2] = cnts0[np.argmax(np.sum(cnts0,axis=-1))]
rect[1] = cnts1[np.argmin(np.diff(cnts1,axis=-1))]
rect[3] = cnts0[np.argmax(np.diff(cnts0,axis=-1))]

四角點(diǎn)的順序：左上，右上，右下，左下
左上坐標(biāo)和最小，右下坐標(biāo)和最大
右上坐標(biāo)差最小，左下坐標(biāo)差最大（Y-X）

根據(jù)四角點(diǎn)坐標(biāo)求矯正后圖像的尺寸

(tl,tr,br,bl) = rect
    
width1 = np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))
width2 = np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))
width = max(int(width1),int(width2))
    
height1 = np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))
height2 = np.sqrt(((tl[0]-bl[0])**2)+((tl[1]-bl[1])**2))
height = max(int(height1),int(height2))
    
dst = np.array([
    [0, 0],
    [width - 1, 0],
    [width - 1, height - 1],
    [0, height - 1]], dtype = "float32")

透視變換

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (width, height))

GPU云服務(wù)器云服務(wù)器 ocr 圖像識別 ocr圖像識別技術(shù) 尚書ocr圖像識別 ocr圖像識別是什么

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43391.html

發(fā)表評論

登陸后可評論

0條評論

wenshi11019

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow2.4安裝

閱讀 3311·2023-04-25 22:47
【爬蟲必備基礎(chǔ)】?通宵爆肝兩萬字xpath教程?學(xué)不會找我！

閱讀 3822·2021-10-11 10:59
VoLLcloud：香港三網(wǎng)CMI線路大帶寬vps低至7折;100Mbps起步,月付低至$3.2

閱讀 2335·2021-09-07 10:12
hostwinds：vps/云主機(jī)方案大全以及測評教程，測試IP，注冊購買教程分享

閱讀 4308·2021-08-11 11:15
前端開源項(xiàng)目周報(bào)1213

閱讀 3457·2019-08-30 13:15
[開源] 分享自己用的 GitHub 分組管理工具.

閱讀 1774·2019-08-30 13:00
[譯]介紹一下漸進(jìn)式 Web App(離線) - Part 1

閱讀 996·2019-08-29 14:02
瀏覽器兼容問題

閱讀 1712·2019-08-26 13:57

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

OCR 圖像矯正

相關(guān)文章

**【論文閱讀】Beyond OCR + VQA: 將OCR融入TextVQA的執(zhí)行流程中形成更魯棒更準(zhǔn)**

發(fā)表評論

0條評論

wenshi11019

男|高級講師

TA的文章

tensorflow2.4安裝

【爬蟲必備基礎(chǔ)】?通宵爆肝兩萬字xpath教程?學(xué)不會找我！

VoLLcloud：香港三網(wǎng)CMI線路大帶寬vps低至7折;100Mbps起步,月付低至$3.2

hostwinds：vps/云主機(jī)方案大全以及測評教程，測試IP，注冊購買教程分享

前端開源項(xiàng)目周報(bào)1213

[開源] 分享自己用的 GitHub 分組管理工具.

[譯]介紹一下漸進(jìn)式 Web App(離線) - Part 1

瀏覽器兼容問題

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

OCR 圖像矯正

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！