Tesseract圖形識(shí)別軟件的安裝

freewolf 發(fā)布于2019-07-30 14:54 / 3460人閱讀

摘要：安裝下載安裝安裝和這里只說(shuō)系統(tǒng)下的安裝，基本不會(huì)有什么問(wèn)題。在利用調(diào)用時(shí)遇到以下錯(cuò)誤系統(tǒng)找不到指定的文件。先用一個(gè)簡(jiǎn)單的驗(yàn)證碼測(cè)試一下

安裝

下載安裝： tesseract

安裝 pytesseract 和 Pillow

pip install pytesseract

pip install Pillow

這里只說(shuō) winsows 系統(tǒng)下的安裝，linux 基本不會(huì)有什么問(wèn)題。
在利用 pytesseract 調(diào)用 tesseract 時(shí)遇到以下錯(cuò)誤：

FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。

于是我看了下pytesseract源碼，發(fā)現(xiàn)有這樣的一行

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

tesseract_cmd = "tesseract"

估計(jì) windows 系統(tǒng)要手工添加環(huán)境變量，所以才產(chǎn)生的問(wèn)題，于是又將 tesseract 添加到環(huán)境變量 Path 中，但還是會(huì)報(bào)錯(cuò)：

pytesseract.pytesseract.TesseractError: (1, "Error opening data file Program Files (x86)Tesseract-OCReng.traineddata")

這個(gè)是eng.traineddata文件路徑有誤才會(huì)出現(xiàn)的錯(cuò)誤。

解決辦法：

先查看tesseract有沒(méi)有這個(gè)語(yǔ)言包，有CMD中輸入命令：

tesseract --list-langs

結(jié)果：

List of available languages (2):
eng
osd

然后再查看然后再google搜索一下問(wèn)題，發(fā)現(xiàn)還是 tesseract 的環(huán)境變量的問(wèn)題，找到了下面這一句話

Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.

于是新建的一個(gè)TESSDATA_PREFIX變量，指定tessdata的上級(jí)目錄也就是C:Program Files (x86)Tesseract-OCR

安裝完成。

先用一個(gè)簡(jiǎn)單的驗(yàn)證碼測(cè)試一下：

from PIL import Image
import pytesseract
result = pytesseract.image_to_string(Image.open(r"F:PIN_ws692.jpg","r"), lang="eng") 
print(result)

GPU云服務(wù)器云服務(wù)器圖形圖像識(shí)別軟件阿里云服務(wù)器圖形界面安裝軟件圖形識(shí)別最好的圖像識(shí)別軟件

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/40996.html

相關(guān)文章

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---4、數(shù)據(jù)庫(kù)的安裝：MySQL、MongoDB、Redis

摘要：運(yùn)行結(jié)果如果運(yùn)行結(jié)果一致則證明安裝成功。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)數(shù)據(jù)庫(kù)的安裝上一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝：GeckoDriver、PhantomJS、Aiohttp下一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---數(shù)據(jù)庫(kù)的安裝：MySQL、MongoDB、Redis 抓取下網(wǎng)頁(yè)代碼之后，下一步就是從網(wǎng)頁(yè)中提取信息，提取信息的方式有...

xbynet 2019-07-31 10:33 評(píng)論0 收藏0
Tesseract 進(jìn)行圖像識(shí)別

摘要：目前已作為開(kāi)源項(xiàng)目發(fā)布在，其最新版本已經(jīng)支持中文，并提供了一個(gè)命令行工具。他能夠用來(lái)識(shí)別英文，但是不能識(shí)別中文。所以要下載中文的識(shí)別包這樣就能識(shí)別中文。至少對(duì)印刷的中文字識(shí)別效果是很好的。 1. Tesseract 介紹 Tesseract的OCR引擎最先由HP實(shí)驗(yàn)室于1985年開(kāi)始研發(fā)，至1995年時(shí)已經(jīng)成為OCR業(yè)內(nèi)最準(zhǔn)確的三款識(shí)別引擎之一。然而，HP不久便決定放棄OCR業(yè)務(wù)，Te...

Tecode 2019-08-15 12:27 評(píng)論0 收藏0
node識(shí)別驗(yàn)證碼

摘要：驗(yàn)證碼的識(shí)別成功率跟圖片質(zhì)量關(guān)系密切，一般拿到后的驗(yàn)證碼都得經(jīng)過(guò)灰度化，二值化，去噪，利用就可以很方便的做到。了解驗(yàn)證碼什么是驗(yàn)證碼？所謂驗(yàn)證碼，就是將一串隨機(jī)產(chǎn)生的數(shù)字或符號(hào)，生成一幅圖片，圖片里加上一些干擾象素（防止OCR），由用戶肉眼識(shí)別其中的驗(yàn)證碼信息，輸入表單提交網(wǎng)站驗(yàn)證，驗(yàn)證成功后才能使用某項(xiàng)功能，通俗說(shuō)就是一種區(qū)分用戶是計(jì)算機(jī)和人的公共全自動(dòng)程序驗(yàn)證碼的作用可以...

levy9527 2019-08-26 11:57 評(píng)論0 收藏0
Python圖像處理之圖片文字識(shí)別（OCR）

摘要：與介紹將圖片翻譯成文字一般被稱為光學(xué)文字識(shí)別，。是目前公認(rèn)最優(yōu)秀最精確的開(kāi)源系統(tǒng)。我們以圖片為例輸入命令識(shí)別結(jié)果如下只識(shí)別錯(cuò)了一個(gè)字，識(shí)別率還是不錯(cuò)的。最后加一句，對(duì)于彩色圖片的識(shí)別效果沒(méi)有黑白圖片的效果好。 OCR與Tesseract介紹 ??將圖片翻譯成文字一般被稱為光學(xué)文字識(shí)別（Optical Character Recognition，OCR）?？梢詫?shí)現(xiàn)OCR 的底層庫(kù)并不多，...

W4n9Hu1 2019-07-30 16:48 評(píng)論0 收藏0
python利用Tesseract識(shí)別驗(yàn)證碼

摘要：無(wú)論是是自動(dòng)化登錄還是爬蟲(chóng)，總繞不開(kāi)驗(yàn)證碼，這次就來(lái)談?wù)勚泄鈱W(xué)識(shí)別驗(yàn)證碼模塊和。和是的一個(gè)識(shí)別庫(kù)，但其實(shí)是對(duì)做的一層封裝，是的引擎包裝器所以它們的核心是因此在安裝之前，我們需要先安裝。無(wú)論是是自動(dòng)化登錄還是爬蟲(chóng)，總繞不開(kāi)驗(yàn)證碼，這次就來(lái)談?wù)刾ython中光學(xué)識(shí)別驗(yàn)證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個(gè)OCR識(shí)...

王陸寬 2019-07-31 09:59 評(píng)論0 收藏0