摘要:安裝下載安裝安裝和這里只說(shuō)系統(tǒng)下的安裝,基本不會(huì)有什么問(wèn)題。在利用調(diào)用時(shí)遇到以下錯(cuò)誤系統(tǒng)找不到指定的文件。先用一個(gè)簡(jiǎn)單的驗(yàn)證碼測(cè)試一下
安裝
下載安裝: tesseract
安裝 pytesseract 和 Pillow
pip install pytesseract pip install Pillow
這里只說(shuō) winsows 系統(tǒng)下的安裝,linux 基本不會(huì)有什么問(wèn)題。
在利用 pytesseract 調(diào)用 tesseract 時(shí)遇到以下錯(cuò)誤:
FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。
于是我看了下pytesseract源碼,發(fā)現(xiàn)有這樣的一行
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = "tesseract"
估計(jì) windows 系統(tǒng)要手工添加環(huán)境變量,所以才產(chǎn)生的問(wèn)題,于是又將 tesseract 添加到環(huán)境變量 Path 中,但還是會(huì)報(bào)錯(cuò):
pytesseract.pytesseract.TesseractError: (1, "Error opening data file Program Files (x86)Tesseract-OCReng.traineddata")
這個(gè)是eng.traineddata文件路徑有誤才會(huì)出現(xiàn)的錯(cuò)誤。
解決辦法:
先查看tesseract有沒(méi)有這個(gè)語(yǔ)言包,有CMD中輸入命令:
tesseract --list-langs
結(jié)果:
List of available languages (2): eng osd
然后再查看然后再google搜索一下問(wèn)題,發(fā)現(xiàn)還是 tesseract 的環(huán)境變量的問(wèn)題,找到了下面這一句話
Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.
于是新建的一個(gè)TESSDATA_PREFIX變量,指定tessdata的上級(jí)目錄也就是C:Program Files (x86)Tesseract-OCR
安裝完成。
先用一個(gè)簡(jiǎn)單的驗(yàn)證碼測(cè)試一下:
from PIL import Image import pytesseract result = pytesseract.image_to_string(Image.open(r"F:PIN_ws692.jpg","r"), lang="eng") print(result)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/40996.html
摘要:運(yùn)行結(jié)果如果運(yùn)行結(jié)果一致則證明安裝成功。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)數(shù)據(jù)庫(kù)的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---數(shù)據(jù)庫(kù)的安裝:MySQL、MongoDB、Redis 抓取下網(wǎng)頁(yè)代碼之后,下一步就是從網(wǎng)頁(yè)中提取信息,提取信息的方式有...
摘要:目前已作為開(kāi)源項(xiàng)目發(fā)布在,其最新版本已經(jīng)支持中文,并提供了一個(gè)命令行工具。他能夠用來(lái)識(shí)別英文,但是不能識(shí)別中文。所以要下載中文的識(shí)別包這樣就能識(shí)別中文。至少對(duì)印刷的中文字識(shí)別效果是很好的。 1. Tesseract 介紹 Tesseract的OCR引擎最先由HP實(shí)驗(yàn)室于1985年開(kāi)始研發(fā),至1995年時(shí)已經(jīng)成為OCR業(yè)內(nèi)最準(zhǔn)確的三款識(shí)別引擎之一。然而,HP不久便決定放棄OCR業(yè)務(wù),Te...
摘要:驗(yàn)證碼的識(shí)別成功率跟圖片質(zhì)量關(guān)系密切,一般拿到后的驗(yàn)證碼都得經(jīng)過(guò)灰度化,二值化,去噪,利用就可以很方便的做到。 了解驗(yàn)證碼 什么是驗(yàn)證碼? 所謂驗(yàn)證碼,就是將一串隨機(jī)產(chǎn)生的數(shù)字或符號(hào),生成一幅圖片,圖片里加上一些干擾象素(防止OCR),由用戶肉眼識(shí)別其中的驗(yàn)證碼信息,輸入表單提交網(wǎng)站驗(yàn)證,驗(yàn)證成功后才能使用某項(xiàng)功能,通俗說(shuō)就是一種區(qū)分用戶是計(jì)算機(jī)和人的公共全自動(dòng)程序 驗(yàn)證碼的作用 可以...
摘要:與介紹將圖片翻譯成文字一般被稱為光學(xué)文字識(shí)別,。是目前公認(rèn)最優(yōu)秀最精確的開(kāi)源系統(tǒng)。我們以圖片為例輸入命令識(shí)別結(jié)果如下只識(shí)別錯(cuò)了一個(gè)字,識(shí)別率還是不錯(cuò)的。最后加一句,對(duì)于彩色圖片的識(shí)別效果沒(méi)有黑白圖片的效果好。 OCR與Tesseract介紹 ??將圖片翻譯成文字一般被稱為光學(xué)文字識(shí)別(Optical Character Recognition,OCR)??梢詫?shí)現(xiàn)OCR 的底層庫(kù)并不多,...
摘要:無(wú)論是是自動(dòng)化登錄還是爬蟲(chóng),總繞不開(kāi)驗(yàn)證碼,這次就來(lái)談?wù)勚泄鈱W(xué)識(shí)別驗(yàn)證碼模塊和。和是的一個(gè)識(shí)別庫(kù),但其實(shí)是對(duì)做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。 無(wú)論是是自動(dòng)化登錄還是爬蟲(chóng),總繞不開(kāi)驗(yàn)證碼,這次就來(lái)談?wù)刾ython中光學(xué)識(shí)別驗(yàn)證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個(gè)OCR識(shí)...
閱讀 2376·2023-04-25 20:07
閱讀 3311·2021-11-25 09:43
閱讀 3671·2021-11-16 11:44
閱讀 2537·2021-11-08 13:14
閱讀 3185·2021-10-19 11:46
閱讀 902·2021-09-28 09:36
閱讀 2997·2021-09-22 10:56
閱讀 2382·2021-09-10 10:51