摘要:我們的生活中,機器學習已經越來越多的扮演著重要角色,也不再是神秘的東西。本文主要是介紹一個博主使用的比較好的開源項目,在這里分享給大家。項目使用先把項目從上下來,慢慢分析。顯示結果部分會將識別的文字用框標出來,并且展示識別的結果。
目錄
什么是OCR?
光學字符識別(Optical Character Recognition, OCR),是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。簡而言之,檢測圖像中的文本資料,并且識別出文本的內容。
那么有哪些應用場景呢?
其實我們日常生活中處處都有ocr的影子,比如在疫情期間身份證識別錄入信息、車輛車牌號識別、自動駕駛等。我們的生活中,機器學習已經越來越多的扮演著重要角色,也不再是神秘的東西。
OCR的技術路線是什么呢?
ocr的運行方式如下圖,輸入->圖像預處理->文字檢測->文本識別->輸出。
?
本文主要是介紹一個博主使用的比較好的OCR開源項目,在這里分享給大家——PaddleOCR。
項目Github地址:?PaddleOCR地址
我會按照剛接觸的狀態(tài),梳理一下驗證使用該項目的過程。
先把項目從github上clone下來,慢慢分析。
首先我們看一下項目的構造。
發(fā)現項目有中文的介紹說明,這就很方便了,點開按照官方的說明開始操作。
點開README.md,,可以從文檔教程中看到第一步就是教你如何安裝環(huán)境。
?
由于內容過多,我就做個概括,方便大家直接上手。
1、安裝Anaconda,構造虛擬環(huán)境
這里可以參考我的另一篇文章,里面很詳細:機器學習基礎環(huán)境部署 | 機器學習系列_阿良的博客-CSDN博客_機器學習 環(huán)境搭建
官方給的是python3.8的虛擬環(huán)境,我們也構造一個,打開Anaconda Prompt。
?
輸入命令:
conda create -n paddle_env python=3.8
激活環(huán)境:
conda activate paddle_env
2、依賴包下載
paddlepaddle安裝
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
layoutparser安裝
pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl
Shapely安裝,這個需要下載,下載地址:Shapely下載地址
我選的是這個
安裝命令:
pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl
?
paddleocr安裝
pip install paddleocr -i https://mirror.baidu.com/pypi/simple
好的,環(huán)境有點多,都安裝好了就開始上手使用吧。
官方給出了兩種模式,一是命令行執(zhí)行,一是代碼執(zhí)行。為了直觀的看到配置,我這里使用的是代碼模式。
準備一張帶文字的圖片
測試代碼如下
#!/user/bin/env python# coding=utf-8"""@project : ocr_paddle@author : huyi@file : test.py@ide : PyCharm@time : 2021-11-15 14:56:20"""from paddleocr import PaddleOCR, draw_ocr# Paddleocr目前支持的多語言語種可以通過修改lang參數進行切換# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`ocr = PaddleOCR(use_angle_cls=True, use_gpu=False, lang="ch") # need to run only once to download and load model into memoryimg_path = "./data/2.jpg"result = ocr.ocr(img_path, cls=True)for line in result: # print(line[-1][0], line[-1][1]) print(line)# 顯示結果from PIL import Imageimage = Image.open(img_path).convert("RGB")boxes = [line[0] for line in result]txts = [line[1][0] for line in result]scores = [line[1][1] for line in result]im_show = draw_ocr(image, boxes, txts, scores, font_path="./fonts/simfang.ttf")im_show = Image.fromarray(im_show)im_show.save("result.jpg")
?
代碼說明
1、因為我的電腦沒有顯卡,所以設置了use_gpu=False。
2、顯示結果部分會將識別的文字用框標出來,并且展示識別的結果。
驗證一下
?
我們看到,打印的內容有識別出來的每句話所在的圖片位置,以及識別結果和可信度。而上面的結果圖中,將每句話對應的文字都框了出來。效果很不錯!
官方還給出了一些參數,可以調整輸出的內容。可以參看quickstart.md文件。參數補充:
- 多帶帶使用檢測:設置`--rec`為`false`- 多帶帶使用識別:設置`--det`為`false`
官方還提供一個標準的json結構輸出數據
PP-Structure的返回結果為一個dict組成的list,示例如下 ```shell [{ "type": "Text", "bbox": [34, 432, 345, 462], "res": ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]], [("Tigure-6. The performance of CNN and IPT models using difforen", 0.90060663), ("Tent ", 0.465441)]) } ] ```
總的來說,這個項目還是很有意思的,訓練的部分我就不多贅述了,畢竟準備數據挺麻煩的?;仡^我再想想這個項目可不可以魔改成好用的工具。
分享:
????????我們根本不需要最后的落腳點,只要不斷前進就好了,只要不停下,道路就會不斷延伸。——《進擊的巨人》
如果本文對你有幫助的話,請不要吝嗇你的贊,謝謝!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/123511.html
摘要:國內互聯網巨頭百度也在近期表明,將發(fā)起建立一個名為深盟的分布式機器學習開源平臺,由旗下深度學習研究院牽頭,聯合來自卡耐基梅隴大學華盛頓大學紐約大學香港科技大學的多位系統(tǒng)開發(fā)者,共同推出旨在大幅降低機器深度學習門檻的蟲洞項目。 當前人工智能之所以能夠引起大家的興奮和廣泛關注,在很大程度上是源于深度學習的研究進展。這項機器學習技術為計算機視覺、語音識別和自然語言處理帶來了巨大的、激動人心的進步,...
摘要:驗證碼旨在確認訪問者是人還是程序,并防止惡意程序的入侵。自年以來,改為在我不是機器人的方框中打勾,進而完成判別。 選自 Github 作者:George Hughey 機器之心編譯 每個人都討厭驗證碼,這些惱人的圖片中包含你必須輸入的字符,我們只有正確地填寫才能繼續(xù)訪問網站。驗證碼旨在確認訪問者是人還是程序,并防止惡意程序的入侵。然而,隨著深度學習和計算機視覺技術的發(fā)展,現在這些認證方...
閱讀 1254·2023-04-25 18:57
閱讀 2141·2023-04-25 16:28
閱讀 3946·2021-11-24 09:39
閱讀 3641·2021-11-16 11:45
閱讀 1830·2021-10-13 09:40
閱讀 1271·2019-08-30 15:52
閱讀 1724·2019-08-30 10:57
閱讀 670·2019-08-29 16:55