Android OCR之tesseract

AWang 發(fā)布于2019-08-14 15:42 / 1441人閱讀

摘要：開始之旅相關(guān)常量設(shè)置訓(xùn)練數(shù)據(jù)路徑，必須包含文件夾識(shí)別語言英文識(shí)別語言簡(jiǎn)體中文英文識(shí)別設(shè)置圖片可以緩存獲取緩存的初始化的訓(xùn)練數(shù)據(jù)路徑與語言設(shè)置識(shí)別模式設(shè)置要識(shí)別的圖片簡(jiǎn)體中文識(shí)別與英文識(shí)別類似。

Android OCR之tesseract 1. 開源工具簡(jiǎn)介

tesseract是非常有名的開源OCR工具，但是要將它配置到Android開發(fā)環(huán)境中可能要費(fèi)點(diǎn)功夫，別擔(dān)心，github上面有好人幫助我們封裝了Android開發(fā)環(huán)境的tesseract配置，這就是Android平臺(tái)上OCR開源項(xiàng)目tess-two。

2. 環(huán)境配置

利用tess-two配置OCR環(huán)境非常簡(jiǎn)單。

首先，設(shè)置工程的ndk路徑。

其次，在模塊中添加依賴：compile "com.rmtheis:tess-two:6.0.0"。

3. 數(shù)據(jù)準(zhǔn)備

要進(jìn)行OCR還要獲取訓(xùn)練數(shù)據(jù)tessdata，下載該訓(xùn)練數(shù)據(jù)，到時(shí)候?qū)⒂?xùn)練數(shù)據(jù)弄到自己的Android設(shè)備上就行了。

注意：不要把所有訓(xùn)練數(shù)據(jù)都弄到Android設(shè)備上，因?yàn)橛?xùn)練數(shù)據(jù)比較大，需要用到什么語言的數(shù)據(jù)就只把這些語言對(duì)應(yīng)的數(shù)據(jù)弄到Android設(shè)備上。

比如，我一般識(shí)別只用到識(shí)別英文與簡(jiǎn)體中文，因此只需要將eng.traineddata，chi_sim.traineddata弄到Android設(shè)備上就行了。

4. 開始Android OCR之旅

相關(guān)常量設(shè)置：

    //訓(xùn)練數(shù)據(jù)路徑，必須包含tesseract文件夾
    static final String TESSBASE_PATH = "/storage/emulated/0/Download/tesseract/";
    //識(shí)別語言英文
    static final String DEFAULT_LANGUAGE = "eng";
    //識(shí)別語言簡(jiǎn)體中文
    static final String CHINESE_LANGUAGE = "chi_sim";

英文識(shí)別：

     public void EnglishOCR(){
        //設(shè)置圖片可以緩存
        english.setDrawingCacheEnabled(true);
        //獲取緩存的bitmap
        final Bitmap bmp = english.getDrawingCache();
        final TessBaseAPI baseApi = new TessBaseAPI();
        //初始化OCR的訓(xùn)練數(shù)據(jù)路徑與語言
        baseApi.init(TESSBASE_PATH, DEFAULT_LANGUAGE);
        //設(shè)置識(shí)別模式
        baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_SINGLE_LINE);
        //設(shè)置要識(shí)別的圖片
        baseApi.setImage(bmp);
        english.setImageBitmap(bmp);
        englishtext.setText(baseApi.getUTF8Text());
        baseApi.clear();
        baseApi.end();
     }

簡(jiǎn)體中文識(shí)別與英文識(shí)別類似。

5. 程序界面

程序源代碼下載：https://github.com/lavor-zl/FunctionsDemo

歡迎關(guān)注我的微信公眾號(hào)：Android技術(shù)漫談

GPU云服務(wù)器云服務(wù)器 Tesseract-OCR Tesseract OCR 谷歌 ocr

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/65958.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

AWang

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

爬蟲 + 自動(dòng)化利器 selenium 之自學(xué)成才篇（二）

閱讀 2765·2021-10-09 09:44
[CSS]《CSS揭秘》第四章——視覺效果

閱讀 3564·2019-08-30 15:54
webpack手動(dòng)構(gòu)建vue和vue-cli構(gòu)建使用 px2rem-loader ,全局自動(dòng)轉(zhuǎn)換px

閱讀 2174·2019-08-30 14:16
微信小程序flex布局

閱讀 2804·2019-08-30 13:09
記錄最近的一些遇到的前端面試題

閱讀 838·2019-08-30 13:08
前端每日實(shí)戰(zhàn)：117# 視頻演示如何用純 CSS 創(chuàng)作一只憤怒小鳥中的紅火

閱讀 1297·2019-08-29 16:29
監(jiān)聽瀏覽器刷新及關(guān)閉

閱讀 1686·2019-08-26 13:57
ES6入門之對(duì)象的擴(kuò)展

閱讀 1942·2019-08-26 13:53

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Android OCR之tesseract

相關(guān)文章

**Python圖像處理之圖片文字識(shí)別（OCR）**

**識(shí)別圖片中的文字 - Tesseract 和百度云OCR的對(duì)比**

[譯]OpenCV OCR and text recognition with Tesseract

發(fā)表評(píng)論

0條評(píng)論

AWang

男|高級(jí)講師

TA的文章

爬蟲 + 自動(dòng)化利器 selenium 之自學(xué)成才篇（二）

[CSS]《CSS揭秘》第四章——視覺效果

webpack手動(dòng)構(gòu)建vue和vue-cli構(gòu)建使用 px2rem-loader ,全局自動(dòng)轉(zhuǎn)換px

微信小程序flex布局

記錄最近的一些遇到的前端面試題

前端每日實(shí)戰(zhàn)：117# 視頻演示如何用純 CSS 創(chuàng)作一只憤怒小鳥中的紅火

監(jiān)聽瀏覽器刷新及關(guān)閉

ES6入門之對(duì)象的擴(kuò)展

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Android OCR之tesseract

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！