成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

推薦十款java開源中文分詞組件

masturbator / 2534人閱讀

摘要:最初,它是以開源項(xiàng)目為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。填補(bǔ)了國(guó)內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。中文分詞追求分詞的高效率和用戶良好體驗(yàn)。

1:Elasticsearch的開源中文分詞器 IK Analysis(Star:2471)

IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統(tǒng)中讀取詞典,es-ik本身可擴(kuò)展成從不同的源讀取詞典。目前提供從sqlite3數(shù)據(jù)庫中讀取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中設(shè)置你的sqlite3詞典的位置: ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默認(rèn)的詞典:https:/...

2:開源的java中文分詞庫 IKAnalyzer(Star:343)

IK Analyzer 是一個(gè)開源的,基于java語言開發(fā)的輕量級(jí)的中文分詞工具包。從2006年12月推出1.0版開始, IKAnalyzer已經(jīng)推出了4個(gè)大版本。最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始,IK發(fā)展為面向Java的公用分詞組件,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對(duì)Lucene的默認(rèn)...

3:java開源中文分詞 Ansj(Star:3019)

Ansj中文分詞 這是一個(gè)ictclas的java實(shí)現(xiàn).基本上重寫了所有的數(shù)據(jù)結(jié)構(gòu)和算法.詞典是用的開源版的ictclas所提供的.并且進(jìn)行了部分的人工優(yōu)化 內(nèi)存中中文分詞每秒鐘大約100萬字(速度上已經(jīng)超越ictclas) 文件讀取分詞每秒鐘大約30萬字 準(zhǔn)確率能達(dá)到96%以上 目前實(shí)現(xiàn)了.中文分詞. 中文姓名識(shí)別 . 用戶自定義詞典 可以應(yīng)用到自...

4:結(jié)巴分詞 ElasticSearch 插件(Star:188)

elasticsearch官方只提供smartcn這個(gè)中文分詞插件,效果不是很好,好在國(guó)內(nèi)有medcl大神(國(guó)內(nèi)最早研究es的人之一)寫的兩個(gè)中文分詞插件,一個(gè)是ik的,一個(gè)是mmseg的

5:Java分布式中文分詞組件 - word分詞(Star:672)

word分詞是一個(gè)Java實(shí)現(xiàn)的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準(zhǔn)確識(shí)別英文、數(shù)字,以及日期、時(shí)間等數(shù)量詞,能識(shí)別人名、地名、組織機(jī)構(gòu)名等未登錄詞

6:Java開源中文分詞器jcseg(Star:400)

Jcseg是什么? Jcseg是基于mmseg算法的一個(gè)輕量級(jí)開源中文分詞器,同時(shí)集成了關(guān)鍵字提取,關(guān)鍵短語提取,關(guān)鍵句子提取和文章自動(dòng)摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分詞接口, Jcseg自帶了一個(gè) jcseg.properties文件...

7:中文分詞庫Paoding

庖丁中文分詞庫是一個(gè)使用Java開發(fā)的,可結(jié)合到Lucene應(yīng)用中的,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補(bǔ)了國(guó)內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。 Paoding...

8:中文分詞器mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/... )實(shí)現(xiàn)的中文分詞器,并實(shí)現(xiàn) lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使...

9:中文分詞Ansj(Star:3015)

Ansj中文分詞 這是一個(gè)ictclas的java實(shí)現(xiàn).基本上重寫了所有的數(shù)據(jù)結(jié)構(gòu)和算法.詞典是用的開源版的ictclas所提供的.并且進(jìn)行了部分的人工優(yōu)化 內(nèi)存中中文分詞每秒鐘大約100萬字(速度上已經(jīng)超越ictclas) 文件讀取分詞每秒鐘大約30萬字 準(zhǔn)確率能達(dá)到96%以上 目前實(shí)現(xiàn)了....

10:Lucene中文分詞庫ICTCLAS4J

ictclas4j中文分詞系統(tǒng)是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎(chǔ)上完成的一個(gè)java開源分詞項(xiàng)目,簡(jiǎn)化了原分詞程序的復(fù)雜度,旨在為廣大的中文分詞愛好者一個(gè)更好的學(xué)習(xí)機(jī)會(huì)。

轉(zhuǎn)載至:http://www.cnblogs.com/zsuxio...

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/67251.html

相關(guān)文章

  • 分詞,難在哪里?科普+解決方案!

    摘要:分詞的算法中文分詞有難度,不過也有成熟的解決方案。例如通過人民日?qǐng)?bào)訓(xùn)練的分詞系統(tǒng),在網(wǎng)絡(luò)玄幻小說上,分詞的效果就不會(huì)好。三的優(yōu)點(diǎn)是開源的,號(hào)稱是中,最好的中文分詞組件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 題圖:by Lucas Davies 一、前言 分詞,我想是大多數(shù)...

    Steven 評(píng)論0 收藏0
  • 重磅 | 完備的 AI 學(xué)習(xí)路線,最詳細(xì)的資源整理!

    摘要:是你學(xué)習(xí)從入門到專家必備的學(xué)習(xí)路線和優(yōu)質(zhì)學(xué)習(xí)資源。的數(shù)學(xué)基礎(chǔ)最主要是高等數(shù)學(xué)線性代數(shù)概率論與數(shù)理統(tǒng)計(jì)三門課程,這三門課程是本科必修的。其作為機(jī)器學(xué)習(xí)的入門和進(jìn)階資料非常適合。書籍介紹深度學(xué)習(xí)通常又被稱為花書,深度學(xué)習(xí)領(lǐng)域最經(jīng)典的暢銷書。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導(dǎo)讀】本文由知名開源平...

    荊兆峰 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<