摘要:安裝包包含中文分詞器使用手冊即本文檔主包分詞器擴(kuò)展配置文件停止詞典版權(quán)申明它的安裝部署十分簡單,將部署于項(xiàng)目的目錄中與文件放置在根目錄對于項(xiàng)目,通常是目錄,同等配置文件相同下即可。配置擴(kuò)展詞典默認(rèn)是用的分詞器內(nèi)置的詞典進(jìn)行分詞的。
前言
官網(wǎng):
https://code.google.com/archi...
IK Analyzer 2012 FF版本 (即For 4.0),在API和功能上保持不變,只是讓其支持了Lucene4.0和Solr4.0,讓這部分的用戶能用起來。
如果你還是Lucene3.2-3.6的用戶,那么你只需要下載IK Analyzer 2012 U6版本。因?yàn)镕F版本的API與3.x是不兼容的。
【IK Analyzer 安裝包包含】:
《IKAnalyzer 中文分詞器 V2012 使用手冊》(即本文檔)
IKAnalyzer2012.jar(主 jar 包)
IKAnalyzer.cfg.xml(分詞器擴(kuò)展配置文件)
stopword.dic(停止詞典)
LICENSE.TXT ; NOTICE.TXT (apache 版權(quán)申明)
它的安裝部署十分簡單 , 將 IKAnalyzer2012.jar 部署于項(xiàng)目的lib目錄中;IKAnalyzer.cfg.xml 與 stopword.dic 文件放置在 class 根目錄(對于 web 項(xiàng)目,通常是WEB-INF/classes 目錄,同 hibernate、log4j 等配置文件相同)下即可。
1. 下載安裝最新版本:IK Analyzer 2012
# 一定要下載FF版本,因?yàn)槭褂玫氖莝olr4.0以上版本 $ wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip #解壓到IK2012目錄中,并且不覆蓋相同文件 $ unzip -n IKAnalyzer2012_u6.zip -d IK2012 #拷貝jar包到tomcat下solr的工程目錄中 $ cp IK2012/IKAnalyzer2012FF_u1.jar /opt/tomcat-8.5.31/webapps/solr/WEB-INF/lib/ #創(chuàng)建classes文件夾 $ mkdir /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes # 拷貝IKAnalyzer.cfg.xml和stopword.dic到classes文件夾下 $ cp IKAnalyzer.cfg.xml /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ $ cp stopword.dic /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/2. 修改配置
修改solr core中schema文件,默認(rèn)位置:
$ vim /opt/solr-4.10.3/example/solr/collection1/conf/schema.xml
添加如下配置:
同時,把需要分詞的字段,設(shè)置為text_ik
3. 重啟服務(wù)
注意:如果之前已經(jīng)創(chuàng)建了索引,需要將之前的索引刪掉,重新創(chuàng)建分詞后的索引。
$ /opt/tomcat-8.5.31/bin/shutdown.sh $ /opt/tomcat-8.5.31/bin/startup.sh4. 配置擴(kuò)展詞典
1.默認(rèn)是用的IKAnalyzer分詞器內(nèi)置的詞典進(jìn)行分詞的。我們也可以自己配置IKAnalyzer分詞器的擴(kuò)展詞典
# 修改IKAnalyzer.cfg.xml文件 $ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml
配置如下
IK Analyzer 擴(kuò)展配置 ext.dic; stopword.dic;
2.在classes下創(chuàng)建 ext.dic 來配置字典(每一行表示一個整體索引)
$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ext.dic
配置如下:
別看我亂我就是索引 哈哈哈 我是第三行
stopword.dic 和 ext.dic 的編碼方式為UTF-8 無BOM的編碼方式。
3.重啟tomcat后測試
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/69334.html
摘要:最初,它是以開源項(xiàng)目為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。中文分詞追求分詞的高效率和用戶良好體驗(yàn)。 1:Elasticsearch的開源中文分詞器 IK Analysis(Star:2471) IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統(tǒng)中讀取...
摘要:概述是的一個頂級開源項(xiàng)目,采用開發(fā),它是基于的全文搜索服務(wù)器。提供了比更為豐富的查詢語言,同時實(shí)現(xiàn)了可配置可擴(kuò)展,并對索引搜索性能進(jìn)行了優(yōu)化。搜索只需要發(fā)送請求,然后對返回等格式的查詢結(jié)果進(jìn)行解析,組織頁面布局。 Solr概述 Solr 是Apache的一個頂級開源項(xiàng)目,采用Java開發(fā),它是基于Lucene的全文搜索服務(wù)器。Solr提供了比Lucene更為豐富的查詢語言,同時實(shí)現(xiàn)了可...
摘要:前言官網(wǎng)在版本之前無法作為獨(dú)立的服務(wù)器進(jìn)行使用需要將其打包為包部署在任何容器內(nèi)才能使用。從開始可以單獨(dú)作為一個獨(dú)立的應(yīng)用服務(wù)器分發(fā)使用,內(nèi)部通過實(shí)現(xiàn)。主要將的包部署到的下,再根據(jù)的依賴導(dǎo)入相關(guān)的包。 1. 前言 官網(wǎng):http://lucene.apache.org/solr 在5.0版本之前,solr無法作為獨(dú)立的服務(wù)器進(jìn)行使用,需要將其打包為war包部署在任何Servlet容器內(nèi)才...
閱讀 3508·2023-04-26 02:00
閱讀 3100·2021-11-22 13:54
閱讀 1711·2021-08-03 14:03
閱讀 723·2019-08-30 15:52
閱讀 3102·2019-08-29 12:30
閱讀 2431·2019-08-26 13:35
閱讀 3377·2019-08-26 13:25
閱讀 3013·2019-08-26 11:39