摘要:安裝分詞說(shuō)明含有種切分方法長(zhǎng)度優(yōu)先切分。效果最好可自定義詞典,自己添加詞語(yǔ)到詞庫(kù),詞庫(kù)支持文本格式和二級(jí)制格式二進(jìn)制格式詞典小,加載快含有個(gè)詞,歡迎大家補(bǔ)充詞語(yǔ)到,格式詞語(yǔ)詞性獲取方法百度搜索這個(gè)詞語(yǔ)結(jié)果數(shù)量,如果你有更好的方法歡迎補(bǔ)充。
安裝
composer require lizhichao/word
github: https://github.com/lizhichao/...
分詞說(shuō)明
含有3種切分方法
getWord 長(zhǎng)度優(yōu)先切分 。最快
getShortWord 細(xì)粒度切分。比最快慢一點(diǎn)點(diǎn)
getAutoWord 自動(dòng)切分 。效果最好
可自定義詞典,自己添加詞語(yǔ)到詞庫(kù),詞庫(kù)支持文本格式json和二級(jí)制格式igb
二進(jìn)制格式詞典小,加載快
dict.igb含有175662個(gè)詞,歡迎大家補(bǔ)充詞語(yǔ)到 dict.txt ,格式(詞語(yǔ) t idf t 詞性)
idf 獲取方法 百度搜索這個(gè)詞語(yǔ) Math.log(100000001/結(jié)果數(shù)量),如果你有更好的方法歡迎補(bǔ)充。
詞性 [標(biāo)點(diǎn)符號(hào),名詞,動(dòng)詞,形容詞,區(qū)別詞,代詞,數(shù)詞,量詞,副詞,介詞,連詞,助詞,語(yǔ)氣詞,擬聲詞,嘆詞] 取index ;標(biāo)點(diǎn)符號(hào)取0
三種分詞結(jié)果對(duì)比
$fc = new VicWord("igb"); $arr = $fc->getWord("北京大學(xué)生喝進(jìn)口紅酒,在北京大學(xué)生活區(qū)喝進(jìn)口紅酒"); //北京大學(xué)|生喝|進(jìn)口|紅酒|,|在|北京大學(xué)|生活區(qū)|喝|進(jìn)口|紅酒 //$arr 是一個(gè)數(shù)組 每個(gè)單元的結(jié)構(gòu)[詞語(yǔ),詞語(yǔ)位置,詞性,這個(gè)詞語(yǔ)是否包含在詞典中] 這里只值列出了詞語(yǔ) $arr = $fc->getShortWord("北京大學(xué)生喝進(jìn)口紅酒,在北京大學(xué)生活區(qū)喝進(jìn)口紅酒"); //北京|大學(xué)|生喝|進(jìn)口|紅酒|,|在|北京|大學(xué)|生活|區(qū)喝|進(jìn)口|紅酒 $arr = $fc->getAutoWord("北京大學(xué)生喝進(jìn)口紅酒,在北京大學(xué)生活區(qū)喝進(jìn)口紅酒"); //北京|大學(xué)生|喝|進(jìn)口|紅酒|,|在|北京大學(xué)|生活區(qū)|喝|進(jìn)口|紅酒 //對(duì)比 //qq的分詞 http://nlp.qq.com/semantic.cgi#page2 //百度的分詞 http://ai.baidu.com/tech/nlp/lexical分詞速度
機(jī)器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒140w字
getShortWord 每秒138w字
getAutoWord 每秒40w字
測(cè)試文本在百度百科拷貝的一段5000字的文本
詞庫(kù)支持utf-8的任意字符
詞典大小不影響 分詞速度
只有一個(gè)方法 VicDict->add(詞語(yǔ),詞性 = null)
//定義詞典文件路徑 define("_VIC_WORD_DICT_PATH_",__DIR__."/Data/dict.igb"); require __DIR__."/Lib/VicDict.php"; //目前可支持 igb 和 json 兩種詞典庫(kù)格式;igb需要安裝igbinary擴(kuò)展,igb文件小,加載快 $dict = new VicDict("igb"); //添加詞語(yǔ)詞庫(kù) add(詞語(yǔ),詞性) 不分語(yǔ)言,可以是utf-8編碼的任何字符 $dict->add("中國(guó)","n"); //保存詞庫(kù) $dict->save();demo
demo
該作者的其他軟件一個(gè)極簡(jiǎn)的高性能框架,可在php-fpm或者swoole異步協(xié)程環(huán)境運(yùn)行
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/31306.html
摘要:大多數(shù)模板實(shí)現(xiàn)原理基本一致模板字符串首先通過(guò)各種手段剝離出普通字符串和模板語(yǔ)法字符串生成抽象語(yǔ)法樹(shù)然后針對(duì)模板語(yǔ)法片段進(jìn)行編譯,期間模板變量均去引擎輸入的變量中查找模板語(yǔ)法片段生成出普通片段,與原始普通字符串進(jìn)行拼接輸出。 前端模板的發(fā)展 模板可以說(shuō)是前端開(kāi)發(fā)最常接觸的工具之一。將頁(yè)面固定不變的內(nèi)容抽出成模板,服務(wù)端返回的動(dòng)態(tài)數(shù)據(jù)裝填到模板中預(yù)留的坑位,最后組裝成完整的頁(yè)面html字符...
摘要:一背景為什么會(huì)用到這個(gè)搜索是因?yàn)槲以诳礊踉频穆┒窗咐龓?kù)時(shí)候,搜索即為不方便。在搜索當(dāng)中分詞插件是中文分詞最好用的一個(gè),安裝也極為方便。那我們選擇用作為分詞器后,它是可以把中華人民共和國(guó)作為一個(gè)詞,把中華作為一個(gè)詞。 一、背景 為什么會(huì)用到這個(gè)ES搜索?是因?yàn)槲以诳礊踉频穆┒窗咐龓?kù)時(shí)候,搜索即為不方便。 比如說(shuō)說(shuō)我要搜索一個(gè) SQL注入 那mysql匹配的時(shí)候是like模糊匹配,搜索必須...
摘要:作者地址編譯安裝配置指向庫(kù)目錄使用小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造效果小明碩士畢業(yè)于中國(guó)科學(xué)學(xué)院科學(xué)院中國(guó)科學(xué)院計(jì)算計(jì)算所,后在日本京都大學(xué)日本京都大學(xué)深造計(jì)算所 作者git地址:https://github.com/jonnywang/... 編譯安裝 git clone https://github.com/j...
摘要:編譯安裝配置指向庫(kù)目錄使用小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造效果小明碩士畢業(yè)于中國(guó)科學(xué)學(xué)院科學(xué)院中國(guó)科學(xué)院計(jì)算計(jì)算所,后在日本京都大學(xué)日本京都大學(xué)深造計(jì)算所小明京都 編譯安裝 git clone https://github.com/jonnywang/jz.git cd jz/cjieba make cd .. p...
閱讀 3591·2021-11-04 16:06
閱讀 3589·2021-09-09 11:56
閱讀 853·2021-09-01 11:39
閱讀 905·2019-08-29 15:28
閱讀 2299·2019-08-29 15:18
閱讀 837·2019-08-29 13:26
閱讀 3337·2019-08-29 13:22
閱讀 1051·2019-08-29 12:18