成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

VicWord 一個(gè)純php的分詞

yangrd / 839人閱讀

摘要:安裝分詞說(shuō)明含有種切分方法長(zhǎng)度優(yōu)先切分。效果最好可自定義詞典,自己添加詞語(yǔ)到詞庫(kù),詞庫(kù)支持文本格式和二級(jí)制格式二進(jìn)制格式詞典小,加載快含有個(gè)詞,歡迎大家補(bǔ)充詞語(yǔ)到,格式詞語(yǔ)詞性獲取方法百度搜索這個(gè)詞語(yǔ)結(jié)果數(shù)量,如果你有更好的方法歡迎補(bǔ)充。

安裝
composer require lizhichao/word

github: https://github.com/lizhichao/...

分詞說(shuō)明

含有3種切分方法

getWord 長(zhǎng)度優(yōu)先切分 。最快

getShortWord 細(xì)粒度切分。比最快慢一點(diǎn)點(diǎn)

getAutoWord 自動(dòng)切分 。效果最好

可自定義詞典,自己添加詞語(yǔ)到詞庫(kù),詞庫(kù)支持文本格式json和二級(jí)制格式igb

二進(jìn)制格式詞典小,加載快

dict.igb含有175662個(gè)詞,歡迎大家補(bǔ)充詞語(yǔ)到 dict.txt ,格式(詞語(yǔ) t idf t 詞性)

idf 獲取方法 百度搜索這個(gè)詞語(yǔ) Math.log(100000001/結(jié)果數(shù)量),如果你有更好的方法歡迎補(bǔ)充。

詞性 [標(biāo)點(diǎn)符號(hào),名詞,動(dòng)詞,形容詞,區(qū)別詞,代詞,數(shù)詞,量詞,副詞,介詞,連詞,助詞,語(yǔ)氣詞,擬聲詞,嘆詞] 取index ;標(biāo)點(diǎn)符號(hào)取0

三種分詞結(jié)果對(duì)比

$fc = new VicWord("igb");
$arr = $fc->getWord("北京大學(xué)生喝進(jìn)口紅酒,在北京大學(xué)生活區(qū)喝進(jìn)口紅酒");
//北京大學(xué)|生喝|進(jìn)口|紅酒|,|在|北京大學(xué)|生活區(qū)|喝|進(jìn)口|紅酒
//$arr 是一個(gè)數(shù)組 每個(gè)單元的結(jié)構(gòu)[詞語(yǔ),詞語(yǔ)位置,詞性,這個(gè)詞語(yǔ)是否包含在詞典中] 這里只值列出了詞語(yǔ)

$arr =  $fc->getShortWord("北京大學(xué)生喝進(jìn)口紅酒,在北京大學(xué)生活區(qū)喝進(jìn)口紅酒");
//北京|大學(xué)|生喝|進(jìn)口|紅酒|,|在|北京|大學(xué)|生活|區(qū)喝|進(jìn)口|紅酒

$arr = $fc->getAutoWord("北京大學(xué)生喝進(jìn)口紅酒,在北京大學(xué)生活區(qū)喝進(jìn)口紅酒");
//北京|大學(xué)生|喝|進(jìn)口|紅酒|,|在|北京大學(xué)|生活區(qū)|喝|進(jìn)口|紅酒

//對(duì)比
//qq的分詞 http://nlp.qq.com/semantic.cgi#page2 
//百度的分詞 http://ai.baidu.com/tech/nlp/lexical
分詞速度

機(jī)器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒140w字
getShortWord 每秒138w字
getAutoWord 每秒40w字
測(cè)試文本在百度百科拷貝的一段5000字的文本

制作詞庫(kù)

詞庫(kù)支持utf-8的任意字符

詞典大小不影響 分詞速度

只有一個(gè)方法 VicDict->add(詞語(yǔ),詞性 = null)

//定義詞典文件路徑
define("_VIC_WORD_DICT_PATH_",__DIR__."/Data/dict.igb");

require __DIR__."/Lib/VicDict.php";

//目前可支持 igb 和 json 兩種詞典庫(kù)格式;igb需要安裝igbinary擴(kuò)展,igb文件小,加載快
$dict = new VicDict("igb");

//添加詞語(yǔ)詞庫(kù) add(詞語(yǔ),詞性) 不分語(yǔ)言,可以是utf-8編碼的任何字符
$dict->add("中國(guó)","n");

//保存詞庫(kù)
$dict->save();
demo

demo

該作者的其他軟件

一個(gè)極簡(jiǎn)的高性能框架,可在php-fpm或者swoole異步協(xié)程環(huán)境運(yùn)行

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/31306.html

相關(guān)文章

  • 字符串與JavaScript之間魔術(shù)—前端模板原理及簡(jiǎn)單實(shí)現(xiàn)

    摘要:大多數(shù)模板實(shí)現(xiàn)原理基本一致模板字符串首先通過(guò)各種手段剝離出普通字符串和模板語(yǔ)法字符串生成抽象語(yǔ)法樹(shù)然后針對(duì)模板語(yǔ)法片段進(jìn)行編譯,期間模板變量均去引擎輸入的變量中查找模板語(yǔ)法片段生成出普通片段,與原始普通字符串進(jìn)行拼接輸出。 前端模板的發(fā)展 模板可以說(shuō)是前端開(kāi)發(fā)最常接觸的工具之一。將頁(yè)面固定不變的內(nèi)容抽出成模板,服務(wù)端返回的動(dòng)態(tài)數(shù)據(jù)裝填到模板中預(yù)留的坑位,最后組裝成完整的頁(yè)面html字符...

    Steve_Wang_ 評(píng)論0 收藏0
  • PHP使用elasticsearch搜索安裝及分詞方法

    摘要:一背景為什么會(huì)用到這個(gè)搜索是因?yàn)槲以诳礊踉频穆┒窗咐龓?kù)時(shí)候,搜索即為不方便。在搜索當(dāng)中分詞插件是中文分詞最好用的一個(gè),安裝也極為方便。那我們選擇用作為分詞器后,它是可以把中華人民共和國(guó)作為一個(gè)詞,把中華作為一個(gè)詞。 一、背景 為什么會(huì)用到這個(gè)ES搜索?是因?yàn)槲以诳礊踉频穆┒窗咐龓?kù)時(shí)候,搜索即為不方便。 比如說(shuō)說(shuō)我要搜索一個(gè) SQL注入 那mysql匹配的時(shí)候是like模糊匹配,搜索必須...

    zzzmh 評(píng)論0 收藏0
  • 使用cjieba(結(jié)巴分詞庫(kù))實(shí)現(xiàn)php擴(kuò)展中文分詞-支持php5, php7

    摘要:作者地址編譯安裝配置指向庫(kù)目錄使用小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造效果小明碩士畢業(yè)于中國(guó)科學(xué)學(xué)院科學(xué)院中國(guó)科學(xué)院計(jì)算計(jì)算所,后在日本京都大學(xué)日本京都大學(xué)深造計(jì)算所 作者git地址:https://github.com/jonnywang/... 編譯安裝 git clone https://github.com/j...

    fevin 評(píng)論0 收藏0
  • 使用cjieba(結(jié)巴分詞庫(kù))實(shí)現(xiàn)php擴(kuò)展中文分詞

    摘要:編譯安裝配置指向庫(kù)目錄使用小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造效果小明碩士畢業(yè)于中國(guó)科學(xué)學(xué)院科學(xué)院中國(guó)科學(xué)院計(jì)算計(jì)算所,后在日本京都大學(xué)日本京都大學(xué)深造計(jì)算所小明京都 編譯安裝 git clone https://github.com/jonnywang/jz.git cd jz/cjieba make cd .. p...

    ethernet 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<