摘要:在我認(rèn)識(shí)范圍內(nèi)完成的是在日文文本分析方面的最強(qiáng)王者。簡(jiǎn)介是一個(gè)開(kāi)源的日文詞法分析的庫(kù)。功能你可以用它來(lái)對(duì)日文文本進(jìn)行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關(guān)聯(lián)可以將日文漢字轉(zhuǎn)換成平假名,片假名或的
在我認(rèn)識(shí)范圍內(nèi)atilika完成的Kuromoji是在日文文本分析方面的最強(qiáng)王者。
簡(jiǎn)介kuromoji是一個(gè)開(kāi)源的日文詞法分析的JAVA庫(kù)。
但也有Ruby,javascript,go等語(yǔ)言的版本,你可以在github或則語(yǔ)言對(duì)應(yīng)的庫(kù)管理工具中找到。
官網(wǎng)有更多的信息。
功能你可以用它來(lái)對(duì)日文文本進(jìn)行如下的處理,包括且不僅包括:
分詞
給出讀音( 包括漢字)
詞性
詞干提取
…...
你也可以在kuromoji.js的playground嘗試kuromoji。
使用作為一名前端小卒,我就以js版的kuromoji來(lái)做示范吧,JAVA同胞們可以看這里JAVA簡(jiǎn)要教程。
安裝kuromoji的npm頁(yè)面在這里。
在 Node.js 中使用:
先通過(guò)npm來(lái)安裝到項(xiàng)目中
npm install kuromoji
再在JS文件中引用其。
var kuromoji = require("kuromoji");
接來(lái)下你可以如下來(lái)實(shí)例化一個(gè)解析器。
kuromoji.builder({ dicPath: "指定/對(duì)應(yīng)的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) { // tokenizer is ready var path = tokenizer.tokenize("すもももももももものうち"); console.log(path); }); /* !!注意 !! * * Kuromoji可以指定不同的詞典,因此在實(shí)例化解析器的過(guò)程中需要指定使用 * 詞典的路徑,`kuromoji.builder`中的參數(shù)的`dicPath`的值應(yīng)指向使用 * 得詞典。 * 若在node.js中使用,一般來(lái)說(shuō)直接使用該庫(kù)中的字典即可,即設(shè)置 * {dicPath:"./node_modules/kuromoji/dict/"} */
在 瀏覽器 中使用:
如果使用npm安裝,那么你需要使用到包中的build/kuromoji.js 和 dict/*.dat.gz下的文件。
你可以直接使用前端模塊管理Bower來(lái)安裝瀏覽器專用的kuromoji。
bower install kuromoji
你也可以直接使用github、CDN等其他網(wǎng)絡(luò)鏈接的方式來(lái)引入該文件。
再在你的JS中這樣使用
設(shè)置路徑到kuromoji.builder({ dicPath: "指定/對(duì)應(yīng)的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) { // tokenizer is ready var path = tokenizer.tokenize("すもももももももものうち"); console.log(path); }); /* ??!注意 ??! * * Kuromoji可以指定不同的詞典,因此在實(shí)例化解析器的過(guò)程中需要指定使用 * 詞典的路徑,`kuromoji.builder`中的參數(shù)的`dicPath`的值應(yīng)指向使用 * 得詞典。 * 若在瀏覽器中使用,則設(shè)置路徑到對(duì)應(yīng)的網(wǎng)絡(luò)位置就好。 * 比如字典放在了 http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/ * 就設(shè)置{ dicPath:"http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/" } */API
tokenize()函數(shù)將會(huì)返回一個(gè)如下格式的JSON數(shù)組:
[ { word_id: 509800, // 詞典中的詞所在ID word_type: "KNOWN", // 單詞類型(存在詞典的為KNOWN,不存在的為UNKNOWN) word_position: 1, // 單詞開(kāi)始的位置 surface_form: "黒文字", // 單詞的表面(不知什么意思) pos: "名詞", // 詞性 pos_detail_1: "一般", // 詞性細(xì)分類別1 pos_detail_2: "*", // 詞性細(xì)分類別2 pos_detail_3: "*", // 詞性細(xì)分類別3 conjugated_type: "*", // 活用型 conjugated_form: "*", // 活用形 basic_form: "黒文字", // 基本型 reading: "クロモジ", // 閱讀 pronunciation: "クロモジ" // 發(fā)育 } ]
以處理 “世界の神” 為例子
tokenizer.tokenize("世界の神");
將會(huì)返回
[ { word_id: 2633350, word_type: "KNOWN", word_position: 6, surface_form: "世界", pos: "名詞", pos_detail_1: "一般", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "世界", reading: "セカイ", pronunciation: "セカイ" }, { word_id: 93100, word_type: "KNOWN", word_position: 8, surface_form: "の", pos: "助詞", pos_detail_1: "連體化", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "の", reading: "ノ", pronunciation: "ノ" }, { word_id: 2771160, word_type: "KNOWN", word_position: 9, surface_form: "神", pos: "名詞", pos_detail_1: "一般", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "神", reading: "カミ", pronunciation: "カミ" }, ]備注
你嘗試了一下,然后會(huì)發(fā)現(xiàn)kuromoji雖然強(qiáng)大,但是有一個(gè)問(wèn)題——慢。
不過(guò)別擔(dān)心,kuromojin(node.js)可以幫你解決這個(gè)問(wèn)題。
kuromojin
kuromojin是一個(gè)對(duì)kuromoji進(jìn)行了高度包裝的語(yǔ)法糖,并且還實(shí)現(xiàn)了緩沖層來(lái)保證速度。
使用kuromojin,你可以:
不用設(shè)置詞典的地址。
實(shí)例化解析器后,除了第一次之外,之后的速度會(huì)非常塊。
基于Promise實(shí)現(xiàn)了APi。
使用方面它的文檔已經(jīng)很詳細(xì),RDD我就不多作介紹了。
關(guān)聯(lián)可以將 日文漢字 轉(zhuǎn)換成 平假名,片假名或Romaji 的 KAKASI
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/83640.html
摘要:在我認(rèn)識(shí)范圍內(nèi)完成的是在日文文本分析方面的最強(qiáng)王者。簡(jiǎn)介是一個(gè)開(kāi)源的日文詞法分析的庫(kù)。功能你可以用它來(lái)對(duì)日文文本進(jìn)行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關(guān)聯(lián)可以將日文漢字轉(zhuǎn)換成平假名,片假名或的 在我認(rèn)識(shí)范圍內(nèi)atilika完成的Kuromoji是在日文文本分析方面的最強(qiáng)王者。 簡(jiǎn)介 kuromoji是一個(gè)開(kāi)源的日文詞法分析的JAVA庫(kù)。 但也...
摘要:本文,我們將比較業(yè)界兩個(gè)最流行的開(kāi)源搜索引擎,和。關(guān)于基于業(yè)界大名鼎鼎的開(kāi)源搜索引擎,更多的是一個(gè)軟件包,還不能稱之為搜索引擎,而則完成對(duì)的封裝,是一個(gè)真正意義上的搜索引擎框架。 當(dāng)前是云計(jì)算和數(shù)據(jù)快速增長(zhǎng)的時(shí)代,今天的應(yīng)用程序正以PB級(jí)和ZB級(jí)的速度生產(chǎn)數(shù)據(jù),但人們依然在不停的追求更高更快的性能需求。隨著數(shù)據(jù)的堆積,如何快速有效的搜索這些數(shù)據(jù),成為對(duì)后端服務(wù)的挑戰(zhàn)。本文,我們將比較業(yè)...
摘要:場(chǎng)景場(chǎng)景留言功能限制,秒內(nèi)只能評(píng)論次,超出次數(shù)不讓能再評(píng)論,并提示過(guò)于頻繁場(chǎng)景點(diǎn)贊功能限制,秒內(nèi)只能點(diǎn)贊次,超出次數(shù)后不能再點(diǎn)贊,并禁止操作個(gè)小時(shí),提示過(guò)于頻繁,被禁止操作小時(shí)場(chǎng)景上傳記錄功能,限制一天只能上傳次,超出次數(shù)不讓能再上傳,并提 場(chǎng)景 場(chǎng)景1 留言功能限制,30秒 內(nèi)只能評(píng)論 10次,超出次數(shù)不讓能再評(píng)論,并提示:過(guò)于頻繁 場(chǎng)景2 點(diǎn)贊功能限制,10秒 內(nèi)只能點(diǎn)贊 10次,...
閱讀 2900·2021-11-17 09:33
閱讀 3683·2021-11-16 11:42
閱讀 3504·2021-10-26 09:50
閱讀 1359·2021-09-22 15:49
閱讀 3055·2021-08-10 09:44
閱讀 3692·2019-08-29 18:36
閱讀 3948·2019-08-29 16:43
閱讀 2233·2019-08-29 14:10