摘要:在我認(rèn)識范圍內(nèi)完成的是在日文文本分析方面的最強王者。簡介是一個開源的日文詞法分析的庫。功能你可以用它來對日文文本進(jìn)行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關(guān)聯(lián)可以將日文漢字轉(zhuǎn)換成平假名,片假名或的
在我認(rèn)識范圍內(nèi)atilika完成的Kuromoji是在日文文本分析方面的最強王者。
簡介kuromoji是一個開源的日文詞法分析的JAVA庫。
但也有Ruby,javascript,go等語言的版本,你可以在github或則語言對應(yīng)的庫管理工具中找到。
官網(wǎng)有更多的信息。
功能你可以用它來對日文文本進(jìn)行如下的處理,包括且不僅包括:
分詞
給出讀音( 包括漢字)
詞性
詞干提取
…...
你也可以在kuromoji.js的playground嘗試kuromoji。
使用作為一名前端小卒,我就以js版的kuromoji來做示范吧,JAVA同胞們可以看這里JAVA簡要教程。
安裝kuromoji的npm頁面在這里。
在 Node.js 中使用:
先通過npm來安裝到項目中
npm install kuromoji
再在JS文件中引用其。
var kuromoji = require("kuromoji");
接來下你可以如下來實例化一個解析器。
kuromoji.builder({ dicPath: "指定/對應(yīng)的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) { // tokenizer is ready var path = tokenizer.tokenize("すもももももももものうち"); console.log(path); }); /* ??!注意 !! * * Kuromoji可以指定不同的詞典,因此在實例化解析器的過程中需要指定使用 * 詞典的路徑,`kuromoji.builder`中的參數(shù)的`dicPath`的值應(yīng)指向使用 * 得詞典。 * 若在node.js中使用,一般來說直接使用該庫中的字典即可,即設(shè)置 * {dicPath:"./node_modules/kuromoji/dict/"} */
在 瀏覽器 中使用:
如果使用npm安裝,那么你需要使用到包中的build/kuromoji.js 和 dict/*.dat.gz下的文件。
你可以直接使用前端模塊管理Bower來安裝瀏覽器專用的kuromoji。
bower install kuromoji
你也可以直接使用github、CDN等其他網(wǎng)絡(luò)鏈接的方式來引入該文件。
再在你的JS中這樣使用
設(shè)置路徑到kuromoji.builder({ dicPath: "指定/對應(yīng)的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) { // tokenizer is ready var path = tokenizer.tokenize("すもももももももものうち"); console.log(path); }); /* !!注意 ??! * * Kuromoji可以指定不同的詞典,因此在實例化解析器的過程中需要指定使用 * 詞典的路徑,`kuromoji.builder`中的參數(shù)的`dicPath`的值應(yīng)指向使用 * 得詞典。 * 若在瀏覽器中使用,則設(shè)置路徑到對應(yīng)的網(wǎng)絡(luò)位置就好。 * 比如字典放在了 http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/ * 就設(shè)置{ dicPath:"http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/" } */API
tokenize()函數(shù)將會返回一個如下格式的JSON數(shù)組:
[ { word_id: 509800, // 詞典中的詞所在ID word_type: "KNOWN", // 單詞類型(存在詞典的為KNOWN,不存在的為UNKNOWN) word_position: 1, // 單詞開始的位置 surface_form: "黒文字", // 單詞的表面(不知什么意思) pos: "名詞", // 詞性 pos_detail_1: "一般", // 詞性細(xì)分類別1 pos_detail_2: "*", // 詞性細(xì)分類別2 pos_detail_3: "*", // 詞性細(xì)分類別3 conjugated_type: "*", // 活用型 conjugated_form: "*", // 活用形 basic_form: "黒文字", // 基本型 reading: "クロモジ", // 閱讀 pronunciation: "クロモジ" // 發(fā)育 } ]
以處理 “世界の神” 為例子
tokenizer.tokenize("世界の神");
將會返回
[ { word_id: 2633350, word_type: "KNOWN", word_position: 6, surface_form: "世界", pos: "名詞", pos_detail_1: "一般", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "世界", reading: "セカイ", pronunciation: "セカイ" }, { word_id: 93100, word_type: "KNOWN", word_position: 8, surface_form: "の", pos: "助詞", pos_detail_1: "連體化", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "の", reading: "ノ", pronunciation: "ノ" }, { word_id: 2771160, word_type: "KNOWN", word_position: 9, surface_form: "神", pos: "名詞", pos_detail_1: "一般", pos_detail_2: "*", pos_detail_3: "*", conjugated_type: "*", conjugated_form: "*", basic_form: "神", reading: "カミ", pronunciation: "カミ" }, ]備注
你嘗試了一下,然后會發(fā)現(xiàn)kuromoji雖然強大,但是有一個問題——慢。
不過別擔(dān)心,kuromojin(node.js)可以幫你解決這個問題。
kuromojin
kuromojin是一個對kuromoji進(jìn)行了高度包裝的語法糖,并且還實現(xiàn)了緩沖層來保證速度。
使用kuromojin,你可以:
不用設(shè)置詞典的地址。
實例化解析器后,除了第一次之外,之后的速度會非常塊。
基于Promise實現(xiàn)了APi。
使用方面它的文檔已經(jīng)很詳細(xì),RDD我就不多作介紹了。
關(guān)聯(lián)可以將 日文漢字 轉(zhuǎn)換成 平假名,片假名或Romaji 的 KAKASI
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/67209.html
摘要:在我認(rèn)識范圍內(nèi)完成的是在日文文本分析方面的最強王者。簡介是一個開源的日文詞法分析的庫。功能你可以用它來對日文文本進(jìn)行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關(guān)聯(lián)可以將日文漢字轉(zhuǎn)換成平假名,片假名或的 在我認(rèn)識范圍內(nèi)atilika完成的Kuromoji是在日文文本分析方面的最強王者。 簡介 kuromoji是一個開源的日文詞法分析的JAVA庫。 但也...
摘要:本文,我們將比較業(yè)界兩個最流行的開源搜索引擎,和。關(guān)于基于業(yè)界大名鼎鼎的開源搜索引擎,更多的是一個軟件包,還不能稱之為搜索引擎,而則完成對的封裝,是一個真正意義上的搜索引擎框架。 當(dāng)前是云計算和數(shù)據(jù)快速增長的時代,今天的應(yīng)用程序正以PB級和ZB級的速度生產(chǎn)數(shù)據(jù),但人們依然在不停的追求更高更快的性能需求。隨著數(shù)據(jù)的堆積,如何快速有效的搜索這些數(shù)據(jù),成為對后端服務(wù)的挑戰(zhàn)。本文,我們將比較業(yè)...
摘要:場景場景留言功能限制,秒內(nèi)只能評論次,超出次數(shù)不讓能再評論,并提示過于頻繁場景點贊功能限制,秒內(nèi)只能點贊次,超出次數(shù)后不能再點贊,并禁止操作個小時,提示過于頻繁,被禁止操作小時場景上傳記錄功能,限制一天只能上傳次,超出次數(shù)不讓能再上傳,并提 場景 場景1 留言功能限制,30秒 內(nèi)只能評論 10次,超出次數(shù)不讓能再評論,并提示:過于頻繁 場景2 點贊功能限制,10秒 內(nèi)只能點贊 10次,...
閱讀 2867·2021-09-27 13:35
閱讀 632·2021-09-23 11:22
閱讀 2904·2019-08-30 15:54
閱讀 1618·2019-08-29 16:27
閱讀 2478·2019-08-29 15:05
閱讀 2360·2019-08-23 18:11
閱讀 3532·2019-08-23 16:32
閱讀 2951·2019-08-23 14:56