成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

日文文本分析最強(qiáng)王者——Kuromoji

張紅新 / 3565人閱讀

摘要:在我認(rèn)識(shí)范圍內(nèi)完成的是在日文文本分析方面的最強(qiáng)王者。簡(jiǎn)介是一個(gè)開(kāi)源的日文詞法分析的庫(kù)。功能你可以用它來(lái)對(duì)日文文本進(jìn)行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關(guān)聯(lián)可以將日文漢字轉(zhuǎn)換成平假名,片假名或的

在我認(rèn)識(shí)范圍內(nèi)atilika完成的Kuromoji是在日文文本分析方面的最強(qiáng)王者。

簡(jiǎn)介

kuromoji是一個(gè)開(kāi)源的日文詞法分析的JAVA庫(kù)。

但也有Ruby,javascript,go等語(yǔ)言的版本,你可以在github或則語(yǔ)言對(duì)應(yīng)的庫(kù)管理工具中找到。

官網(wǎng)有更多的信息。

功能

你可以用它來(lái)對(duì)日文文本進(jìn)行如下的處理,包括且不僅包括:

分詞

給出讀音( 包括漢字)

詞性

詞干提取

…...

你也可以在kuromoji.js的playground嘗試kuromoji

使用

作為一名前端小卒,我就以js版的kuromoji來(lái)做示范吧,JAVA同胞們可以看這里JAVA簡(jiǎn)要教程。

安裝

kuromoji的npm頁(yè)面在這里。

在 Node.js 中使用:

先通過(guò)npm來(lái)安裝到項(xiàng)目中

npm install kuromoji

再在JS文件中引用其。

var kuromoji = require("kuromoji");

接來(lái)下你可以如下來(lái)實(shí)例化一個(gè)解析器。

kuromoji.builder({ dicPath: "指定/對(duì)應(yīng)的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) {
    // tokenizer is ready
    var path = tokenizer.tokenize("すもももももももものうち");
    console.log(path);
});
/* !!注意 !!
*
* Kuromoji可以指定不同的詞典,因此在實(shí)例化解析器的過(guò)程中需要指定使用
* 詞典的路徑,`kuromoji.builder`中的參數(shù)的`dicPath`的值應(yīng)指向使用
* 得詞典。
* 若在node.js中使用,一般來(lái)說(shuō)直接使用該庫(kù)中的字典即可,即設(shè)置
*     {dicPath:"./node_modules/kuromoji/dict/"}
*/

在 瀏覽器 中使用:

如果使用npm安裝,那么你需要使用到包中的build/kuromoji.jsdict/*.dat.gz下的文件。

你可以直接使用前端模塊管理Bower來(lái)安裝瀏覽器專用的kuromoji。

bower install kuromoji

你也可以直接使用github、CDN等其他網(wǎng)絡(luò)鏈接的方式來(lái)引入該文件。

再在你的JS中這樣使用

設(shè)置路徑到kuromoji.builder({ dicPath: "指定/對(duì)應(yīng)的路徑/到你使用/的/詞典上去" }).build(function (err, tokenizer) {
    // tokenizer is ready
    var path = tokenizer.tokenize("すもももももももものうち");
    console.log(path);
});
/* ??!注意 ??!
*
* Kuromoji可以指定不同的詞典,因此在實(shí)例化解析器的過(guò)程中需要指定使用
* 詞典的路徑,`kuromoji.builder`中的參數(shù)的`dicPath`的值應(yīng)指向使用
* 得詞典。
* 若在瀏覽器中使用,則設(shè)置路徑到對(duì)應(yīng)的網(wǎng)絡(luò)位置就好。
* 比如字典放在了 http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/
* 就設(shè)置{ dicPath:"http://apps.bdimg.com/libs/kuromoji.js/0.3.2/dict/" }
*/
API

tokenize()函數(shù)將會(huì)返回一個(gè)如下格式的JSON數(shù)組:

[ {
    word_id: 509800,          // 詞典中的詞所在ID
    word_type: "KNOWN",       // 單詞類型(存在詞典的為KNOWN,不存在的為UNKNOWN)
    word_position: 1,         // 單詞開(kāi)始的位置
    surface_form: "黒文字",    // 單詞的表面(不知什么意思)
    pos: "名詞",               // 詞性
    pos_detail_1: "一般",      // 詞性細(xì)分類別1
    pos_detail_2: "*",        // 詞性細(xì)分類別2
    pos_detail_3: "*",        // 詞性細(xì)分類別3
    conjugated_type: "*",     // 活用型
    conjugated_form: "*",     // 活用形
    basic_form: "黒文字",      // 基本型
    reading: "クロモジ",       // 閱讀
    pronunciation: "クロモジ"  // 發(fā)育
  } ]

以處理 “世界の神” 為例子

tokenizer.tokenize("世界の神");

將會(huì)返回

[  { word_id: 2633350,
    word_type: "KNOWN",
    word_position: 6,
    surface_form: "世界",    
    pos: "名詞",
    pos_detail_1: "一般",
    pos_detail_2: "*",
    pos_detail_3: "*",
    conjugated_type: "*",
    conjugated_form: "*",
    basic_form: "世界",
    reading: "セカイ",
    pronunciation: "セカイ" },
  { word_id: 93100,
    word_type: "KNOWN",
    word_position: 8,
    surface_form: "の",
    pos: "助詞",
    pos_detail_1: "連體化",
    pos_detail_2: "*",
    pos_detail_3: "*",
    conjugated_type: "*",
    conjugated_form: "*",
    basic_form: "の",
    reading: "ノ",
    pronunciation: "ノ" },
  { word_id: 2771160,
    word_type: "KNOWN",
    word_position: 9,
    surface_form: "神",
    pos: "名詞",
    pos_detail_1: "一般",
    pos_detail_2: "*",
    pos_detail_3: "*",
    conjugated_type: "*",
    conjugated_form: "*",
    basic_form: "神",
    reading: "カミ",
    pronunciation: "カミ" },
]
備注

你嘗試了一下,然后會(huì)發(fā)現(xiàn)kuromoji雖然強(qiáng)大,但是有一個(gè)問(wèn)題——慢。

不過(guò)別擔(dān)心,kuromojin(node.js)可以幫你解決這個(gè)問(wèn)題。

kuromojin

kuromojin是一個(gè)對(duì)kuromoji進(jìn)行了高度包裝的語(yǔ)法糖,并且還實(shí)現(xiàn)了緩沖層來(lái)保證速度。

使用kuromojin,你可以:

不用設(shè)置詞典的地址。

實(shí)例化解析器后,除了第一次之外,之后的速度會(huì)非常塊。

基于Promise實(shí)現(xiàn)了APi。

使用方面它的文檔已經(jīng)很詳細(xì),RDD我就不多作介紹了。

關(guān)聯(lián)

可以將 日文漢字 轉(zhuǎn)換成 平假名,片假名或Romaji 的 KAKASI

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/83640.html

相關(guān)文章

  • 日文文本分析最強(qiáng)王者——Kuromoji

    摘要:在我認(rèn)識(shí)范圍內(nèi)完成的是在日文文本分析方面的最強(qiáng)王者。簡(jiǎn)介是一個(gè)開(kāi)源的日文詞法分析的庫(kù)。功能你可以用它來(lái)對(duì)日文文本進(jìn)行如下的處理,包括且不僅包括分詞給出讀音包括漢字詞性詞干提取你也可以在的嘗試。關(guān)聯(lián)可以將日文漢字轉(zhuǎn)換成平假名,片假名或的 在我認(rèn)識(shí)范圍內(nèi)atilika完成的Kuromoji是在日文文本分析方面的最強(qiáng)王者。 簡(jiǎn)介 kuromoji是一個(gè)開(kāi)源的日文詞法分析的JAVA庫(kù)。 但也...

    levinit 評(píng)論0 收藏0
  • Solr vs. Elasticsearch誰(shuí)是開(kāi)源搜索引擎王者

    摘要:本文,我們將比較業(yè)界兩個(gè)最流行的開(kāi)源搜索引擎,和。關(guān)于基于業(yè)界大名鼎鼎的開(kāi)源搜索引擎,更多的是一個(gè)軟件包,還不能稱之為搜索引擎,而則完成對(duì)的封裝,是一個(gè)真正意義上的搜索引擎框架。 當(dāng)前是云計(jì)算和數(shù)據(jù)快速增長(zhǎng)的時(shí)代,今天的應(yīng)用程序正以PB級(jí)和ZB級(jí)的速度生產(chǎn)數(shù)據(jù),但人們依然在不停的追求更高更快的性能需求。隨著數(shù)據(jù)的堆積,如何快速有效的搜索這些數(shù)據(jù),成為對(duì)后端服務(wù)的挑戰(zhàn)。本文,我們將比較業(yè)...

    freewolf 評(píng)論0 收藏0
  • Redis實(shí)戰(zhàn)之限制操作頻率

    摘要:場(chǎng)景場(chǎng)景留言功能限制,秒內(nèi)只能評(píng)論次,超出次數(shù)不讓能再評(píng)論,并提示過(guò)于頻繁場(chǎng)景點(diǎn)贊功能限制,秒內(nèi)只能點(diǎn)贊次,超出次數(shù)后不能再點(diǎn)贊,并禁止操作個(gè)小時(shí),提示過(guò)于頻繁,被禁止操作小時(shí)場(chǎng)景上傳記錄功能,限制一天只能上傳次,超出次數(shù)不讓能再上傳,并提 場(chǎng)景 場(chǎng)景1 留言功能限制,30秒 內(nèi)只能評(píng)論 10次,超出次數(shù)不讓能再評(píng)論,并提示:過(guò)于頻繁 場(chǎng)景2 點(diǎn)贊功能限制,10秒 內(nèi)只能點(diǎn)贊 10次,...

    張率功 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<