基于jieba和doc2vec的中文情感語(yǔ)料分類(lèi)

alaege 發(fā)布于2019-07-31 11:01 / 1912人閱讀

摘要：將不同的評(píng)分按分類(lèi)放好分詞分詞是通過(guò)第三方的實(shí)現(xiàn)的。這對(duì)于計(jì)算相似度還是用作后續(xù)的分類(lèi)器訓(xùn)練后續(xù)有時(shí)間的話(huà)會(huì)實(shí)現(xiàn)基于的分類(lèi)器都是十分有幫助的。

Chinese-sentiment-analysis-with-Doc2Vec 簡(jiǎn)介

中文語(yǔ)料的情感分析基本步驟如下：

爬取相關(guān)的語(yǔ)料或者下載相關(guān)語(yǔ)料（本文使用了對(duì)于賓館評(píng)價(jià)的相關(guān)語(yǔ)料作為例子）

將語(yǔ)料進(jìn)行預(yù)處理并分詞

用某種量化的表達(dá)形式來(lái)對(duì)語(yǔ)料進(jìn)行數(shù)字化處理

基于監(jiān)督學(xué)習(xí)的分類(lèi)器訓(xùn)練

開(kāi)發(fā)環(huán)境Python-v3(3.6)：

    gensim==3.0.1
    jieba==0.39
    scikit-learn==0.19.1
    tensorflow==1.2.1
    numpy==1.13.1+mkl

示例代碼參考Chinese-sentiment-analysis-with-Doc2Vec
https://github.com/lybroman/C...

在repo中有兩個(gè)zip文件分別為train.zip和test.zip數(shù)據(jù)，當(dāng)然你也可以直接在加載語(yǔ)料時(shí)將部分?jǐn)?shù)據(jù)用作測(cè)試數(shù)據(jù)（詳見(jiàn)后文）。

數(shù)據(jù)預(yù)處理(preprocess.py)

zip數(shù)據(jù)中為大量的txt文檔，每一個(gè)的后綴是評(píng)分，例如72_1380108_2006-11-9_1.0.txt，那么該評(píng)分為1.0分（其實(shí)就是差評(píng)啦）。我們需要做的是將所有評(píng)分劃分為1、2、3、4，5檔，顧名思義就是評(píng)價(jià)由壞到好。這里用了一些簡(jiǎn)單的字符串處理來(lái)獲取分?jǐn)?shù)并使用round函數(shù)來(lái)對(duì)分?jǐn)?shù)取整。

將不同的評(píng)分txt按folder分類(lèi)放好

分詞（words_segment.py）

分詞是通過(guò)第三方的jieba實(shí)現(xiàn)的。

分詞之前需要做一些簡(jiǎn)單的處理，比如過(guò)濾一些不感興趣的字符。

    filter_chars = "
，。；！,.:;：、"
    trans_dict = dict.fromkeys((ord(_) for _ in filter_chars), "")
    line = line.translate(trans_dict)

將分完詞的語(yǔ)料按照分?jǐn)?shù)歸并到同一個(gè)文本做為訓(xùn)練做準(zhǔn)備

文本向量化模型（main.py：step 1-3）

這里只要使用到了gensim.models.doc2vec，該模塊提供了將不定長(zhǎng)的文本映射到維度大小固定的向量的功能。這對(duì)于計(jì)算相似度還是用作后續(xù)的CNN分類(lèi)器訓(xùn)練（后續(xù)有時(shí)間的話(huà)會(huì)實(shí)現(xiàn)基于TensorFlow的分類(lèi)器）都是十分有幫助的。

具體的原理可以參考distributed-representations-of-sentences-and-documents

gensim doc2vec

本文旨在通過(guò)簡(jiǎn)單的示例介紹如何通過(guò)訓(xùn)練模型來(lái)自動(dòng)判斷某個(gè)新的輸入評(píng)價(jià)是好評(píng)（5分）還是差評(píng)（1分），所以在后續(xù)的代碼中，使用的樣本就來(lái)自于這兩類(lèi)樣本的集合（后續(xù)有時(shí)間的話(huà)會(huì)繼續(xù)實(shí)現(xiàn)多分類(lèi)問(wèn)題）

訓(xùn)練分類(lèi)器（main.py：step 4-5）

這里使用了sklearn中的分類(lèi)器（LR、SVM、決策樹(shù)等等，最新版本的sklearn還提供了NN的實(shí)現(xiàn)）。具體參考scikit-learn。

數(shù)據(jù)的標(biāo)記十分簡(jiǎn)單，將5分的訓(xùn)練集標(biāo)記為1，1分的訓(xùn)練集標(biāo)記為0即可（如果實(shí)現(xiàn)多分類(lèi)，按照分?jǐn)?shù)標(biāo)記即可。）

其中我把20%的訓(xùn)練集抽出作為測(cè)試數(shù)據(jù):

    train, test, train_label, test_label = ms.train_test_split(
        train_arrays, train_labels, test_size=0.2)

最后進(jìn)行驗(yàn)證，一般>0.6就認(rèn)為是一個(gè)有不錯(cuò)預(yù)測(cè)能力的模型了

新樣本預(yù)測(cè)（prediction.py）

通過(guò)加載之前訓(xùn)練的model和分類(lèi)器對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)

同時(shí)記錄了每一個(gè)測(cè)試樣本最近似的訓(xùn)練樣本

后續(xù)工作

實(shí)現(xiàn)多分類(lèi)

基于TF的CNN分類(lèi)器

云服務(wù)器 GPU云服務(wù)器數(shù)據(jù)挖掘的分類(lèi)和預(yù)測(cè) 圖像識(shí)別和圖像分類(lèi) 語(yǔ)料語(yǔ)料庫(kù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/44519.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

alaege

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

#yyds干貨盤(pán)點(diǎn)# k8s cgroup詳解

閱讀 3979·2021-11-24 09:38
Toxic-Host：羅馬尼亞獨(dú)立服務(wù)器，$19.99 /月起，AMD EPYC 月付$114.99

閱讀 1243·2021-10-19 11:42
華為于深圳成立云計(jì)算技術(shù)新公司,注冊(cè)資本3億元_云資訊

閱讀 1840·2021-10-14 09:42
前端面試每日3+1——第106天

閱讀 2166·2019-08-30 15:44
假設(shè)高度已知，請(qǐng)寫(xiě)出三欄布局，其中左欄、右欄各為300px，中間自適應(yīng)的五種方法

閱讀 555·2019-08-30 14:04
Canvas繪畫(huà)一個(gè)時(shí)鐘

閱讀 2901·2019-08-30 13:13
ajax之面試必問(wèn)跨域問(wèn)題

閱讀 1963·2019-08-30 12:51
【效果實(shí)現(xiàn)】在照片上面顯示一段文字，最多兩行，多余部分用省略號(hào)表示

閱讀 972·2019-08-30 11:22

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

基于jieba和doc2vec的中文情感語(yǔ)料分類(lèi)

相關(guān)文章

自然語(yǔ)言處理真實(shí)項(xiàng)目實(shí)戰(zhàn)

LSTM分類(lèi)相關(guān)

發(fā)表評(píng)論

0條評(píng)論

alaege

男|高級(jí)講師

TA的文章

#yyds干貨盤(pán)點(diǎn)# k8s cgroup詳解

Toxic-Host：羅馬尼亞獨(dú)立服務(wù)器，$19.99 /月起，AMD EPYC 月付$114.99

華為于深圳成立云計(jì)算技術(shù)新公司,注冊(cè)資本3億元_云資訊

前端面試每日3+1——第106天

假設(shè)高度已知，請(qǐng)寫(xiě)出三欄布局，其中左欄、右欄各為300px，中間自適應(yīng)的五種方法

Canvas繪畫(huà)一個(gè)時(shí)鐘

ajax之面試必問(wèn)跨域問(wèn)題

【效果實(shí)現(xiàn)】在照片上面顯示一段文字，最多兩行，多余部分用省略號(hào)表示

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

基于jieba和doc2vec的中文情感語(yǔ)料分類(lèi)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！