成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

機器學習實戰(zhàn),使用樸素貝葉斯來做情感分析

levinit / 1564人閱讀

摘要:至于為什么選取樸素貝葉斯,很大一個原因是因為樸素貝葉斯在垃圾郵件分類上有不錯的效果,而確定一個句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。

前言

前段時間更新了一系列基礎(chǔ)的機器學習算法,感覺有些無味,而且恰好那時買了了國內(nèi)某公司的云服務(wù)器,就打算部署一套文本處理的WEB API,順別應(yīng)用一下之前學習到的機器學習算法。(文末放出地址)

本文不會涉及過于復雜的數(shù)學原理,主要講述如何提取特征與調(diào)用模型。

實現(xiàn)了的api

分詞
訪問/cut?sentence=&method=,其中sentence參數(shù)指明需要分詞的句子,method參數(shù)指明分詞的方式。

統(tǒng)計詞頻
訪問/count?sentence=&=method=,其中的參數(shù)說明和分詞的api一致。

情感分析
訪問/count?sentence=,因為目前是針對句子的,因此sentence的范圍限制了在1~200詞之間。

本文重點講述情感分析的實現(xiàn)。

情感分析的實現(xiàn)

情感分析的應(yīng)用是多種多樣的,往大了說,可以用于國家對某個熱點進行輿情監(jiān)控,選舉的選情分析,電商對產(chǎn)品的售后意向調(diào)查,往小了說還可以寫一個腳本對你女神的微博進行關(guān)心,在女神不開心的時候及時送上關(guān)心。

至于情感分析的實現(xiàn),在學術(shù)論文上均有提及,大致過程都可以分為提取情感極性詞,將語句轉(zhuǎn)化為向量,扔進你訓練好的模型里

在這里我們針對實際情況做出一定的修改,提取情感極性詞,必然是需要詞典來參考的,雖然各大語言機構(gòu)都有公開的詞典,,但并不建議使用這些詞典。其中一個原因是因為這些公開的詞典太過書面化,和“禮貌”,不太接近日常生活。因此這這里我采用的是自定義詞典,另外一點是,在提取關(guān)鍵詞部分不僅僅是提取情感相關(guān)的詞語,同時也使用其他日常用語,比如草泥馬,雖然不像開心,傷心這樣的情感極性詞,但草泥馬顯然具有明確的情感偏向。

值得說明的是,我們既然在提取特征詞的時候考慮到平常的詞語,同樣也就意味這一些亂七八糟的詞語會混進來,所以我們在提取完特征詞后,同時計算它們的詞頻,只取頻率排名的前20%,(當然這個數(shù)字可以根據(jù)自己需要調(diào)整)。

挑選的出來的特征詞就構(gòu)成了[word1,word2,word3……],同時檢測訓練樣本,若樣本中出現(xiàn)了特征詞,則該樣本的特征向量對應(yīng)位置置1,否則為0。

構(gòu)成特征向量后,我選取的算法是樸素貝葉斯,關(guān)于其原理,可以查看我支持的專欄機器學習從入門到放棄之樸素貝葉斯。至于為什么選取樸素貝葉斯,很大一個原因是因為樸素貝葉斯在垃圾郵件分類上有不錯的效果,而確定一個句子屬于那種情感,和判斷一封郵件是否為垃圾郵件有異曲同工之妙。

在sklearn中,只要添加如下代碼即可。

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb = gnb.fit(feature, label)
result = gnb.predice(test)

上述api中涉及的分詞操作均是使用 結(jié)巴分詞 完成。

測試效果

下面測試用例又黃又暴力,未成年觀眾在家長的陪同下觀看。

開源代碼

dudulu

WEB API測試頁面

目前只有情感分析的api的測試頁面

dudulu
不得不說使用了必應(yīng)的背景圖來做自己網(wǎng)站的背景圖效果相當不錯。

后話

希望大家多多調(diào)戲(目前語料只支持中文),后端的日志會記錄下測試記錄(算是收集數(shù)據(jù)),我會周期性上去更新模型,效果理論上會越變越好。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38185.html

相關(guān)文章

  • ApacheCN 人工智能知識樹 v1.0

    摘要:貢獻者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識點合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻者:飛龍版...

    劉厚水 評論0 收藏0
  • 成為數(shù)據(jù)科學家的入門項目

    摘要:基于大量的數(shù)據(jù)統(tǒng)計,網(wǎng)球是一種很好的預測類體育項目。數(shù)據(jù)科學家根據(jù)歷史數(shù)據(jù)和玩家信息來構(gòu)建預測模型,并將結(jié)果與博彩公司的評估進行比較。目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數(shù)據(jù)科學項目。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/56c......

    Julylovin 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<