python實(shí)現(xiàn)在線分詞

Simon_Zhou 發(fā)布于2019-07-31 10:53 / 2186人閱讀

摘要：寫(xiě)在前面最近在優(yōu)化網(wǎng)站的搜索部分，網(wǎng)站是用實(shí)現(xiàn)的，主要業(yè)務(wù)是在線視頻教育網(wǎng)站，之前搜索只是一段模型中的模糊匹配，所以只能搜索關(guān)鍵字，但是突然又想在網(wǎng)站做個(gè)類似于百度問(wèn)答的功能。篩選出大于概率的詞至此實(shí)現(xiàn)簡(jiǎn)單分詞就寫(xiě)完了。

寫(xiě)在前面

最近在優(yōu)化網(wǎng)站的搜索部分，網(wǎng)站是用Django實(shí)現(xiàn)的，主要業(yè)務(wù)是在線視頻教育網(wǎng)站，之前搜索只是一段Django ORM模型中的icontains模糊匹配，所以只能搜索關(guān)鍵字，但是CEO(SB)突然又想在網(wǎng)站做個(gè)類似于百度問(wèn)答的功能。但是搜索問(wèn)題就成了一個(gè)棘手的事情，原有搜索不能滿足需求，但是調(diào)研相關(guān)的elasticsearch之類的全文檢索又有點(diǎn)重(除了有點(diǎn)重，主要是CEO不給時(shí)間??！)，所以就把精力放在了分詞上，能短平快的實(shí)現(xiàn)該功能，而且比較輕。

因?yàn)殛P(guān)注的梁博，自然而然想到了他博士期間寫(xiě)的在線分詞pullword（寫(xiě)這篇文章時(shí)他個(gè)人網(wǎng)站又掛掉了，哈哈哈，這里貼出了他的微博供大家膜拜），在此對(duì)梁博表示感謝??！

下面是我寫(xiě)的分詞的utils，不過(guò)梁博的分詞現(xiàn)在只能支持中文，輸入英文跟數(shù)字會(huì)返回error，之前是想調(diào)用梁博的原有的pullword，他的API地址，但是我測(cè)了一下需要6-7秒，對(duì)于網(wǎng)站搜索功能顯然沒(méi)辦法使用，后來(lái)又找到他掛在百度的免費(fèi)API，測(cè)試了一下數(shù)據(jù)返回在0.1秒左右，還不錯(cuò)，就使用了百度api。

要注意，他原生的api中有個(gè)param1的參數(shù)，表示選詞概率，param1=0.8表示只出概率在0.8以上的詞，但是我調(diào)用傳參的時(shí)候不好用，所以就通過(guò)返回的數(shù)據(jù)自己寫(xiě)了篩選。
get_pullword需要兩個(gè)參數(shù)，第一個(gè)是一段需要分詞的話，第二個(gè)是篩選分詞后選詞概率，［0，1］區(qū)間，等同于他的param1的參數(shù)。

# coding: utf-8
__author__ = "flyingpang"
import requests
import datetime


def get_pullword(s, probability):
    """
    :param s: 一段需要分詞的中文.
    :param probability: 選詞概率.
    :return: 按照概率從大到小排序返回一個(gè)list.
    """
    headers = {"apikey": "你自己的百度apikey"}
    url = "http://apis.baidu.com/apistore/pullword/words"
    params = {"source": s, "param1": "0", "param2": "1"}
    r = requests.get(url=url, headers=headers, params=params)

    if r.status_code != 200 or r.content.strip().split("
")[0].startswith("error"):
        result = list()
        result.append(s)
        return result
    else:
        data = r.content.strip().split("
")
        return split_word(data, probability)


def split_word(words, probability=0):
    """
    :param words: 分詞結(jié)果的字典, 其中key為分詞,value為概率.
    :param probability: 最小分詞概率
    :return: 概率從大到小的分詞列表.
    """
    # 分詞跟相關(guān)概率保存到字典中.
    d = dict()

    for i in words:
        m = i.split(":")
        d[m[0].decode("utf-8")] = float(m[1])

    m = sorted(d.iteritems(), key=lambda k: k[1], reverse=True)
    words_list = []
    for i in range(len(m)):
        if m[i][1] >= probability:
            words_list.append(m[i][0])
    return words_list

if __name__ == "__main__":
    source = u"清華大學(xué)是好學(xué)校"
    t1 = datetime.datetime.now()
    test = get_pullword(source, 0.8)
    t2 = datetime.datetime.now()
    print "total time", t2 - t1
    print test

因?yàn)槲液蠖耸褂肈iango的icontains來(lái)匹配，所以返回一個(gè)list的話沒(méi)辦法匹配，所以這里給出一個(gè)Django處理的方法。

query = self.request.GET.get("q", None)
pull_words = get_pullword(query, 0.8)  # 篩選出大于0.8概率的詞
query_list = reduce(operator.or_, (Q(title__icontains=item) for item in pull_words))
question_list = Question.objects.filter(query_list).order_by("-id")

至此python實(shí)現(xiàn)簡(jiǎn)單分詞就寫(xiě)完了。

GPU云服務(wù)器云服務(wù)器分詞實(shí)現(xiàn)代碼 python 分詞 python分詞 python 分詞庫(kù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/44290.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Simon_Zhou

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

python面試常見(jiàn)問(wèn)題

閱讀 2524·2021-11-18 10:02
DMIT：全新日本Pro VPS 8折，CN2 GIA/10099(9929)/CMI線路，1核/7

閱讀 2000·2021-11-09 09:45
ESP32-C3入門(mén)教程網(wǎng)絡(luò)篇①——WiFi Scan 快速掃描附近AP無(wú)線熱點(diǎn)

閱讀 2454·2021-09-26 09:47
UCloud優(yōu)刻得CDN國(guó)內(nèi)/國(guó)際流量包超值特惠活動(dòng)改版，國(guó)內(nèi)流量包不限有效期，100GB/1元，1

閱讀 1039·2021-07-23 10:26
flex-item屬性之flex-grow、flex-shrink了解下

閱讀 1082·2019-08-30 15:47
前端面試每日3+1（周匯總2019.08.18）

閱讀 3374·2019-08-30 15:44
wkhtmltopdf chartjs

閱讀 988·2019-08-30 15:43
SourceTree使用方法記錄

閱讀 895·2019-08-29 13:50

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python實(shí)現(xiàn)在線分詞

相關(guān)文章

**用 Python 提取《釜山行》人物關(guān)系**

python 實(shí)現(xiàn)中文分詞統(tǒng)計(jì)

分詞，難在哪里？科普+解決方案！

一個(gè)JAVA碼農(nóng)的Node之旅

發(fā)表評(píng)論

0條評(píng)論

Simon_Zhou

男|高級(jí)講師

TA的文章

python面試常見(jiàn)問(wèn)題

DMIT：全新日本Pro VPS 8折，CN2 GIA/10099(9929)/CMI線路，1核/7

ESP32-C3入門(mén)教程網(wǎng)絡(luò)篇①——WiFi Scan 快速掃描附近AP無(wú)線熱點(diǎn)

UCloud優(yōu)刻得CDN國(guó)內(nèi)/國(guó)際流量包超值特惠活動(dòng)改版，國(guó)內(nèi)流量包不限有效期，100GB/1元，1

flex-item屬性之flex-grow、flex-shrink了解下

前端面試每日3+1（周匯總2019.08.18）

wkhtmltopdf chartjs

SourceTree使用方法記錄

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python實(shí)現(xiàn)在線分詞

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！