【手撕 - 自然語(yǔ)言處理】手撕 TextRank（01）大佬是怎么實(shí)現(xiàn) Python 版的

JerryC 發(fā)布于2019-07-31 11:29 / 1511人閱讀

摘要：開(kāi)撕文件夾下的程序展示了怎么使用這個(gè)版本的。文件行數(shù)這句是重點(diǎn)摘要然后，我們知道重點(diǎn)函數(shù)是，我們?cè)賮?lái)看它是怎么工作的。再仔細(xì)閱讀一遍，原來(lái)寫這個(gè)庫(kù)的大佬用種不同的方法實(shí)現(xiàn)了個(gè)函數(shù)，請(qǐng)收下我的膝蓋。

作者：LogM

本文原載于 https://segmentfault.com/u/logm/articles ，不允許轉(zhuǎn)載~

1. 源碼來(lái)源

TextRank4ZH 源碼：https://github.com/letiantian/TextRank4ZH.git

本文對(duì)應(yīng)的源碼版本：committed on 3 Jul 2018, fb1339620818a0b0c16f5613ebf54153faa41636

TextRank 論文地址：https://www.aclweb.org/anthology/W04-3252

2. 概述

letiantian 大佬的這個(gè)版本，應(yīng)該是所有 TextRank 的 Python 版本中被點(diǎn)贊最多的。代碼寫的也非常的簡(jiǎn)單易懂。

3. 開(kāi)撕

example 文件夾下的程序展示了怎么使用這個(gè)版本的 TextRank。有關(guān)鍵詞、關(guān)鍵短語(yǔ)、關(guān)鍵句抽取三種功能，我們這邊只關(guān)注關(guān)鍵句的抽取。

應(yīng)該很容易看懂吧，先實(shí)例化 TextRank4Sentence，然后使用 analyze 抽取。

# 文件：example/example1.py
# 行數(shù)：28
tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source = "all_filters") # 這句是重點(diǎn)

print()
print( "摘要：" )
for item in tr4s.get_key_sentences(num=3):
    print(item.index, item.weight, item.sentence)

然后，我們知道重點(diǎn)函數(shù)是 analyze，我們?cè)賮?lái)看它是怎么工作的。

# 文件：textrank4zh/TextRank4Sentence.py
# 行數(shù)：43
def analyze(self, text, lower = False, 
              source = "no_stop_words", 
              sim_func = util.get_similarity,
              pagerank_config = {"alpha": 0.85,}):
        """
        Keyword arguments:
        text                 --  文本內(nèi)容，字符串。
        lower                --  是否將文本轉(zhuǎn)換為小寫。默認(rèn)為False。
        source               --  選擇使用words_no_filter, words_no_stop_words, words_all_filters中的哪一個(gè)來(lái)生成句子之間的相似度。
                                 默認(rèn)值為`"all_filters"`，可選值為`"no_filter", "no_stop_words", "all_filters"`。
        sim_func             --  指定計(jì)算句子相似度的函數(shù)。
        """
        
        self.key_sentences = []
        
        result = self.seg.segment(text=text, lower=lower)
        self.sentences = result.sentences
        self.words_no_filter = result.words_no_filter
        self.words_no_stop_words = result.words_no_stop_words
        self.words_all_filters   = result.words_all_filters

        options = ["no_filter", "no_stop_words", "all_filters"]
        if source in options:
            _source = result["words_"+source]
        else:
            _source = result["words_no_stop_words"]

        # 這句是重點(diǎn)
        self.key_sentences = util.sort_sentences(
              sentences = self.sentences,
              words     = _source,
              sim_func  = sim_func,
              pagerank_config = pagerank_config)

很容易發(fā)現(xiàn)，我們需要的內(nèi)容在 util.sort_sentences 這個(gè)函數(shù)里。

# 文件：textrank4zh/util.py
# 行數(shù)：169
def sort_sentences(sentences, words, sim_func = get_similarity, pagerank_config = {"alpha": 0.85,}):
    """將句子按照關(guān)鍵程度從大到小排序

    Keyword arguments:
    sentences         --  列表，元素是句子
    words             --  二維列表，子列表和sentences中的句子對(duì)應(yīng)，子列表由單詞組成
    sim_func          --  計(jì)算兩個(gè)句子的相似性，參數(shù)是兩個(gè)由單詞組成的列表
    pagerank_config   --  pagerank的設(shè)置
    """
    sorted_sentences = []
    _source = words
    sentences_num = len(_source)        
    graph = np.zeros((sentences_num, sentences_num))
    
    for x in xrange(sentences_num):
        for y in xrange(x, sentences_num):
            similarity = sim_func( _source[x], _source[y] ) # 重點(diǎn)1
            graph[x, y] = similarity
            graph[y, x] = similarity
            
    nx_graph = nx.from_numpy_matrix(graph)
    scores = nx.pagerank(nx_graph, **pagerank_config)  # 重點(diǎn)2
    sorted_scores = sorted(scores.items(), key = lambda item: item[1], reverse=True)

    for index, score in sorted_scores:
        item = AttrDict(index=index, sentence=sentences[index], weight=score)
        sorted_sentences.append(item)

    return sorted_sentences

這邊有兩個(gè)重點(diǎn)，重點(diǎn)1：句子與句子的相似度是如何計(jì)算的；重點(diǎn)2：pagerank的實(shí)現(xiàn)。

很明顯，PageRank 的實(shí)現(xiàn)是借助了 networkx 這個(gè)第三方庫(kù)，在下一節(jié)我們會(huì)來(lái)看看這個(gè)第三方庫(kù)的源碼。

這邊，我們先來(lái)看重點(diǎn)1，句子與句子的相似度是如何計(jì)算的，容易看出，計(jì)算方式和論文給的公式是一致的。

# 文件：textrank4zh/util.py
# 行數(shù)：102
def get_similarity(word_list1, word_list2):
    """默認(rèn)的用于計(jì)算兩個(gè)句子相似度的函數(shù)。

    Keyword arguments:
    word_list1, word_list2  --  分別代表兩個(gè)句子，都是由單詞組成的列表
    """
    words   = list(set(word_list1 + word_list2))        
    vector1 = [float(word_list1.count(word)) for word in words]
    vector2 = [float(word_list2.count(word)) for word in words]
    
    vector3 = [vector1[x]*vector2[x]  for x in xrange(len(vector1))]
    vector4 = [1 for num in vector3 if num > 0.]
    co_occur_num = sum(vector4)

    if abs(co_occur_num) <= 1e-12:
        return 0.
    
    denominator = math.log(float(len(word_list1))) + math.log(float(len(word_list2))) # 分母
    
    if abs(denominator) < 1e-12:
        return 0.
    
    return co_occur_num / denominator

4. networkx 是怎么實(shí)現(xiàn) PageRank的

不得不說(shuō)，寫 Python 的好處就是有各種第三方庫(kù)可以用。整個(gè)PageRank的計(jì)算過(guò)程，大佬都借助了 networkx 這個(gè)第三方庫(kù)。

networkx 中 PageRank 的路徑為 networkx/algorithms/link_analysis/pagerank_alg.py。我這邊就不貼出源碼了，共476行，把我驚出一身冷汗。定睛一看，原來(lái)注釋占了一半的行數(shù)。再仔細(xì)閱讀一遍，原來(lái)寫這個(gè)庫(kù)的大佬用3種不同的方法實(shí)現(xiàn)了3個(gè) PageRank 函數(shù)，請(qǐng)收下我的膝蓋。

Python 的變量類型不明確，比如代碼中 W 這個(gè)變量，我知道是一張圖，但我不知道是用鄰接矩陣還是鄰接表或者是自定義類來(lái)表示的，需要向上回溯幾層代碼才能知道。所以閱讀這種大工程的 Python 代碼是需要花一點(diǎn)時(shí)間的。

如果有耐心理解源碼的話，可以發(fā)現(xiàn)，networkx 中 PageRank 和論文中的數(shù)學(xué)公式還是有些不一樣的，主要的不一樣的點(diǎn)在于對(duì) dangling_nodes 的處理。

5. 總結(jié)

寫 Python 的好處就是有各種第三方庫(kù)可以用。

Python 的變量類型不明確，閱讀大工程的 Python 代碼是需要花一點(diǎn)時(shí)間的。

云服務(wù)器 GPU云服務(wù)器老版的云服務(wù)器失敗是怎么回事批處理版的SC c語(yǔ)言實(shí)現(xiàn)是數(shù)據(jù)結(jié)構(gòu) python語(yǔ)言是什么

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/45181.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

JerryC

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Java中的Optional類

閱讀 2350·2021-11-24 09:39
DesiVPS：印度VPS/荷蘭VPS/美國(guó)Linux VPS 3美元/月，Windows VPS

閱讀 3069·2021-10-15 09:39
騰訊云服務(wù)器限時(shí)秒殺,100%CPU性能,2核4G內(nèi)存6M,1735元/3年(8.16點(diǎn))

閱讀 3132·2021-07-26 23:38
移動(dòng)端禁止保存圖片

閱讀 2323·2019-08-30 11:14
css將兩個(gè)元素水平對(duì)齊，兼容IE8

閱讀 3440·2019-08-29 16:39
前端每日實(shí)戰(zhàn)：22# 視頻演示如何用純 CSS 創(chuàng)作出美麗的彩虹條紋文字

閱讀 1739·2019-08-29 15:23
H5活動(dòng)全屏滾動(dòng)頁(yè)面在安卓智能電視TV調(diào)試

閱讀 821·2019-08-29 13:01
移動(dòng)端兩端對(duì)齊 + 圖片寬度自適應(yīng)

閱讀 2694·2019-08-29 12:29

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【手撕 - 自然語(yǔ)言處理】手撕 TextRank（01）大佬是怎么實(shí)現(xiàn) Python 版的

相關(guān)文章

聊聊一行讀研時(shí)最成功的投資

CVTE2019春招前端二面涼經(jīng)

CVTE2019春招前端二面涼經(jīng)

2019春招前端實(shí)習(xí)面經(jīng)總結(jié)

手撕面試官系列（五）：Tomcat+Mysql+設(shè)計(jì)模式面試專題

發(fā)表評(píng)論

0條評(píng)論

JerryC

男|高級(jí)講師

TA的文章

Java中的Optional類

DesiVPS：印度VPS/荷蘭VPS/美國(guó)Linux VPS 3美元/月，Windows VPS

騰訊云服務(wù)器限時(shí)秒殺,100%CPU性能,2核4G內(nèi)存6M,1735元/3年(8.16點(diǎn))

移動(dòng)端禁止保存圖片

css將兩個(gè)元素水平對(duì)齊，兼容IE8

前端每日實(shí)戰(zhàn)：22# 視頻演示如何用純 CSS 創(chuàng)作出美麗的彩虹條紋文字

H5活動(dòng)全屏滾動(dòng)頁(yè)面在安卓智能電視TV調(diào)試

移動(dòng)端兩端對(duì)齊 + 圖片寬度自適應(yīng)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【手撕 - 自然語(yǔ)言處理】手撕 TextRank（01）大佬是怎么實(shí)現(xiàn) Python 版的

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！