成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

用 Python 提取《釜山行》人物關(guān)系

hoohack / 669人閱讀

摘要:項目代碼下載地址基于共現(xiàn)提取釜山行人物關(guān)系更多經(jīng)典項目全部項目

項目簡介:本項目將帶大家使用 Python 提取《釜山行》人物關(guān)系,對于給定的劇本文本,通過分析文本中人物的共現(xiàn)關(guān)系,提取整個文本表示的人物關(guān)系,并將人物關(guān)系可視化表示。本項目教程由Forec發(fā)布在實驗樓。

一、項目介紹 1. 內(nèi)容簡介

《釜山行》是一部喪尸災難片,其人物少、關(guān)系簡單,非常適合我們學習文本處理。這個項目將介紹共現(xiàn)在關(guān)系中的提取,使用python編寫代碼實現(xiàn)對《釜山行》文本的人物關(guān)系提取,最終利用Gephi軟件對提取的人物關(guān)系繪制人物關(guān)系圖。

2. 知識點

本項目完成過程中將學習:

共現(xiàn)網(wǎng)絡的基本原理

Python代碼對《釜山行》中人物關(guān)系提取的具體實現(xiàn)

jieba庫的基本使用

Gephi軟件的基本使用

二、項目原理及效果圖

實驗基于簡單共現(xiàn)關(guān)系,編寫 Python 代碼從純文本中提取出人物關(guān)系網(wǎng)絡,并用Gephi 將生成的網(wǎng)絡可視化。下面介紹共現(xiàn)網(wǎng)絡的基本原理。(共現(xiàn)網(wǎng)絡英文介紹)

實體間的共現(xiàn)是一種基于統(tǒng)計的信息提取。關(guān)系緊密的人物往往會在文本中多段內(nèi)同時出現(xiàn),可以通過識別文本中已確定的實體(人名),計算不同實體共同出現(xiàn)的次數(shù)和比率。當比率大于某一閾值,我們認為兩個實體間存在某種聯(lián)系。這種聯(lián)系可以具體細化,但提取過程也更加復雜。因此在此課程只介紹最基礎(chǔ)的共現(xiàn)網(wǎng)絡。

項目通過Python提取《釜山行》人物關(guān)系網(wǎng)絡,通過gephi這個軟件做可視化處理后,最終效果如下圖所示:

三、實驗過程

本項目的完整代碼、詳細步驟及demo,可以在實驗樓查看并在線完成:Python基于共現(xiàn)提取《釜山行》人物關(guān)系

開發(fā)準備:

打開Xfce終端,進入 Code 目錄,創(chuàng)建 work 文件夾, 將其作為課程的工作目錄。下載并安裝 gephi 。

$ mkdir work && cd work
$ mkdir gephi && cd gephi
$ wget http://labfile.oss.aliyuncs.com/courses/677/gephi-0.9.1-linux.tar.gz                         #下載
$ tar -zxvf gephi-0.9.1-linux.tar.gz     #解壓 

下載《釜山行》的中文劇本。

$ wget http://labfile.oss.aliyuncs.com/courses/677/busan.txt

安裝jieba中文分詞。

$ sudo pip2 install jieba
實驗步驟: 1.觀察文本結(jié)構(gòu)、準備詞典

可以通過各類百科獲取《釜山行》的主要人物,你可以在百度百科中找到他們的介紹,并將人名寫入一個字典中。

2.確定需要的變量 3.文本中實體識別

在實驗樓中的顯示結(jié)果如下圖:

4.根據(jù)識別結(jié)果構(gòu)建網(wǎng)絡 5.過濾冗余邊并輸出結(jié)果 6.可視化網(wǎng)絡

對《釜山行》劇本中的人物關(guān)系數(shù)據(jù)進行處理后,可以使用gephi這個軟件來將人物關(guān)系可視化,以便展示的更直觀。(Gephi是一款開源免費跨平臺基于JVM的復雜網(wǎng)絡分析軟件, 其主要用于各種網(wǎng)絡和復雜系統(tǒng),動態(tài)和分層圖的交互可視化與探測開源工具。)

使用 gephi 導入生成的網(wǎng)絡,并生成簡單的可視化布局??梢栽谧钌戏降臄?shù)據(jù)資料選項卡中查看圖中所有的邊和節(jié)點,對于分詞不準確導致的噪音,可以手動刪除。

通過對節(jié)點染色、放大,調(diào)整成合適布局后如下圖所示。節(jié)點染色根據(jù)模塊化計算結(jié)果不定,但染色效果大致相同。

預覽后右側(cè)顯示最終的人物關(guān)系圖。

項目代碼下載地址:Python基于共現(xiàn)提取《釜山行》人物關(guān)系

更多Python經(jīng)典項目:Python全部項目

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38213.html

相關(guān)文章

  • python大佬養(yǎng)成計劃----Django圖書人物適配系統(tǒng)(后臺)

    摘要:是重量級選手中最有代表性的一位。是一個開放源代碼的應用框架,由寫成。使用用戶登陸后臺管理時,將只有增加組的選項。人物屬性姓名,性別,簡介,所屬書籍。 Django Python下有許多款不同的 Web 框架。Django是重量級選手中最有代表性的一位。許多成功的網(wǎng)站和APP都基于Django。 Django是一個開放源代碼的Web應用框架,由Python寫成。 Django基礎(chǔ) 版本:...

    lufficc 評論0 收藏0
  • ICCV 2021 口罩人物身份鑒別全球挑戰(zhàn)賽冠軍方案分享

    摘要:損失函數(shù)此次競賽我們采用的基線損失函數(shù)為,該損失函數(shù)在訓練過程中模擬課程學習的思想,按照樣本從易到難的順序進行訓練。 1. 引言10月11-17日,萬眾期待的國際計算機視覺大會 ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全...

    nidaye 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<