摘要:項目代碼下載地址基于共現(xiàn)提取釜山行人物關(guān)系更多經(jīng)典項目全部項目
項目簡介:本項目將帶大家使用 Python 提取《釜山行》人物關(guān)系,對于給定的劇本文本,通過分析文本中人物的共現(xiàn)關(guān)系,提取整個文本表示的人物關(guān)系,并將人物關(guān)系可視化表示。本項目教程由Forec發(fā)布在實驗樓。
一、項目介紹 1. 內(nèi)容簡介《釜山行》是一部喪尸災難片,其人物少、關(guān)系簡單,非常適合我們學習文本處理。這個項目將介紹共現(xiàn)在關(guān)系中的提取,使用python編寫代碼實現(xiàn)對《釜山行》文本的人物關(guān)系提取,最終利用Gephi軟件對提取的人物關(guān)系繪制人物關(guān)系圖。
2. 知識點本項目完成過程中將學習:
共現(xiàn)網(wǎng)絡的基本原理
Python代碼對《釜山行》中人物關(guān)系提取的具體實現(xiàn)
jieba庫的基本使用
Gephi軟件的基本使用
二、項目原理及效果圖實驗基于簡單共現(xiàn)關(guān)系,編寫 Python 代碼從純文本中提取出人物關(guān)系網(wǎng)絡,并用Gephi 將生成的網(wǎng)絡可視化。下面介紹共現(xiàn)網(wǎng)絡的基本原理。(共現(xiàn)網(wǎng)絡英文介紹)
實體間的共現(xiàn)是一種基于統(tǒng)計的信息提取。關(guān)系緊密的人物往往會在文本中多段內(nèi)同時出現(xiàn),可以通過識別文本中已確定的實體(人名),計算不同實體共同出現(xiàn)的次數(shù)和比率。當比率大于某一閾值,我們認為兩個實體間存在某種聯(lián)系。這種聯(lián)系可以具體細化,但提取過程也更加復雜。因此在此課程只介紹最基礎(chǔ)的共現(xiàn)網(wǎng)絡。
項目通過Python提取《釜山行》人物關(guān)系網(wǎng)絡,通過gephi這個軟件做可視化處理后,最終效果如下圖所示:
三、實驗過程本項目的完整代碼、詳細步驟及demo,可以在實驗樓查看并在線完成:Python基于共現(xiàn)提取《釜山行》人物關(guān)系
開發(fā)準備:打開Xfce終端,進入 Code 目錄,創(chuàng)建 work 文件夾, 將其作為課程的工作目錄。下載并安裝 gephi 。
$ mkdir work && cd work $ mkdir gephi && cd gephi $ wget http://labfile.oss.aliyuncs.com/courses/677/gephi-0.9.1-linux.tar.gz #下載 $ tar -zxvf gephi-0.9.1-linux.tar.gz #解壓
下載《釜山行》的中文劇本。
$ wget http://labfile.oss.aliyuncs.com/courses/677/busan.txt
安裝jieba中文分詞。
$ sudo pip2 install jieba實驗步驟: 1.觀察文本結(jié)構(gòu)、準備詞典
可以通過各類百科獲取《釜山行》的主要人物,你可以在百度百科中找到他們的介紹,并將人名寫入一個字典中。
2.確定需要的變量 3.文本中實體識別在實驗樓中的顯示結(jié)果如下圖:
4.根據(jù)識別結(jié)果構(gòu)建網(wǎng)絡 5.過濾冗余邊并輸出結(jié)果 6.可視化網(wǎng)絡對《釜山行》劇本中的人物關(guān)系數(shù)據(jù)進行處理后,可以使用gephi這個軟件來將人物關(guān)系可視化,以便展示的更直觀。(Gephi是一款開源免費跨平臺基于JVM的復雜網(wǎng)絡分析軟件, 其主要用于各種網(wǎng)絡和復雜系統(tǒng),動態(tài)和分層圖的交互可視化與探測開源工具。)
使用 gephi 導入生成的網(wǎng)絡,并生成簡單的可視化布局??梢栽谧钌戏降臄?shù)據(jù)資料選項卡中查看圖中所有的邊和節(jié)點,對于分詞不準確導致的噪音,可以手動刪除。
通過對節(jié)點染色、放大,調(diào)整成合適布局后如下圖所示。節(jié)點染色根據(jù)模塊化計算結(jié)果不定,但染色效果大致相同。
預覽后右側(cè)顯示最終的人物關(guān)系圖。
項目代碼下載地址:Python基于共現(xiàn)提取《釜山行》人物關(guān)系
更多Python經(jīng)典項目:Python全部項目
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38213.html
摘要:是重量級選手中最有代表性的一位。是一個開放源代碼的應用框架,由寫成。使用用戶登陸后臺管理時,將只有增加組的選項。人物屬性姓名,性別,簡介,所屬書籍。 Django Python下有許多款不同的 Web 框架。Django是重量級選手中最有代表性的一位。許多成功的網(wǎng)站和APP都基于Django。 Django是一個開放源代碼的Web應用框架,由Python寫成。 Django基礎(chǔ) 版本:...
摘要:損失函數(shù)此次競賽我們采用的基線損失函數(shù)為,該損失函數(shù)在訓練過程中模擬課程學習的思想,按照樣本從易到難的順序進行訓練。 1. 引言10月11-17日,萬眾期待的國際計算機視覺大會 ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全...
閱讀 2396·2021-11-24 10:26
閱讀 2586·2021-11-16 11:44
閱讀 1704·2021-09-22 15:26
閱讀 3584·2021-09-10 11:11
閱讀 3191·2021-09-07 10:25
閱讀 3631·2021-09-01 10:41
閱讀 1015·2021-08-27 13:11
閱讀 3513·2021-08-16 11:02