摘要:何況不影響我們提取評論內(nèi)容,只需分類出來考慮就行黑體注意下面余弦相似度這個是我開始的時候想多了大部分情況就是日期評論用戶名,后來我沒有考慮余弦相似度分類,代碼少了,精度也沒有下降。
背景
參加泰迪杯數(shù)據(jù)挖掘競賽,這次真的學(xué)習(xí)到了不少東西,最后差不多可以完成要求的內(nèi)容,準確率也還行??偣驳拇a,算上中間的過程處理也不超過500行,代碼思想也還比較簡單,主要是根據(jù)論壇的短文本特性和樓層之間內(nèi)容的相似來完成的。(通俗點說就是去噪去噪去噪,然后只留下相對有規(guī)律的日期,內(nèi)容)
??PS:(本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評論數(shù)據(jù),并提供各種指定數(shù)據(jù)爬取服務(wù),Message to [email protected]。同時歡迎加入社交媒體數(shù)據(jù)交流群:99918768)
前期準備軟件和開發(fā)環(huán)境: Pycharm,Python2.7,Linux系統(tǒng)
用的主要Python包: jieba, requests, BeautifulSoup, goose, selenium, PhantomJS, pymongo等(部分軟件的安裝我前面的博客有介紹)
網(wǎng)頁預(yù)處理首先因為網(wǎng)站很多是動態(tài)的,直接用bs4是獲取不到有些信息的,所以我們使用selenium和phantomjs將文件保存在本地,然后再處理。
相關(guān)的代碼是
def save(baseUrl): driver = webdriver.PhantomJS() driver.get(baseUrl) # seconds try: element = WebDriverWait(driver, 10).until(isload(driver) is True) except Exception, e: print e finally: data = driver.page_source # 取到加載js后的頁面content driver.quit() return data
由于網(wǎng)頁中存在著大量的噪音(廣告,圖片等),首先我們需要將與我們所提取內(nèi)容不一致的所有噪聲盡可能去除。我們首先選擇將一些帶有典型噪聲意義的噪聲標簽去除,比如script等,方法我們選擇BeautifulSoup來完成。
代碼大概是這樣
for element in soup(text=lambda text: isinstance(text, Comment)): element.extract() [s.extract() for s in soup("script")] [s.extract() for s in soup("meta")] [s.extract() for s in soup("style")] [s.extract() for s in soup("link")] [s.extract() for s in soup("img")] [s.extract() for s in soup("input")] [s.extract() for s in soup("br")] [s.extract() for s in soup("li")] [s.extract() for s in soup("ul")] print (soup.prettify())
處理之后的網(wǎng)頁對比
可以看出網(wǎng)頁噪聲少了很多,但是還是不足以從這么多噪聲中提取出我們所要的內(nèi)容
由于我們不需要標簽只需要標簽里面的文字,所以我們可以利用BeautifulSoup提取出文字內(nèi)容再進行分析
for string in soup.stripped_strings: print(string) with open(os.path.join(os.getcwd())+"/data/3.txt", "a") as f: f.writelines(string.encode("utf-8")+" ")
可以看出來還是非常雜亂,但是又是十分有規(guī)律的。我們可以發(fā)現(xiàn)每個樓層中的文本內(nèi)容實質(zhì)上都差不多,可以說重復(fù)的很多,而且都是一些特定的詞,比如: 直達樓層, 板凳,沙發(fā),等這類的詞,所以我們需要將這些詞刪掉然后再進行分析
我所用的方法是利用jieba分詞來對獲取的網(wǎng)頁文本進行分詞,統(tǒng)計出出現(xiàn)詞頻最高的詞,同時也是容易出現(xiàn)在噪聲文章中的詞語,代碼如下
import jieba.analyse text = open(r"./data/get.txt", "r").read() dic = {} cut = jieba.cut_for_search(text) for fc in cut: if fc in dic: dic[fc] += 1 else: dic[fc] = 1 blog = jieba.analyse.extract_tags(text, topK=1000, withWeight=True) for word_weight in blog: # print (word_weight[0].encode("utf-8"), dic.get(word_weight[0], "not found")) with open("cut.txt", "a") as f: f.writelines(word_weight[0].encode("utf-8") + " " + str(dic.get(word_weight[0], "not found")) + " ")
統(tǒng)計出來然后經(jīng)過我們測試和篩選得出的停用詞有這些
回帖
積分
帖子
登錄
論壇
注冊
離線
時間
作者
簽到
主題
精華
客戶端
手機
下載
分享
目前統(tǒng)計的詞大約200左右。
然后還有去除重復(fù)文本的工作
# 去重函數(shù) def remove_dup(items): pattern1 = re.compile(r"發(fā)表于") pattern2 = re.compile("d{4}-d{1,2}-d{1,2} d{2}:d{2}:d{2}") pattern3 = re.compile("d{1,2}-d{1,2} d{2}:d{2}") pattern4 = re.compile("d{4}-d{1,2}-d{1,2} d{2}:d{2}") pattern5 = re.compile(r"[^0-9a-zA-Z]{7,}") # 用集合來作為容器,來做一部分的重復(fù)判斷依據(jù),另外的部分由匹配來做 # yield用于將合適的文本用生成器得到迭代器,這樣就進行了文本的刪除,在函數(shù)外面 # 可以用函數(shù)進行文本的迭代 seen = set() for item in items: match1 = pattern1.match(item) match2 = pattern2.match(item) match3 = pattern3.match(item) match4 = pattern4.match(item) match5 = pattern5.match(item) if item not in seen or match1 or match2 or match3 or match4 or match5: yield item seen.add(item) # 向集合中加入item,集合會自動化刪除掉重復(fù)的項目
在經(jīng)過觀察處理后的網(wǎng)頁文本,我們發(fā)現(xiàn)還有一項噪聲無法忽略,那就是純數(shù)字。因為網(wǎng)頁文本中有很多純數(shù)字但是又不重復(fù),比如點贊數(shù)等,所以我準備用正則匹配出純數(shù)字然后刪除。但是這樣就會出現(xiàn)問題...因為有些用戶名是純數(shù)字的,這樣我們會把用戶名刪掉的。為了解決這個問題我們使用保留字符數(shù)大于7的純數(shù)字,這樣既刪除了大部分的沒用信息又盡可能的保留了用戶名
相關(guān)的代碼如下
st = [] for stop_word in stop_words: st.append(stop_word.strip(" ")) t = tuple(st) # t,元組,和列表的區(qū)別是,不能修改使用(,,,,),與【,,,】列表不同 lines = [] # 刪除停用詞和短數(shù)字實現(xiàn) for j in after_string: # 如果一行的開頭不是以停用詞開頭,那么讀取這一行 if not j.startswith(t): # 如何一行不全是數(shù)字,或者這行的數(shù)字數(shù)大于7(區(qū)別無關(guān)數(shù)字和數(shù)字用戶名)讀取這一行 if not re.match("d+$", j) or len(j) > 7: lines.append(j.strip()) # 刪除所有空格并輸出 print (j.strip())
處理之后的文本如下,規(guī)律十分明顯了
接下來就是我們進行內(nèi)容提取的時候了
內(nèi)容提取內(nèi)容提取無非是找到評論塊,而評論塊在上面我們的圖中已經(jīng)十分清晰了,我們自然而然的想到根據(jù)日期來區(qū)分評論塊。經(jīng)過觀察,所有的論壇中日期的形式只有5種(目前只看到5種,當然后期可以加上)。我們可以用正則匹配出日期所在的行,根據(jù)兩個日期所在行數(shù)的中間所夾的就是評論內(nèi)容和用戶名來完成我們的評論內(nèi)容提取。
傳入我們處理后的文本然后就匹配出日期所在行數(shù)
# 匹配日期返回get_list def match_date(lines): pattern1 = re.compile(r"發(fā)表于") pattern2 = re.compile("d{4}-d{1,2}-d{1,2} d{2}:d{2}:d{2}") pattern3 = re.compile("d{1,2}-d{1,2} d{2}:d{2}") pattern4 = re.compile("d{4}-d{1,2}-d{1,2} d{2}:d{2}") pattern5 = re.compile(r"發(fā)表日期") pre_count = -1 get_list = [] # 匹配日期文本 for string in lines: match1 = pattern1.match(string) match2 = pattern2.match(string) match3 = pattern3.match(string) match4 = pattern4.match(string) match5 = pattern5.match(string) pre_count += 1 if match1 or match2 or match3 or match4 or match5: get_dic = {"count": pre_count, "date": string} get_list.append(get_dic) # 返回的是匹配日期后的信息 return get_list
因為有回帖和沒有回帖處理方式也不一樣所以我們需要分類進行討論。因為我們知道評論的內(nèi)容是在兩個匹配日期的中間,這樣就有一個問題就是最后一個評論的內(nèi)容區(qū)域不好分。但是考慮到大部分的最后一個回帖都是一行我們可以暫取值為3(sub==3,考慮一行評論和一行用戶名),后來想到一種更為科學(xué)的方法,比如判斷后面幾行的文本密度,如果很小說明只有一行評論的可能性更大。
下面的代碼是獲取日期所在行數(shù)和兩個日期之間的行數(shù)差
# 返回my_count def get_count(get_list): my_count = [] date = [] # 獲取時間所在行數(shù) for i in get_list: k, t = i.get("count"), i.get("date") my_count.append(k) date.append(t) if len(get_list) > 1: # 最后一行暫時取3 my_count.append(my_count[-1] + 3) return my_count else: return my_count # 獲取兩個時間所在的行數(shù)差 def get_sub(my_count): sub = [] for i in range(len(my_count) - 1): sub.append(my_count[i + 1] - my_count[i]) return sub
接下來就要分類討論了
如果只有樓主沒有評論(即my——count==1),這個時候我們可以使用開源的正文提取軟件goose來提取正文。
如果有評論我們就需要根據(jù)sub的值來進行分類如果sub==2占多數(shù)(或者說比sub==3)占的多,那么我們就認為可能是用戶名被刪掉,刪掉的原因有很多,比如去重的時候有人在樓中樓回復(fù)了導(dǎo)致用戶名重復(fù)被刪除,有可能該網(wǎng)站的標簽比較特殊用戶名在去標簽的時候刪除等,情況比較復(fù)雜且出現(xiàn)的頻率不太高,暫未考慮。何況不影響我們提取評論內(nèi)容,只需分類出來考慮就行
注意:下面余弦相似度這個是我開始的時候想多了!大部分情況就是:日期-評論-用戶名,后來我沒有考慮余弦相似度分類,代碼少了,精度也沒有下降。這里不刪是想留下一個思考的過程。代碼看看就好,最后有修改后的源碼。
還有就是最常見的內(nèi)容,就是sub==3占多數(shù)的情況。因為大部分的評論都是一行文本,所以我們需要考慮的的是sub==3的時候獲取的評論文本在哪一行。通俗來說就是這三行的內(nèi)容是日期-評論-用戶名,還是日期-用戶名-評論呢?雖然大部分是第一種情況,但是第二種情況我們也不能忽略。怎么判斷這兩種情況呢?這確實讓我思考了很長一段時間,后來想到可以用余弦相似度來解決這個問題.科普余弦相似度可以看這里。簡單來說就是用戶名的長度都是相似的,但是評論的內(nèi)容長度差異就非常大了。比如用戶名長度都是7個字符左右,但是評論的長度可以數(shù)百,也可以只有一個。所以我們可以兩兩比較余弦相似度,然后取平均,相似度大的就是用戶名了。這樣我們就可以區(qū)分出評論內(nèi)容進行提取了!這就是主要的思想。剩下的就是代碼的實現(xiàn)了。
簡單貼一下相關(guān)的代碼
# 利用goose獲取正文內(nèi)容 def goose_content(my_count, lines, my_url): g = Goose({"stopwords_class": StopWordsChinese}) content_1 = g.extract(url=my_url) host = {} my_list = [] host["content"] = content_1.cleaned_text host["date"] = lines[my_count[0]] host["title"] = get_title(my_url) result = {"post": host, "replys": my_list} SpiderBBS_info.insert(result) # 計算余弦相似度函數(shù) def cos_dist(a, b): if len(a) != len(b): return None part_up = 0.0 a_sq = 0.0 b_sq = 0.0 for a1, b1 in zip(a, b): part_up += a1 * b1 a_sq += a1 ** 2 b_sq += b1 ** 2 part_down = math.sqrt(a_sq * b_sq) if part_down == 0.0: return None else: return part_up / part_down # 判斷評論內(nèi)容在哪一行(可能在3行評論塊的中間,可能在三行評論塊的最后) def get_3_comment(my_count, lines): get_pd_1 = [] get_pd_2 = [] # 如果間隔為3取出所在行的文本長度 test_sat_1 = [] test_sat_2 = [] for num in range(len(my_count)-1): if my_count[num+1] - 3 == my_count[num]: pd_1 = (len(lines[my_count[num]]), len(lines[my_count[num]+2])) get_pd_1.append(pd_1) pd_2 = (len(lines[my_count[num]]), len(lines[my_count[num]+1])) get_pd_2.append(pd_2) for i_cos in range(len(get_pd_1)-1): for j_cos in range(i_cos+1, len(get_pd_1)): # 計算文本余弦相似度 test_sat_1.append(cos_dist(get_pd_1[j_cos], get_pd_1[i_cos])) test_sat_2.append(cos_dist(get_pd_2[j_cos], get_pd_2[i_cos])) # 計算余弦相似度的平均值 get_mean_1 = numpy.array(test_sat_1) print (get_mean_1.mean()) get_mean_2 = numpy.array(test_sat_2) print (get_mean_2.mean()) # 比較大小返回是否應(yīng)該按 if get_mean_1.mean() >= get_mean_2.mean(): return 1 elif get_mean_1.mean() < get_mean_2.mean(): return 2 # 獲取評論內(nèi)容 def solve__3(num, my_count, sub, lines, my_url): # 如果get_3_comment()返回的值是1,那么說明最后一行是用戶名的可能性更大,否則第一行是用戶名的可能性更大 if num == 1: host = {} my_list = [] host["content"] = "".join(lines[my_count[0]+1: my_count[1]+sub[0]-1]) host["date"] = lines[my_count[0]] host["title"] = get_title(my_url) for use in range(1, len(my_count)-1): pl = {"content": "".join(lines[my_count[use] + 1:my_count[use + 1] - 1]), "date": lines[my_count[use]], "title": get_title(my_url)} my_list.append(pl) result = {"post": host, "replys": my_list} SpiderBBS_info.insert(result) if num == 2: host = {} my_list = [] host["content"] = "".join(lines[my_count[0]+2: my_count[1]+sub[0]]) host["date"] = lines[my_count[0]] host["title"] = get_title(my_url) for use in range(1, len(my_count) - 1): pl = {"content": "".join(lines[my_count[use] + 2:my_count[use + 1]]), "date": lines[my_count[use]], "title": get_title(my_url)} my_list.append(pl) result = {"post": host, "replys": my_list} SpiderBBS_info.insert(result)展望
提取的準確率應(yīng)該要分析更多的bbs網(wǎng)站,優(yōu)化刪除重復(fù)詞(太粗暴),優(yōu)化停用詞,針對短文本沒回復(fù)情況的優(yōu)化,準確提取樓主的用戶名等,無奈時間太緊無法進一步優(yōu)化。才疏學(xué)淺,剛學(xué)了幾個月python,代碼難免有不合理的地方,望各位提出寶貴意見。
撒一波廣告本人長期出售抓取超大量微博數(shù)據(jù)的代碼,并提供微博數(shù)據(jù)打包出售,Message to [email protected]
個人博客8aoy1.cn
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41111.html
摘要:何況不影響我們提取評論內(nèi)容,只需分類出來考慮就行黑體注意下面余弦相似度這個是我開始的時候想多了大部分情況就是日期評論用戶名,后來我沒有考慮余弦相似度分類,代碼少了,精度也沒有下降。 背景 參加泰迪杯數(shù)據(jù)挖掘競賽,這次真的學(xué)習(xí)到了不少東西,最后差不多可以完成要求的內(nèi)容,準確率也還行??偣驳拇a,算上中間的過程處理也不超過500行,代碼思想也還比較簡單,主要是根據(jù)論壇的短文本特性和樓層之間...
摘要:何況不影響我們提取評論內(nèi)容,只需分類出來考慮就行黑體注意下面余弦相似度這個是我開始的時候想多了大部分情況就是日期評論用戶名,后來我沒有考慮余弦相似度分類,代碼少了,精度也沒有下降。 背景 參加泰迪杯數(shù)據(jù)挖掘競賽,這次真的學(xué)習(xí)到了不少東西,最后差不多可以完成要求的內(nèi)容,準確率也還行??偣驳拇a,算上中間的過程處理也不超過500行,代碼思想也還比較簡單,主要是根據(jù)論壇的短文本特性和樓層之間...
摘要:,引言在即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義一文我們定義了一個通用的網(wǎng)絡(luò)爬蟲類,期望通過這個項目節(jié)省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇,是一個用做的論壇。 showImg(https://segmentfault.com/img/bVxTdG); 1,引言 在《Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義》一文我們定義了一個通用的pyt...
摘要:,源代碼爬取京東商品列表,以手機商品列表為例示例網(wǎng)址版本京東手機列表源代碼下載位置請看文章末尾的源。,抓取結(jié)果運行上面的代碼,就會爬取京東手機品類頁面的所有手機型號價格等信息,并保存到本地文件京東手機列表中。 showImg(https://segmentfault.com/img/bVxXHW); 1,引言 在上一篇《python爬蟲實戰(zhàn):爬取Drupal論壇帖子列表》,爬取了一個用...
閱讀 3051·2021-09-22 15:52
閱讀 2918·2019-08-30 15:55
閱讀 2713·2019-08-30 15:53
閱讀 2464·2019-08-30 13:21
閱讀 1634·2019-08-30 13:10
閱讀 2492·2019-08-26 12:09
閱讀 2579·2019-08-26 10:33
閱讀 1811·2019-08-23 18:06