這一個節(jié)點以內(nèi),再繼續(xù)往下挖掘:
content =each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()")
這樣一步步得到想要的內(nèi)容
3.JSON格式
網(wǎng)頁中很多內(nèi)容使用JSON來傳輸,我們要把內(nèi)容還原出來需要使用json模塊
import json reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))
4.Python中的多線程
多線程可以很大幅度提高軟件的處理速度,可以充分利用計算機性能,不同的核處理不同的任務(wù),并行執(zhí)行,提高處理速度,使用方法如下:
from multiprocessing.dummy import Pool as ThreadPool pool = ThreadPool(8) results = pool.map(spider,page) pool.close() pool.join()
map 這一小巧精致的函數(shù)是簡捷實現(xiàn) Python 程序并行化的關(guān)鍵。map 源于 Lisp 這類函數(shù)式編程語言。它可以通過一個序列實現(xiàn)兩個函數(shù)之間的映射。上面的這兩行代碼將 page這一序列中的每個元素作為參數(shù)傳遞到 spyder 方法中,并將所有結(jié)果保存到 results 這一列表中。其結(jié)果大致相當于:
results = [] for page in pages: results.append(spyder(page))
上述代碼中調(diào)用join之前,先調(diào)用close函數(shù),否則會出錯。執(zhí)行完close后不會有新的進程加入到pool,join函數(shù)等待所有子進程結(jié)束。
全部代碼:
#-*-coding:utf8-*- from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import json import re import sys """重新運行之前請刪除content.txt,因為文件操作使用追加方式,會導(dǎo)致內(nèi)容太多。""" def towrite(contentdict): #f=open("content.txt","wb") f.writelines(u"回帖時間:" + str(contentdict["topic_reply_time"]) + " ") f.writelines(u"回帖內(nèi)容:" + str(contentdict["topic_reply_content"]) + " ") f.writelines(u"回帖人:" + contentdict["user_name"] + " ") #f.close() def spider(url): html = requests.get(url) #print(html.text) html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text) selector = etree.HTML(html) # print(selector) #content_field = selector.xpath("http://div[starts-with(@class,"l_post l_post_bright")]")p_content p_content_nameplate #content_field = selector.xpath("http://*[@id="j_p_postlist"]") content_field = selector.xpath("http://div[@class="l_post j_l_post l_post_bright "]") item = {} for each in content_field: reply_info = json.loads(each.xpath("@data-field")[0].replace(""","")) author = reply_info["author"]["user_name"] # content1 = each.xpath("http://div[@class="d_post_content_main"]") content = each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()") reply_time = reply_info["content"]["date"] print("content:{0}".format(content)) print("Reply_time:{0}".format(reply_time)) print("Author:{0}".format(author)) item["user_name"] = author item["topic_reply_content"] = content item["topic_reply_time"] = reply_time towrite(item) if __name__ == "__main__": pool = ThreadPool(8) f = open("content.txt","a",encoding="UTF-8") # f = open("content.txt","a") page = [] for i in range(1,21): newpage = "http://tieba.baidu.com/p/3522395718?pn=" + str(i) page.append(newpage) results = pool.map(spider,page) pool.close() pool.join() f.close()
結(jié)果如下:
回帖時間:2015-01-11 16:52 回帖內(nèi)容:[" 6和plus糾結(jié)買哪款。還有 買完新機可以讓他上色嗎"] 回帖人:斗已轉(zhuǎn)0 回帖時間:2015-01-11 16:53 回帖內(nèi)容:[" 我現(xiàn)在是以貼吧高級會員的身份幫你頂貼,請注意你的態(tài)度"] 回帖人:暑假干啥 回帖時間:2015-01-11 16:57 回帖內(nèi)容:[" 我去"] 回帖人:qw518287200 回帖時間:2015-01-11 16:57 回帖內(nèi)容:[" 能教我怎么看序列號或imei號麼,大神uf618"] 回帖人:花顏誘朕醉
需要注意的是,極客學(xué)院附帶資料的源代碼是無法使用的,以上說到的幾點就是我在調(diào)試過程中淌過的坑,要注意使用Chrome對要抓取的網(wǎng)頁進行細心分析,修改xpath參數(shù)并不斷試驗。
+++++++明日計劃++++++++++++++++
加入計時功能,測試單線程與多線程的性能差別
嘗試抓取網(wǎng)頁中的圖片并保存