成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

學(xué)習極客學(xué)院多線程爬蟲課程的收獲

saucxs / 3281人閱讀

摘要:明日計劃加入計時功能,測試單線程與多線程的性能差別嘗試抓取網(wǎng)頁中的圖片并保存

昨天開始了極客學(xué)院《XPath與多線程爬蟲》課程的學(xué)習,主要涉及到XPath和requests的使用,在測試過程中出現(xiàn)了很多問題,經(jīng)過不斷摸索以及前輩們的幫助,現(xiàn)將經(jīng)驗總結(jié)如下:
1. Python3下面文本編碼問題
雖然Python3相對于2已經(jīng)集成了很多編碼方式,使我們不需要過多去關(guān)心和指定編碼,但有時候在文本讀取,寫入的時候還是需要多小心,在測試過程中多次出現(xiàn)在寫入文件時報告錯誤“UnicodeEncodeError: "ascii" codec can"t encode character "u56de" in position 0: ordinal not in range(128)”,這是由于我們在抓取網(wǎng)頁的時候采用的是UTF-8編碼,而存儲時沒有指定編碼,在存儲到文件的過程中就會報錯。
解決辦法為:
在讀取文件時加入指定UTF-8編碼的選項

f = open("content.txt","a",encoding="UTF-8")

另外需要注意的是使用requests獲取到網(wǎng)頁之后同樣要指定編碼

html = requests.get(url)
html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)
    

2. XPath的用法
XPath可以很方便的解析XML文件的節(jié)點和屬性,使用也很簡單,相比于正則表達式來說,XPath的查詢方式更加高效準確,它來自于lxml包內(nèi)的etree,在使用之前應(yīng)該聲明

from lxml import etree

在使用XPath應(yīng)該遵循“先抓大,再抓小”的原則,現(xiàn)定位到大的節(jié)點,獲取到所有字節(jié)點再一層一層往下尋找,直到獲取所需要的信息
例如,我們想要抓取百度貼吧的網(wǎng)頁每一個樓層的信息(包括作者,回帖時間,回帖內(nèi)容等等),通過Chrome-Inspect element可以審查代碼,得到某一個樓層的代碼樓層最外層都有聲明:

使用XPath先獲取整個樓層的所有節(jié)點(Node)

content_field = selector.xpath("http://div[@class="l_post j_l_post l_post_bright  "]")

再往下尋找,發(fā)現(xiàn)我們要提取的內(nèi)容位于

這一個節(jié)點以內(nèi),再繼續(xù)往下挖掘:

content =each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()")

這樣一步步得到想要的內(nèi)容

3.JSON格式
網(wǎng)頁中很多內(nèi)容使用JSON來傳輸,我們要把內(nèi)容還原出來需要使用json模塊

import json
reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))

4.Python中的多線程
多線程可以很大幅度提高軟件的處理速度,可以充分利用計算機性能,不同的核處理不同的任務(wù),并行執(zhí)行,提高處理速度,使用方法如下:

from multiprocessing.dummy import Pool as ThreadPool
pool = ThreadPool(8)
results = pool.map(spider,page)
pool.close()
pool.join()

map 這一小巧精致的函數(shù)是簡捷實現(xiàn) Python 程序并行化的關(guān)鍵。map 源于 Lisp 這類函數(shù)式編程語言。它可以通過一個序列實現(xiàn)兩個函數(shù)之間的映射。上面的這兩行代碼將 page這一序列中的每個元素作為參數(shù)傳遞到 spyder 方法中,并將所有結(jié)果保存到 results 這一列表中。其結(jié)果大致相當于:

results = []
for page in pages: 
    results.append(spyder(page))

上述代碼中調(diào)用join之前,先調(diào)用close函數(shù),否則會出錯。執(zhí)行完close后不會有新的進程加入到pool,join函數(shù)等待所有子進程結(jié)束。

全部代碼:

#-*-coding:utf8-*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import json
import re
import sys

"""重新運行之前請刪除content.txt,因為文件操作使用追加方式,會導(dǎo)致內(nèi)容太多。"""

def towrite(contentdict):
    #f=open("content.txt","wb")
    f.writelines(u"回帖時間:" + str(contentdict["topic_reply_time"]) + "
")
    f.writelines(u"回帖內(nèi)容:" + str(contentdict["topic_reply_content"]) + "
")
    f.writelines(u"回帖人:" + contentdict["user_name"] + "

")
    #f.close()

def spider(url):
    html = requests.get(url)
    #print(html.text)
    html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)
    selector = etree.HTML(html)
    # print(selector)
    #content_field = selector.xpath("http://div[starts-with(@class,"l_post l_post_bright")]")p_content p_content_nameplate
    #content_field = selector.xpath("http://*[@id="j_p_postlist"]")
    content_field = selector.xpath("http://div[@class="l_post j_l_post l_post_bright  "]")
    item = {}
    for each in content_field:
        reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))
        author = reply_info["author"]["user_name"]
        # content1 = each.xpath("http://div[@class="d_post_content_main"]")
        content = each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()")
        reply_time = reply_info["content"]["date"]
        print("content:{0}".format(content))
        print("Reply_time:{0}".format(reply_time))
        print("Author:{0}".format(author))
        item["user_name"] = author
        item["topic_reply_content"] = content
        item["topic_reply_time"] = reply_time
        towrite(item)

if __name__ == "__main__":
    pool = ThreadPool(8)
    f = open("content.txt","a",encoding="UTF-8")
    # f = open("content.txt","a")
    page = []
    for i in range(1,21):
        newpage = "http://tieba.baidu.com/p/3522395718?pn=" + str(i)
        page.append(newpage)

    results = pool.map(spider,page)
    pool.close()
    pool.join()
    f.close()

結(jié)果如下:

回帖時間:2015-01-11 16:52
回帖內(nèi)容:["            6和plus糾結(jié)買哪款。還有 買完新機可以讓他上色嗎"]
回帖人:斗已轉(zhuǎn)0

回帖時間:2015-01-11 16:53
回帖內(nèi)容:["            我現(xiàn)在是以貼吧高級會員的身份幫你頂貼,請注意你的態(tài)度"]
回帖人:暑假干啥

回帖時間:2015-01-11 16:57
回帖內(nèi)容:["            我去"]
回帖人:qw518287200

回帖時間:2015-01-11 16:57
回帖內(nèi)容:["            能教我怎么看序列號或imei號麼,大神uf618"]
回帖人:花顏誘朕醉

需要注意的是,極客學(xué)院附帶資料的源代碼是無法使用的,以上說到的幾點就是我在調(diào)試過程中淌過的坑,要注意使用Chrome對要抓取的網(wǎng)頁進行細心分析,修改xpath參數(shù)并不斷試驗。

+++++++明日計劃++++++++++++++++
加入計時功能,測試單線程與多線程的性能差別
嘗試抓取網(wǎng)頁中的圖片并保存

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45408.html

相關(guān)文章

  • python爬蟲網(wǎng)頁提取器——xpath

    xpath簡單來說就是根據(jù)網(wǎng)頁的源碼路徑去找你想要的的信息。例子: html= 測試-常規(guī)用法 這是第一條信息 這是第二條信息 這是第三條信息 不需要的信息1 不需要的信息2 不需要的信息3 極客學(xué)院 ...

    andycall 評論0 收藏0
  • 前端學(xué)習之路

    摘要:前言之所以會寫這篇文章是因為在一年的前端學(xué)習過程,我走了很多彎路,也思考了很多,最近又正好拿到了某廠的,希望以我之拙見能給初學(xué)者一些幫助。不過前端的方向,主要還是自學(xué)。 前言 之所以會寫這篇文章是因為在一年的前端學(xué)習過程,我走了很多彎路,也思考了很多,最近又正好拿到了某廠的offer,希望以我之拙見能給初學(xué)者一些幫助。 我的學(xué)習之路 我是一個計算機相關(guān)專業(yè)的大三學(xué)生,不過實際上我的專業(yè)...

    mj 評論0 收藏0
  • 前端學(xué)習之路

    摘要:前言之所以會寫這篇文章是因為在一年的前端學(xué)習過程,我走了很多彎路,也思考了很多,最近又正好拿到了某廠的,希望以我之拙見能給初學(xué)者一些幫助。不過前端的方向,主要還是自學(xué)。 前言 之所以會寫這篇文章是因為在一年的前端學(xué)習過程,我走了很多彎路,也思考了很多,最近又正好拿到了某廠的offer,希望以我之拙見能給初學(xué)者一些幫助。 我的學(xué)習之路 我是一個計算機相關(guān)專業(yè)的大三學(xué)生,不過實際上我的專業(yè)...

    tulayang 評論0 收藏0
  • 前端學(xué)習之路

    摘要:前言之所以會寫這篇文章是因為在一年的前端學(xué)習過程,我走了很多彎路,也思考了很多,最近又正好拿到了某廠的,希望以我之拙見能給初學(xué)者一些幫助。不過前端的方向,主要還是自學(xué)。 前言 之所以會寫這篇文章是因為在一年的前端學(xué)習過程,我走了很多彎路,也思考了很多,最近又正好拿到了某廠的offer,希望以我之拙見能給初學(xué)者一些幫助。 我的學(xué)習之路 我是一個計算機相關(guān)專業(yè)的大三學(xué)生,不過實際上我的專業(yè)...

    caozhijian 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<