摘要:爬取豆瓣閱讀提供方代碼中會(huì)有詳細(xì)的注釋關(guān)于也是在看教程和書以及視頻學(xué)習(xí),純種小白哈士奇的那種用到的庫爬蟲庫正則模塊寫模塊時(shí)間模塊庫偽裝瀏覽器的固定寫法也可以再加加個(gè)代理,也可以不加直接使用自己的地址代理西刺代理通過正則獲取內(nèi)容菜鳥
爬取豆瓣閱讀提供方 代碼中會(huì)有詳細(xì)的注釋
關(guān)于python也是在看教程和書以及視頻學(xué)習(xí),純種小白(哈士奇的那種)
用到的庫urllib ????-> ?? 爬蟲庫
re ????-> ?? 正則模塊
xlwt ????-> ?? excel寫模塊
time ????-> ?? 時(shí)間模塊
urllib庫偽裝瀏覽器的固定寫法(也可以再加)加個(gè)代理ip,也可以不加直接使用自己的ip地址
代理ip ????-> ?? "123.116.129.176"
西刺代理
通過正則獲取內(nèi)容菜鳥教程的re模塊
更加詳細(xì)的用法百度可以找到很多,我就不一一的列出來了寫入excel的操作
這里有個(gè)坑,第一個(gè)匹配出來的url地址不對(duì),原因是網(wǎng)頁中有個(gè)非列表標(biāo)簽內(nèi)的居然和正則開始的匹配(列表標(biāo)簽)是一致的
部分代碼
# 創(chuàng)建workbook和sheet對(duì)象 workbook = xlwt.Workbook() # excel 底部 sheet1 # 覆蓋單元格 sheet1 = workbook.add_sheet("統(tǒng)計(jì)", cell_overwrite_ok=True) ... for i in content: # 在第 row + 1 行第 1 列寫入序號(hào) sheet1.write(row + 1, 0, row + 1, style) # 在第 row + 1 行第 2 列寫入出版社_url sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style) # 在第 row + 1 行第 3 列寫入LOGO_url sheet1.write(row + 1, 2, i[1], style) # 在第 row + 1 行第 4 列寫入出版社名稱 sheet1.write(row + 1, 3, i[2], style) # 在第 row + 1 行第 5 列寫入在售數(shù)量 sheet1.write(row + 1, 4, int(i[3]), style) # 對(duì)在售數(shù)量求和 sum += int(i[3]) row += 1
時(shí)間模塊的用法將對(duì)一列數(shù)據(jù)(在售數(shù)量)求和以及數(shù)據(jù)保存
獲取當(dāng)前時(shí)間并格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
需要注意,這里寫個(gè)判斷語句要等到基礎(chǔ)數(shù)據(jù)都寫入完畢之后在進(jìn)行求和運(yùn)算并寫入
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41244.html
摘要:今天為大家整理了個(gè)爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過多賬號(hào)登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測(cè)形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡(jiǎn)稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡(jiǎn)明扼要地說明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個(gè)提問: pyth...
摘要:前言新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡(jiǎn)單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡(jiǎn)單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...
摘要:對(duì)之前我的那個(gè)豆瓣的短評(píng)的爬蟲,進(jìn)行了一下架構(gòu)性的改動(dòng)。同時(shí)也添加了多線程的實(shí)現(xiàn)。我的代碼中多線程的核心代碼不多,見下。注意使用多線程時(shí),期間的延時(shí)時(shí)間應(yīng)該設(shè)置的大些,不然會(huì)被網(wǎng)站拒絕訪問,這時(shí)你還得去豆瓣認(rèn)證下我真的不是機(jī)器人尷尬。 對(duì)之前我的那個(gè)豆瓣的短評(píng)的爬蟲,進(jìn)行了一下架構(gòu)性的改動(dòng)。盡可能實(shí)現(xiàn)了模塊的分離。但是總是感覺不完美。暫時(shí)也沒心情折騰了。 同時(shí)也添加了多線程的實(shí)現(xiàn)。具體...
閱讀 2040·2021-09-30 09:47
閱讀 714·2021-09-22 15:43
閱讀 1996·2019-08-30 15:52
閱讀 2445·2019-08-30 15:52
閱讀 2556·2019-08-30 15:44
閱讀 919·2019-08-30 11:10
閱讀 3380·2019-08-29 16:21
閱讀 3305·2019-08-29 12:19