摘要:爬取的數(shù)據(jù)存入表格分析要爬取的內(nèi)容的網(wǎng)頁(yè)結(jié)構(gòu)是庫(kù)寫(xiě)入表所用讀取表所用通過(guò)解析文檔為用戶提供需要抓取的數(shù)據(jù)改變標(biāo)準(zhǔn)輸出的默認(rèn)編碼我們開(kāi)始利用來(lái)獲取網(wǎng)頁(yè)并利用解析網(wǎng)頁(yè)返回的是狀態(tài)碼,加上以字節(jié)形式二進(jìn)制返回?cái)?shù)據(jù)。
爬取的數(shù)據(jù)存入Excel表格
分析要爬取的內(nèi)容的網(wǎng)頁(yè)結(jié)構(gòu):
demo.py: import requests #requests是HTTP庫(kù) import re from openpyxl import workbook # 寫(xiě)入Excel表所用 from openpyxl import load_workbook # 讀取Excel表所用 from bs4 import BeautifulSoup as bs #bs:通過(guò)解析文檔為用戶提供需要抓取的數(shù)據(jù) import os import io import sys sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding="utf8") #改變標(biāo)準(zhǔn)輸出的默認(rèn)編碼 #我們開(kāi)始利用requests.get()來(lái)獲取網(wǎng)頁(yè)并利用bs4解析網(wǎng)頁(yè): def getData(src): html = requests.get(src).content # requests.get(src)返回的是狀態(tài)碼,加上.content以字節(jié)形式(二進(jìn)制返回?cái)?shù)據(jù)。 和前端一樣,分為get post等 http://www.cnblogs.com/ranxf/p/7808537.html soup = bs(html,"lxml") # lxml解析器解析字節(jié)形式的數(shù)據(jù),得到完整的類似頁(yè)面的html代碼結(jié)構(gòu)的數(shù)據(jù) print(soup) global ws Name = [] Introductions = [] introductions = soup.find_all("a",class_="book-item-name") nameList = soup.find_all("a",class_="author") print (nameList) for name in nameList: print (name.text) Name.append(name.text) for introduction in introductions: Introductions.append(introduction.text) for i in range(len(Name)): ws.append([Name[i],Introductions[i]]) if __name__ == "__main__": # 讀取存在的Excel表測(cè)試 # wb = load_workbook("t est.xlsx") #加載存在的Excel表 # a_sheet = wb.get_sheet_by_name("Sheet1") #根據(jù)表名獲取表對(duì)象 # for row in a_sheet.rows: #遍歷輸出行數(shù)據(jù) # for cell in row: #每行的 每一個(gè)單元格 # print cell.value, # 創(chuàng)建Excel表并寫(xiě)入數(shù)據(jù) wb = workbook.Workbook() # 創(chuàng)建Excel對(duì)象 ws = wb.active # 獲取當(dāng)前正在操作的表對(duì)象 # 往表中寫(xiě)入標(biāo)題行,以列表形式寫(xiě)入! ws.append(["角色名字", "票數(shù)"]) src = "http://www.lrts.me/book/category/3058" getData(src) wb.save("qinshi.xlsx") # 存入所有信息后,保存為filename.xlsx
執(zhí)行:python demo.py
效果 生成一個(gè)qinshi.xlsx文件
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43809.html
摘要:目錄安裝,并下載依賴搭建服務(wù)請(qǐng)求我們要爬取的頁(yè)面,返回安裝我們開(kāi)始安裝,可以去官網(wǎng)下載下載地址,下載完成后運(yùn)行使用,安裝成功后會(huì)出現(xiàn)你所安裝的版本號(hào)。 前言 周末自己在家閑著沒(méi)事,刷著微信,玩著手機(jī),發(fā)現(xiàn)自己的微信頭像該換了,就去網(wǎng)上找了一下頭像,看著圖片,自己就想著作為一個(gè)碼農(nóng),可以把這些圖片都爬取下來(lái)做成一個(gè)微信小程序,說(shuō)干就干,了解一下基本都知道怎么做了,整理分享一波給大家。 目...
摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測(cè)形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡(jiǎn)稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡(jiǎn)明扼要地說(shuō)明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開(kāi)始之前,我們先來(lái)看這樣一個(gè)提問(wèn): pyth...
摘要:阻塞,非阻塞首先,阻塞這個(gè)詞來(lái)自操作系統(tǒng)的線程進(jìn)程的狀態(tài)模型網(wǎng)絡(luò)爬蟲(chóng)基本原理一后端掘金網(wǎng)絡(luò)爬蟲(chóng)是捜索引擎抓取系統(tǒng)的重要組成部分。每門(mén)主要編程語(yǔ)言現(xiàn)未來(lái)已到后端掘金使用和在相同環(huán)境各加載多張小圖片,性能相差一倍。 2016 年度小結(jié)(服務(wù)器端方向)| 掘金技術(shù)征文 - 后端 - 掘金今年年初我花了三個(gè)月的業(yè)余時(shí)間用 Laravel 開(kāi)發(fā)了一個(gè)項(xiàng)目,在此之前,除了去年換工作準(zhǔn)備面試時(shí),我并...
摘要:阻塞,非阻塞首先,阻塞這個(gè)詞來(lái)自操作系統(tǒng)的線程進(jìn)程的狀態(tài)模型網(wǎng)絡(luò)爬蟲(chóng)基本原理一后端掘金網(wǎng)絡(luò)爬蟲(chóng)是捜索引擎抓取系統(tǒng)的重要組成部分。每門(mén)主要編程語(yǔ)言現(xiàn)未來(lái)已到后端掘金使用和在相同環(huán)境各加載多張小圖片,性能相差一倍。 2016 年度小結(jié)(服務(wù)器端方向)| 掘金技術(shù)征文 - 后端 - 掘金今年年初我花了三個(gè)月的業(yè)余時(shí)間用 Laravel 開(kāi)發(fā)了一個(gè)項(xiàng)目,在此之前,除了去年換工作準(zhǔn)備面試時(shí),我并...
閱讀 2452·2019-08-30 15:52
閱讀 2249·2019-08-30 12:51
閱讀 2844·2019-08-29 18:41
閱讀 2827·2019-08-29 17:04
閱讀 823·2019-08-29 15:11
閱讀 1739·2019-08-28 18:02
閱讀 3612·2019-08-26 10:22
閱讀 2518·2019-08-26 10:12