一個簡單python爬蟲的實現(xiàn)——爬取電影信息

番茄西紅柿發(fā)布于2021-11-22 15:08 / 3254人閱讀

摘要：最近在學習網(wǎng)絡爬蟲，完成了一個比較簡單的網(wǎng)絡爬蟲。網(wǎng)絡爬蟲，可以理解為自動幫你在網(wǎng)絡上收集數(shù)據(jù)的機器人。網(wǎng)絡爬蟲簡單可以大致分三個步驟第一步要獲取數(shù)據(jù)，第二步對數(shù)據(jù)進行處理，第三步要儲存數(shù)據(jù)。

最近在學習網(wǎng)絡爬蟲，完成了一個比較簡單的python網(wǎng)絡爬蟲。首先為什么要用爬蟲爬取信息呢，當然是因為要比人去收集更高效。

網(wǎng)絡爬蟲，可以理解為自動幫你在網(wǎng)絡上收集數(shù)據(jù)的機器人。

　　網(wǎng)絡爬蟲簡單可以大致分三個步驟：

　　　　第一步要獲取數(shù)據(jù)，

　　　　第二步對數(shù)據(jù)進行處理，

　　　　第三步要儲存數(shù)據(jù)。

　　獲取數(shù)據(jù)的時候這里我用到了python的urllib標準庫，它是python中非常方便抓取網(wǎng)頁內(nèi)容的一個模塊。

　　具體為：

　　這里我要爬取的是電影天堂一個電影頁面的電影名稱，日期等數(shù)據(jù)。

1 from urllib import request
 2 def get_data ( ):
 3     url=/http://www.dytt8.net/html/gndy/dyzz/list_23_1.html/
 4     headers={/User-Agent/: / Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36/ }
 5     req=request.Request(url, headers=headers)
 6     response=request.urlopen(req)
 7     # print (type(response)) #響應對象的類型
 8     # print(response.getcode()) #響應狀態(tài)碼
 9     # print(response.info())
10     if response.getcode() == 200:
11         data=response.read()#讀取響應的結(jié)果
12         data =str(data,encoding=/gb2312/)
13         #print(data)
14         #將數(shù)據(jù)寫入文件中
15         with open (/index.html/,mode=/w/,encoding=/gb2312/) as  f:
16             f.write(data)

　　　　這里的headers是一個參數(shù)，就是你的瀏覽器在訪問服務器的時候，會讓服務器知道你的瀏覽器的一些信息，還有操作系統(tǒng)等信息。if 函數(shù)來判斷當網(wǎng)站成功響應的時候，會返回一個200.這時候讀取響應的數(shù)據(jù)結(jié)果，就是網(wǎng)頁的代碼。這里我做了一個字符串轉(zhuǎn)化處理，根據(jù)網(wǎng)頁代碼顯示編碼為gb2312，所以這時候只要將encoding設(shè)置為gb2312就可以了。

根據(jù)上面的網(wǎng)頁代碼，charset為gb2312判斷的?！　?/p>

　　　　當我們存取了網(wǎng)頁數(shù)據(jù)后，發(fā)現(xiàn)它還是html格式的，而且有很多html，css的代碼，但是我們只想要其中的文字信息，這時候怎么辦呢。

　　　　這時候就要用到一個強大的數(shù)據(jù)處理模塊，beautifusoup4，俗稱美味湯。安裝好這個模塊后。我們就可以對我們的html文件做進一步的處理，提取我們需要的信息。

1 from urllib import request
 2 from bs4 import BeautifulSoup
 3 def get_data ( ):
 4     url=/http://www.dytt8.net/html/gndy/dyzz/list_23_1.html/
 5     headers={/User-Agent/: / Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36/ }
 6     req=request.Request(url, headers=headers)
 7     response=request.urlopen(req)
 8     # print (type(response)) #響應對象的類型
 9     # print(response.getcode()) #響應狀態(tài)碼
10     # print(response.info())
11     if response.getcode() == 200:
12         data=response.read()#讀取響應的結(jié)果
13         data =str(data,encoding=/gb2312/)
14         #print(data)
15         #將數(shù)據(jù)寫入文件中
16         with open (/index.html/,mode=/w/,encoding=/gb2312/) as  f:
17             f.write(data)
18 def parse_data():
19     with open (/index.html/,mode=/r/,encoding=/gb2312/) as  f:
20         html = f.read()
21     bs = BeautifulSoup(html,/html.parser/)
22     metas = bs.select("[class~=ulink]")
23     date = bs.select("[color=#8F8C89]")
24     i=0
25     while i < 25:
26         print(metas[i].get_text())
27         print(date[i].get_text())
28         i=i+1
29 
30 
31 
32 
33 if __name__ == /__main__/:
34     #get_data()
35     parse_data()

　　這里我們用到了美味湯中的CSS選擇器功能，就是只把我們想要的信息選擇處來，根據(jù)網(wǎng)頁代碼，發(fā)現(xiàn)class等于ulink的時候后面跟著的信息是我們需要的。還有color=#8F8C89也是我們需要的。使用select方法，將選中的信息篩選出來。最終結(jié)果：

點擊0是因為網(wǎng)站顯示就是0，估計是網(wǎng)站的問題。這樣我們就得到了電影信息以及發(fā)布的時間信息。后面還有很多。根據(jù)這次簡單爬蟲的實現(xiàn)，我發(fā)現(xiàn)web爬蟲除了你要懂python的知識之外，對于html，CSS等前端知識你也要有一定了解。爬蟲是模擬人去收集網(wǎng)站數(shù)據(jù)的，有些網(wǎng)站以及建立了反爬蟲技術(shù)。所以爬蟲的技術(shù)也在不斷更新。

云服務器 GPU云服務器 python實現(xiàn)簡單爬蟲功能 python簡單的爬蟲簡單的python爬蟲 python3簡單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/124256.html

發(fā)表評論

登陸后可評論

0條評論

番茄西紅柿

男|高級講師

我要關(guān)注我要私信

TA的文章

tensor

閱讀 740·2023-04-25 19:43
Windows 下安裝 XGBoost

閱讀 3986·2021-11-30 14:52
Hadoop 2.6.0 啟動問題 lib/native/libhadoop.so which mi

閱讀 3816·2021-11-30 14:52
VmShell：黑五美國VPS,免費先開通測試,滿意后付款!支持tiktok美區(qū)

閱讀 3873·2021-11-29 11:00
百度智能云：云產(chǎn)品特惠福利,1核2G輕量應用服務器僅48元/年

閱讀 3809·2021-11-29 11:00
Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

閱讀 3907·2021-11-29 11:00
301重定向怎么做?301重定向設(shè)置方法有幾種

閱讀 3584·2021-11-29 11:00
wordpress網(wǎng)站重定向次數(shù)過多的解決方法

閱讀 6197·2021-11-29 11:00

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

一個簡單python爬蟲的實現(xiàn)——爬取電影信息

相關(guān)文章

爬蟲 - 收藏集 - 掘金

爬蟲入門

爬蟲入門

Python 從零開始爬蟲(三)——實戰(zhàn)：requests+BeautifulSoup實現(xiàn)靜態(tài)爬取

**談談對Python爬蟲的理解**

發(fā)表評論

0條評論

番茄西紅柿

男|高級講師

TA的文章

tensor

Windows 下安裝 XGBoost

Hadoop 2.6.0 啟動問題 lib/native/libhadoop.so which mi

VmShell：黑五美國VPS,免費先開通測試,滿意后付款!支持tiktok美區(qū)

百度智能云：云產(chǎn)品特惠福利,1核2G輕量應用服務器僅48元/年

Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

301重定向怎么做?301重定向設(shè)置方法有幾種

wordpress網(wǎng)站重定向次數(shù)過多的解決方法

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

一個簡單python爬蟲的實現(xiàn)——爬取電影信息

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！