摘要:下一篇文章網(wǎng)絡爬蟲實戰(zhàn)請求庫安裝爬蟲可以簡單分為幾步抓取頁面分析頁面存儲數(shù)據(jù)。相關鏈接官方網(wǎng)站官方文檔中文文檔安裝驗證安裝進入命令行交互模式,導入一下包,如果沒有報錯,則證明安裝成功。
下一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---2、請求庫安裝:GeckoDriver、PhantomJS、Aiohttp
爬蟲可以簡單分為幾步:抓取頁面、分析頁面、存儲數(shù)據(jù)。
在第一步抓取頁面的過程中,我們就需要模擬瀏覽器向服務器發(fā)出請求,所以需要用到一些 Python 庫來實現(xiàn) HTTP 請求操作,在本書中我們用到的第三方庫有 Requests、Selenium、Aiotttp 等。
在本節(jié)我們介紹一下這些請求庫的安裝方法。
1.1.1 Requests的安裝由于 Requests 屬于第三方庫,也就是 Python 默認不會自帶這個庫,需要我們手動去安裝,下面我們首先看一下它的安裝過程。
1. 相關鏈接GitHub:https://github.com/requests/r...
PyPy:https://pypi.python.org/pypi/...
官方文檔:http://www.python-requests.org
中文文檔:http://docs.python-requests.o...
2. 安裝pip3 install requests3. 驗證安裝
為了驗證庫是否已經(jīng)安裝成功,可以在命令行下測試一下:
$ python3 >>> import requests
在命令行首先輸入 python3,進入命令行模式,然后輸入如上內(nèi)容,如果什么錯誤提示也沒有,那么就證明我們已經(jīng)成功安裝了 Requests。
1.1.2 Selenium的安裝Selenium 是一個自動化測試工具,利用它我們可以驅動瀏覽器執(zhí)行特定的動作,如點擊、下拉等等操作,對于一些 JavaScript 渲染的頁面來說,此種抓取方式非常有效,下面我們來看下 Selenium 的安裝過程。
1. 相關鏈接官方網(wǎng)站:http://www.seleniumhq.org
GitHub:https://github.com/SeleniumHQ...
PyPi:https://pypi.python.org/pypi/...
官方文檔:http://selenium-python.readth...
中文文檔:http://selenium-python-zh.rea...
2. 安裝pip3 install selenium3. 驗證安裝
進入 Python 命令行交互模式,導入一下 Selenium 包,如果沒有報錯,則證明安裝成功。
$ python3 >>> import selenium
但這樣還不夠,我們還需要瀏覽器如 Chrome、Firefox 等瀏覽器來配合 Selenium 工作。
下面我們會介紹 Chrome、Firefox、PhantomJS 三種瀏覽器的配置方式,有了瀏覽器我們才可以配合 Selenium 進行頁面的抓取。
1.1.3 ChromeDriver的安裝在上節(jié)我們成功安裝好了 Selenium 庫,但是它是一個自動化測試工具,需要瀏覽器來配合它使用,那么本節(jié)我們就介紹一下 Chrome 瀏覽器及 ChromeDriver 驅動的配置。
首先需要下載一個 Chrome 瀏覽器,方法多樣,在此不再贅述。
隨后我們需要安裝一個 ChromeDriver 才能驅動 Chrome 瀏覽器完成相應的操作,下面我們來介紹下怎樣安裝 ChromeDriver。
官方網(wǎng)站:https://sites.google.com/a/ch...
下載地址:https://chromedriver.storage....
2. MAC安裝brew install chromedriver
如果安裝失敗,使用下面方法
brew cask install chromedriver3. 驗證安裝
配置完成之后,就可以在命令行下直接執(zhí)行 chromedriver 命令了。
命令行下輸入:
chromedriver
輸入控制臺有類似輸出,如圖 1-17 所示:
圖 1-17 控制臺輸出
如果有類似輸出則證明 ChromeDriver 的環(huán)境變量配置好了。
隨后再在程序中測試,執(zhí)行如下 Python 代碼:
from selenium import webdriver browser = webdriver.Chrome()
運行之后會彈出一個空白的 Chrome 瀏覽器,證明所有的配置都沒有問題,如果沒有彈出,請檢查之前的每一步的配置。
如果彈出之后閃退,則可能是 ChromeDriver 版本和 Chrome 版本不簡容,請更換 ChromeDriver 版本。
如果沒有問題,接下來我們就可以利用 Chrome 來做網(wǎng)頁抓取了。
既然 Chrome 可以通過 Selenium 驅動,F(xiàn)irefox 也可以,如果想要實現(xiàn) Selenium 驅動 Firefox 瀏覽器可以參考下面的 GeckoDriver 的安裝。
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/44022.html
摘要:上一篇文章網(wǎng)絡爬蟲實戰(zhàn)請求庫安裝下一篇文章網(wǎng)絡爬蟲實戰(zhàn)解析庫的安裝的安裝在上一節(jié)我們了解了的配置方法,配置完成之后我們便可以用來驅動瀏覽器來做相應網(wǎng)頁的抓取。上一篇文章網(wǎng)絡爬蟲實戰(zhàn)請求庫安裝下一篇文章網(wǎng)絡爬蟲實戰(zhàn)解析庫的安裝 上一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---1、請求庫安裝:Requests、Selenium、ChromeDriver下一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)--...
摘要:上一篇文章網(wǎng)絡爬蟲實戰(zhàn)數(shù)據(jù)爬取下一篇文章網(wǎng)絡爬蟲實戰(zhàn)動態(tài)渲染頁面抓取本節(jié)我們以今日頭條為例來嘗試通過分析請求來抓取網(wǎng)頁數(shù)據(jù)的方法,我們這次要抓取的目標是今日頭條的街拍美圖,抓取完成之后將每組圖片分文件夾下載到本地保存下來。 上一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---35、 Ajax數(shù)據(jù)爬取下一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---37、動態(tài)渲染頁面抓取:Selenium 本節(jié)我們...
摘要:且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現(xiàn)過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數(shù)的爬蟲實際問題。 前言: 一個月前,博主在學過python(一年前)、會一點網(wǎng)絡(能按F12)的情況下,憑著熱血和興趣,開始了pyth...
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:在前面我們講到了和的概念,我們向網(wǎng)站的服務器發(fā)送一個,返回的的便是網(wǎng)頁源代碼。渲染頁面有時候我們在用或抓取網(wǎng)頁時,得到的源代碼實際和瀏覽器中看到的是不一樣的。所以使用基本請求庫得到的結果源代碼可能跟瀏覽器中的頁面源代碼不太一樣。 上一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---16、Web網(wǎng)頁基礎下一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---18、Session和Cookies 爬蟲,即網(wǎng)...
閱讀 550·2023-04-26 00:33
閱讀 3569·2021-11-24 09:39
閱讀 3067·2021-09-22 15:34
閱讀 2364·2019-08-23 18:07
閱讀 2941·2019-08-23 18:04
閱讀 3747·2019-08-23 16:06
閱讀 2921·2019-08-23 15:27
閱讀 1638·2019-08-23 14:32