基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建

Gu_Yan 發(fā)布于2019-07-31 11:00 / 592人閱讀

摘要：一基礎(chǔ)環(huán)境由于不是職業(yè)的開發(fā)者，因此環(huán)境是基于的。二安裝打開命令行工具創(chuàng)建虛擬環(huán)境，默認情況下會創(chuàng)建目錄，所有的虛擬環(huán)境都會產(chǎn)生一個子目錄保存在此，里面包含基本程序文件以及庫文件。

基于 Python 的 Scrapy 爬蟲入門：頁面提取

基于 Python 的 Scrapy 爬蟲入門：圖片處理

作為一個全棧工程師（:-) HoHo），前端后臺都懂點是必須的，但是Python 很菜，Scrapy 更菜，沒錯，這就是 Full Stack Developer 的特點，什么都懂點，什么都不精，我們的特點就是上手快，忘得也很快，不過配合強大的搜索引擎，寫些小東西出來是不成問題的！

言歸正傳，最近想用爬蟲抓取一些內(nèi)容來充實自己的博客，以前用過 phpspider，基本能滿足要求，但是不夠強大，所以選用 Scrapy，順便回憶一下快忘光的 Python，誰讓它這么火呢。

一、基礎(chǔ)環(huán)境

由于不是職業(yè)的Web開發(fā)者，因此環(huán)境是基于Windows的。

1. Python 安裝

到 python.org 下載最新版 Python 安裝包，我使用的是3.6.3 32位版本，注意如果安裝了64位版本，以后所使用的包也都需要64位(很大一部分包無32/64位區(qū)分，可以通用)。安裝程序默認安裝pip包管理工具，并設(shè)置了相關(guān)環(huán)境變量：添加 %Python% 及 %Python%Scripts 到 PATH 中（%Python%是你的安裝目錄），你運行的 Python 程序或腳本都在 Scripts 中，包都安裝在 Libsite-packages 中。

2. 配置 pip 國內(nèi)鏡像源

Python之所以強大正是因為各種功能齊全的開發(fā)包，由于眾所周知的原因 pip下載模塊速度很慢，因此為了保證pip下載順利，建議替換成國內(nèi)的安裝源鏡像：

創(chuàng)建文件 %HOMEPATH%pippip.ini，內(nèi)容如下：

[global]
trusted-host=mirrors.aliyun.com
index-url=http://mirrors.aliyun.com/pypi/simple/

上面這個是清華大學(xué)的鏡像，另外附上其他幾個好用的，據(jù)說每30分鐘同步官網(wǎng)

阿里云：http://mirrors.aliyun.com/pypi/simple/
豆瓣網(wǎng)：http://pypi.doubanio.com/simple/
科技大學(xué)：http://mirrors.ustc.edu.cn/pypi/web/simple/
清華大學(xué)：https://pypi.tuna.tsinghua.edu.cn/simple/

如果不嫌麻煩的話也可以每次安裝時指定：

pip -i http://pypi.douban.com/simple install Flask

3. 換一個趁手的命令行

由于Python中經(jīng)常要用到命令行工具，但Windows自帶的cmd或PowerShell逼格太低，換個字體還得折騰大半天，因此有必要換一個好用的，推薦cmder mini版：https://github.com/cmderdev/c...，Python輸出的調(diào)試信息可以根據(jù)顏色區(qū)分，不用像cmd那樣找半天了。

4. 安裝基礎(chǔ)包

virtualenv

基本上Python每個項目都會用到大量的模塊，比如本文中的Scrapy爬蟲，pip install scrapy后除了Scrapy本身外，還會下載數(shù)十個依賴包，如果經(jīng)常用Python做各種開發(fā)，site-packages會越來越龐大，可能有些包只在一個項目中用到，或者刪除包后依賴包并沒有被刪除，總之不太好管理，作為強迫癥患者是決不能忍受的。

好在有一個工具 virtualenv 可以方便管理 Python 的環(huán)境，它可以創(chuàng)建一個隔離的Python虛擬開發(fā)環(huán)境，使用它你可以同時安裝多個Python版本，方便同時多個項目的開發(fā)，每個項目之間的包安裝與使用都是獨立的，互不干擾，通過命令可以隨時切換各個虛擬環(huán)境，如果不再使用，把整個虛擬環(huán)境刪除即可同時刪除其中所有的模塊包，保持全局環(huán)境的干凈。

為了便于使用，我選擇安裝virtualenvwrapper-win模塊，它依賴于virtualenv，包含Windows下面易于使用的批處理腳本，其實只是調(diào)用了 virtualenv 功能而已：

pip install virtualenvwrapper-win

virtualenvwrapper 常用命令：

workon: 列出虛擬環(huán)境列表

lsvirtualenv: 同上

mkvirtualenv: 新建虛擬環(huán)境

workon [虛擬環(huán)境名稱]: 切換虛擬環(huán)境

rmvirtualenv: 刪除虛擬環(huán)境

deactivate: 離開虛擬環(huán)境

wheel

wheel 是python中的解包和打包工具，因此有必要安裝到全局環(huán)境中，有些模塊使用pip安裝總是失敗，可以嘗試先下載whl文件，再使用wheel本地安裝的方式安裝。

pip install wheel

pypiwin32

既然在Windows下開發(fā)，win32api也是必不可少的包，因此也裝到全局環(huán)境中，下次新建虛擬項目環(huán)境用到時就不必每次再下載一次了。

當(dāng)然，以上2，3，4其實都不是必須的，但是建好基本環(huán)境有利于以后的開發(fā)少兜圈子。

二、Scrapy 安裝

打開cmder命令行工具

創(chuàng)建Scrapy虛擬環(huán)境： mkvirtualenv Scrapy，默認情況下會創(chuàng)建%HOMEPATH%Envs目錄，所有的虛擬環(huán)境都會產(chǎn)生一個子目錄保存在此，里面包含Python基本程序文件以及pip,wheel,setuptools庫文件。如果想修改Envs默認路徑，在Windows中可添加一個 %WORKON_HOME% 環(huán)境變量指定新的目錄。

切換到Scrapy環(huán)境：workon scrapy ，執(zhí)行后在命令行提示符前面會多出 (Scrapy) 字符，表示當(dāng)前處于Scrapy虛擬環(huán)境中，同時添加了當(dāng)前環(huán)境中的相關(guān)路徑在系統(tǒng) %PATH% 搜索路徑中。

安裝Scrapy包：pip install scrapy，自己好幾次都遇到Twisted模塊安裝失敗的問題，貌似是編譯失敗，缺少Microsoft Visual C++ 14.0導(dǎo)致：

我沒有按要求安裝Microsoft Visual C++ 14.0編譯工具進行編譯安裝，而是下載已打包的whl文件進行本地安裝，此時wheel便派上了用場，到 https://www.lfd.uci.edu/~gohl... 下載twisted的whl文件（注意對應(yīng)Python版本）

再使用 pip install Twisted?17.9.0?cp36?cp36m?win32.whl 來進行安裝，本地安裝twisted成功，由于之前被錯誤中斷，建議再執(zhí)行一次 pip install scrapy 防止有依賴包沒有安裝到。

注意：Windows平臺需要額外安裝 pypiwin32 模塊，否則在Scrapy執(zhí)行爬蟲時會報錯：
ModuleNotFoundError: No module named "win32api"

至此 Scrapy 環(huán)境搭建完成，所有的模塊存放在 %HOMEPATH%EnvsScrapy 中，如果不再使用，只需要命令行執(zhí)行 rmvirtualenv scrapy，整個目錄都會被刪除，所有依賴模塊都會被清理干凈。

GPU云服務(wù)器云服務(wù)器 scrapy爬蟲入門 python爬蟲搭建環(huán)境 python爬蟲環(huán)境搭建 python爬蟲scrapy

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44465.html

發(fā)表評論

登陸后可評論

0條評論

Gu_Yan

男|高級講師

我要關(guān)注我要私信

TA的文章

ESP32+串口屏組成的疫情監(jiān)控平臺

閱讀 2169·2021-11-23 09:51
#雙十一#LOCVPS：全場新購七折優(yōu)惠，香港高防/荷蘭/日本東京等KVM VPS套餐5折優(yōu)惠，充值

閱讀 3730·2021-10-20 13:49
阿里云服務(wù)器全新優(yōu)惠：爆品秒殺，2核4G云服務(wù)器低至500元

閱讀 1735·2021-09-06 15:13
程序人生 - 祝賀登榜《大數(shù)據(jù)領(lǐng)域內(nèi)容榜》NO.20

閱讀 1855·2021-09-06 15:02
使用Python，OpenCV進行基本的圖像處理——提取紅色圓圈輪廓并繪制

閱讀 3249·2021-09-02 15:11
前端實用資源整理

閱讀 918·2019-08-29 15:37
【推薦】jquery開發(fā)的大型web應(yīng)用—H5編輯器工具

閱讀 1769·2019-08-29 13:24
繞了一大圈，只是因為auto是相對父元素的 —— 中欄流動布局中的一個小問題

閱讀 2302·2019-08-29 11:28

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建

virtualenv

wheel

pypiwin32

相關(guān)文章

**基于 Python 的 Scrapy 爬蟲入門：頁面提取**

**基于 Python 的 Scrapy 爬蟲入門：圖片處理**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Scrapy入門的點點滴滴（一）

發(fā)表評論

0條評論

Gu_Yan

男|高級講師

TA的文章

ESP32+串口屏組成的疫情監(jiān)控平臺

#雙十一#LOCVPS：全場新購七折優(yōu)惠，香港高防/荷蘭/日本東京等KVM VPS套餐5折優(yōu)惠，充值

阿里云服務(wù)器全新優(yōu)惠：爆品秒殺，2核4G云服務(wù)器低至500元

程序人生 - 祝賀登榜《大數(shù)據(jù)領(lǐng)域內(nèi)容榜》NO.20

使用Python，OpenCV進行基本的圖像處理——提取紅色圓圈輪廓并繪制

前端實用資源整理

【推薦】jquery開發(fā)的大型web應(yīng)用—H5編輯器工具

繞了一大圈，只是因為auto是相對父元素的 —— 中欄流動布局中的一個小問題

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建

virtualenv

wheel

pypiwin32

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！