摘要:從剛開始接觸到使用進(jìn)行爬蟲,經(jīng)歷了許多,不懂的各種百度,硬是從不會進(jìn)步成入門了,抱怨的話不多說,進(jìn)入正題。
從剛開始接觸Python2.7到使用Scrapy1.3進(jìn)行爬蟲,經(jīng)歷了許多,不懂的各種百度,硬是從不會進(jìn)步成入門了,抱怨的話不多說,進(jìn)入正題。
寫這篇文章的目的在于總結(jié)這段時(shí)間學(xué)習(xí)Scrapy的到的一些經(jīng)驗(yàn)
環(huán)境搭建1、如果在代碼中運(yùn)行命令scrapy crawl sina2出錯(cuò)(如上圖) subprocess.CalledProcessError: Command "scrapy crawl sina2" returned non-zero exit status 1 有可能是: 1、先將scrapy crawl sina2命令在cmd窗口中測試,如果報(bào)錯(cuò): Fatal error in launcher: Unable to create process using """ 請參考下方第二點(diǎn) 2、scrapy沒有裝好
2、如果命令行出錯(cuò) Fatal error in launcher: Unable to create process using """ 有可能是: 1、python沒有安裝在c盤的原因,經(jīng)測試我將python27放到除c盤以外都不行 2、安裝路徑不要有 空格中文之類的字符
3、pip被墻,修改國內(nèi)源方法,可以增加速度(好久沒去測試,不懂還可以用不) 1、linux或者是Mac的 pip源: 1、找到vi ~/.pip/pip.conf 2、修改 [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple 2、window的 pip源: 1、找到C:UsersAdministrator 2、新建pip文件夾,新建pip.ini文件 填寫以下內(nèi)容 [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple
4、安裝Scrapy過程中出錯(cuò): ERROR: ‘xslt-config’ 不是內(nèi)部或外部命令,也不是可運(yùn)行的程序 或批處理文件。 1、在http://pypi.python.org/simple/lxml/下載win10 x64(看系統(tǒng)情況) 的lxml-2.2.8.win-amd64-py2.7.exe 2、然后重新打開cmd去pip install Scrapy 解決了此xml的問題了
5、運(yùn)行代碼報(bào)錯(cuò): ImportError: No module named win32api 解決: 1、pip install pypiwin32從一臺電腦快速復(fù)制環(huán)境到另以臺電腦(window)
當(dāng)你在一臺電腦上配置相當(dāng)完全的python開發(fā)環(huán)境之后,想要換一臺同類型的電腦繼續(xù)工作,一想到要從新安裝各類的三方庫,是不是很累,我這里有幾點(diǎn)小建議
1、首先明確需要的安裝的基本東西: 1、jdk(python需要) 2、PythonChram(開發(fā)工具) 3、Python27(python基礎(chǔ))
2、jdk: 1、到已安裝電腦的安裝目錄復(fù)制jdk文件夾 2、拷貝到新電腦你想要存放的目錄(注意目錄不要有中文、特殊字符等) 3、配置jdk環(huán)境變量,路徑指向你存放的目錄(自行百度) 說明:jdk安裝完的文件夾,可以直接拷貝應(yīng)用,無需從網(wǎng)絡(luò)上下載然后安裝,比較方便
3、PythonChram: 1、到已安裝電腦的安裝目錄復(fù)制PythonChram文件夾 2、拷貝到新電腦你想要存放的目錄(注意目錄不要有中文、特殊字符等) 3、同時(shí):也可以打開軟件,將設(shè)置項(xiàng)導(dǎo)出,拷貝到新電腦的軟件上使用,可以省去設(shè)置軟件 外觀的麻煩事,但是可能有些基礎(chǔ)的配置項(xiàng)就需要重新配置如: 1、python解釋器的位置 2、git的路徑
4、Python27: 1、到已安裝電腦的安裝目錄復(fù)制Python27文件夾 2、拷貝到新電腦的C盤根目錄(特別注意:放到除C盤之外的目錄可能會出現(xiàn)問題,請自測) 3、配置環(huán)境變量(指向存放的c盤目錄) 說明:Python27安裝完的文件夾,可以直接拷貝應(yīng)用,無需從網(wǎng)絡(luò)上下載然后安裝,比較 方便,而且里面已經(jīng)包含了需要的三方庫,可以省掉用pip安裝的麻煩事情
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/40701.html
摘要:一基礎(chǔ)環(huán)境由于不是職業(yè)的開發(fā)者,因此環(huán)境是基于的。二安裝打開命令行工具創(chuàng)建虛擬環(huán)境,默認(rèn)情況下會創(chuàng)建目錄,所有的虛擬環(huán)境都會產(chǎn)生一個(gè)子目錄保存在此,里面包含基本程序文件以及庫文件。 目錄 基于 Python 的 Scrapy 爬蟲入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲入門:頁面提取 基于 Python 的 Scrapy 爬蟲入門:圖片處理 作為一個(gè)全棧工程師(...
摘要:快速入門接上篇學(xué)習(xí)一安裝,安裝后,我們利用一個(gè)簡單的例子來熟悉如何使用創(chuàng)建一個(gè)爬蟲項(xiàng)目。創(chuàng)建一個(gè)項(xiàng)目在已配置好的環(huán)境下輸入系統(tǒng)將在當(dāng)前目錄生成一個(gè)的項(xiàng)目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見入門項(xiàng)目 快速入門 接上篇Scrapy學(xué)習(xí)(一) 安裝,安裝后,我們利用一個(gè)簡單的例子來熟悉如何使用Scrapy創(chuàng)建一個(gè)爬蟲項(xiàng)目。 創(chuàng)建一個(gè)Scrapy項(xiàng)目 在已配置好的環(huán)境...
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲。所以我一個(gè)python小白就被拉去做了爬蟲?;藘芍軙r(shí)間,拼拼湊湊總算趕出來了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...
摘要:本文內(nèi)容爬取豆瓣電影頁面內(nèi)容,字段包含排名,片名,導(dǎo)演,一句話描述有的為空,評分,評價(jià)人數(shù),上映時(shí)間,上映國家,類別抓取數(shù)據(jù)存儲介紹爬蟲框架教程一入門創(chuàng)建項(xiàng)目創(chuàng)建爬蟲注意,爬蟲名不能和項(xiàng)目名一樣應(yīng)對反爬策略的配置打開文件,將修改為。 本文內(nèi)容 爬取豆瓣電影Top250頁面內(nèi)容,字段包含:排名,片名,導(dǎo)演,一句話描述 有的為空,評分,評價(jià)人數(shù),上映時(shí)間,上映國家,類別 抓取數(shù)據(jù)存儲 ...
目錄 基于 Python 的 Scrapy 爬蟲入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲入門:頁面提取 基于 Python 的 Scrapy 爬蟲入門:圖片處理 上篇文章中講解了如何從網(wǎng)站頁面抓取所需要的數(shù)據(jù),很幸運(yùn)范例中所需的數(shù)據(jù)是通過 Ajax 請求返回的 JSON 結(jié)構(gòu)化數(shù)據(jù),處理起來很簡單,圖片內(nèi)容也只取了一個(gè)鏈接,對于我最初的目標(biāo)把這些圖集添加到自己的博客站點(diǎn)中這...
閱讀 733·2021-11-24 10:30
閱讀 1269·2021-09-24 09:48
閱讀 3085·2021-09-24 09:47
閱讀 3604·2019-08-29 17:11
閱讀 2886·2019-08-29 15:38
閱讀 2282·2019-08-29 11:03
閱讀 3610·2019-08-26 12:15
閱讀 1023·2019-08-26 10:45