摘要:安裝這個就不用我說了吧,網(wǎng)上教程一大堆安裝包創(chuàng)建項目進入項目目錄下,創(chuàng)建爬蟲文件進入項目目錄,執(zhí)行命令編寫文件編寫文件職位名稱詳情連接職位類別執(zhí)行輸出到文件執(zhí)行成功會顯示如下內容版本說明源碼地址參考關注微信公眾號,
安裝 python
這個就不用我說了吧,網(wǎng)上教程一大堆
安裝 scrapy 包
pip install scrapy
創(chuàng)建 scrapy 項目
scrapy startproject aliSpider
進入項目目錄下,創(chuàng)建爬蟲文件
cmd 進入項目目錄,執(zhí)行命令:
scrapy genspider -t crawl alispi job.alibaba.com
編寫 items.py 文件
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html import scrapy class AlispiderItem(scrapy.Item): # define the fields for your item here like: detail = scrapy.Field() workPosition = scrapy.Field() jobclass = scrapy.Field()
編寫 alispi.py 文件
# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from aliSpider.items import AlispiderItem class AlispiSpider(CrawlSpider): name = "alispi" allowed_domains = ["job.alibaba.com"] start_urls = ["https://job.alibaba.com/zhaopin/positionList.html#page/0"] pagelink = LinkExtractor(allow=("d+")) rules = ( Rule(pagelink, callback="parse_item", follow=True), ) def parse_item(self, response): # for each in response.xpath("http://tr[@style="display:none"]"): for each in response.xpath("http://tr"): item = AlispiderItem() # 職位名稱 item["detail"] = each.xpath("./td[1]/span/a/@href").extract() # # # 詳情連接 item["workPosition"] = each.xpath("./td[3]/span/text()").extract() # # # 職位類別 item["jobclass"] = each.xpath("./td[2]/span/text()").extract() yield item
執(zhí)行
scrapy crawl alispi
輸出到文件 items.json
scrapy crawl alispi -o items.json
執(zhí)行成功會顯示如下內容
版本說明
python 3.5.5
源碼地址:https://github.com/zhongsb/al...
參考:https://scrapy-chs.readthedoc...
關注微信公眾號 [prepared],與博主深入探討。
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/42542.html
摘要:用例運行爬蟲命令基本語法是否需要項目存在當然是不需要咯貌似這個命令是不依托一個項目而直接運行一個爬蟲的命令。用例我終于寫完了,喜歡的就收藏推薦一下吧,這樣我就會更有動力寫新的教程了,哇哈哈 0. 基本環(huán)境說明 本文截圖及運行環(huán)境均在Win8上實現(xiàn)(是的,我放假回家了,家里的機器是win8的沒有辦法),但基本步驟與win 7環(huán)境基本相同。(應該把~)ps:我后來換了臺win7的電腦,所...
摘要:概述在前面兩篇爬蟲學習之基于的網(wǎng)絡爬蟲和爬蟲學習之簡單的網(wǎng)絡爬蟲文章中我們通過兩個實際的案例,采用不同的方式進行了內容提取。 概述 在前面兩篇(爬蟲學習之基于Scrapy的網(wǎng)絡爬蟲和爬蟲學習之簡單的網(wǎng)絡爬蟲)文章中我們通過兩個實際的案例,采用不同的方式進行了內容提取。我們對網(wǎng)絡爬蟲有了一個比較初級的認識,只要發(fā)起請求獲取響應的網(wǎng)頁內容,然后對內容進行格式化存儲。很多時候我們抓取到的內容...
摘要:快速入門首先,初步要做的就是快速構建一個爬蟲。然后把結果加入到一個隊列中。既然是入門,我們肯定是先關心我們需要的。 因為公司項目需求,需要做一個爬蟲。所以我一個python小白就被拉去做了爬蟲?;藘芍軙r間,拼拼湊湊總算趕出來了。所以寫個blog做個記錄。 快速入門 首先,初步要做的就是快速構建一個爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...
摘要:前言新接觸爬蟲,經(jīng)過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。 0.前言 新接觸爬蟲,經(jīng)過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。所以找了很多實例和文...
摘要:爬取百思不得姐首先一步一步來,我們先從爬最簡單的文本開始。將百思不得姐段子保存到中別忘了將管道加到配置文件中。雖然我只是簡單的爬了百思不得姐,不過這些方法可以應用到其他方面,爬取更多更有用的數(shù)據(jù)。 前一篇文章介紹了很多關于scrapy的進階知識,不過說歸說,只有在實際應用中才能真正用到這些知識。所以這篇文章就來嘗試利用scrapy爬取各種網(wǎng)站的數(shù)據(jù)。 爬取百思不得姐 首先一步一步來,我...
閱讀 3228·2021-11-08 13:21
閱讀 1209·2021-08-12 13:28
閱讀 1419·2019-08-30 14:23
閱讀 1938·2019-08-30 11:09
閱讀 852·2019-08-29 13:22
閱讀 2699·2019-08-29 13:12
閱讀 2560·2019-08-26 17:04
閱讀 2270·2019-08-26 13:22