scrapy抓取淘寶女郎

zhoutao 發(fā)布于2019-07-31 10:55 / 788人閱讀

摘要：抓取淘寶女郎準(zhǔn)備工作首先在淘寶女郎的首頁這里查看，當(dāng)然想要爬取更多的話，當(dāng)然這里要查看翻頁的不過這操蛋的地方就是這里的翻頁是使用加載的，這個(gè)就有點(diǎn)尷尬了，找了好久沒有找到，這里如果有朋友知道怎樣翻頁的話，麻煩告訴我一聲，謝謝了，不過就這樣坐

scrapy抓取淘寶女郎 準(zhǔn)備工作


首先在淘寶女郎的首頁這里查看，當(dāng)然想要爬取更多的話，當(dāng)然這里要查看翻頁的url,不過這操蛋的地方就是這里的翻頁是使用javascript加載的，這個(gè)就有點(diǎn)尷尬了，找了好久沒有找到，這里如果有朋友知道怎樣翻頁的話，麻煩告訴我一聲，謝謝了...，不過就這樣坐以待斃了嗎，所以就在chrome上搜，結(jié)果看到有人直接使用的這個(gè)網(wǎng)頁,我當(dāng)時(shí)一看感覺神奇的樣子，這就是簡(jiǎn)化版的首頁啊，只需要改變page的數(shù)字就可以實(shí)現(xiàn)遍歷了，不過還是有點(diǎn)小失落，為什么人家就能找到呢，這個(gè)我還是希望知道的朋友能夠分享一下，我也會(huì)查看相關(guān)的資料，把這個(gè)空缺不上的，好了，現(xiàn)在開我們的工作了

我們的目的是抓取冊(cè)以及相關(guān)的信息，所以我們需要隨便打開一個(gè)淘女郎的相冊(cè)頁面，然后隨便進(jìn)入一個(gè)相冊(cè)即可，很顯然這里的相冊(cè)是異步加載的，因此我們需要抓包，這里我抓到了含有相冊(cè)的url以及相關(guān)信息的json數(shù)據(jù)，如下圖：




然后我們查看它的url為https://mm.taobao.com/album/j...

通過我嘗試之后這條url可以簡(jiǎn)化為:

https://mm.taobao.com/album/j...{0}&album_id={1}&top_pic_id=0&page={2}&_ksTS=1493654931946_405

其中user_id是每一個(gè)女郎對(duì)的id,ablum_id時(shí)每一個(gè)相冊(cè)的id,這里一個(gè)女郎有多個(gè)相冊(cè)，因此這個(gè)id是不同的，但是page就是要翻頁的作用了,可以看到我去掉了callback=json155這一項(xiàng)，因?yàn)槿绻由线@一項(xiàng)，返回的數(shù)據(jù)就不是json類型的數(shù)據(jù)，其中page是在抓包的時(shí)候點(diǎn)擊翻頁才會(huì)在下面出現(xiàn)的，可以看到同一個(gè)相冊(cè)返回的除了page不同之外，其他的都是相同的，因此這里通過page來實(shí)現(xiàn)翻頁的數(shù)據(jù)

上面分析了每一個(gè)相冊(cè)的url數(shù)據(jù)的由來，可以看到我們下面需要找到user_id,ablum_id這兩個(gè)數(shù)據(jù).

user_id的獲取：我們打開首頁,然后打開chrome的調(diào)試工具，可以看到每一個(gè) 女郎的url中都包含user_id這一項(xiàng)，因此我們只需要通過這個(gè)實(shí)現(xiàn)翻頁然后獲取每一個(gè)女郎的url,之后用正則將user_id匹配出來即可,代碼如下

ps=response.xpath("http://p[@class="top"]")
        for p in ps:
            item=JrtItem()
            href=p.xpath("a/@href").extract()   #這個(gè)得到的是一個(gè)數(shù)組url
            if href:
                item["user_id"]=self.pattern_user_id.findall(href[0])[0]   #用則正匹配出user_id,其中的正則為  pattern_user_id=re.compile(r"user_id=(d+)")


ablum_id的獲?。合胍@取ablum_id當(dāng)然要在相冊(cè)的頁面查找，于是我們?cè)谙鄡?cè)頁面抓包獲得了如下圖的頁面



通過上圖我們清晰的知道每一個(gè)相冊(cè)的里面包含多少相冊(cè)，但最令人開心的是在這個(gè)頁面中不是動(dòng)態(tài)加載，因此我們可以查看它的源碼，當(dāng)我們查看源碼的時(shí)候，我們可以看到和user_id一樣，這里的ablum_id包含在了href中，因此我們只需要找到每一張相冊(cè)的url，然后用正則匹配處來即可，其中這個(gè)頁面的url簡(jiǎn)化為:

https://mm.taobao.com/self/al...{0}&page={1}

所以我們可以通過上面得到的user_id構(gòu)成請(qǐng)求即可,代碼如下：

 ## 解析得到ablum_id，根據(jù)ablum_id解析請(qǐng)求出每一個(gè)相冊(cè)的json數(shù)據(jù)
    def parse_ablum_id(self,response):
        if response.status==200:
            print response.url
            item = response.meta["item"]
            soup = BeautifulSoup(response.text, "lxml")
            divs = soup.find_all("div", class_="mm-photo-cell-middle")
            for div in divs:
                href = div.find("h4").find("a").get("href")
                items = self.pattern_ablum_id.findall(href)    #這里就得到了ablum_id


上面已經(jīng)獲得了user_id和ablum_id，那么現(xiàn)在就可以請(qǐng)求每一個(gè)相冊(cè)的json數(shù)據(jù)了，這個(gè)就不用多說了，詳情請(qǐng)看源代碼

MongoDB存儲(chǔ) 安裝方式


Windows下安裝請(qǐng)看我的MogoDB干貨篇

ubantu直接用sudo apt-get install安裝即可

安裝對(duì)應(yīng)python的包：pip install pymongo

安裝完成以后就可以連接了，下面貼出我的連接代碼

from pymongo import MongoClient

class MongoDBPipelines(object):
    collection_name = "taobao"
    def open_spider(self,spider):
        self.client = MongoClient("localhost", 27017)   #連接，這里的27017是默認(rèn)的額端口號(hào)
        self.db = self.client["python"]               #python是自己的數(shù)據(jù)庫，當(dāng)然這里不用提前建好也可以

    def close_spider(self, spider):            
        self.client.close()

    def process_item(self,item,spider):
        self.db[self.collection_name].update({"picId":item["picId"]}, {"$set": dict(item)}, True)
        return item

現(xiàn)在這就算好了，當(dāng)然這里還有很多東西需要優(yōu)化的，像代理池。。。最后本人想在暑期找一個(gè)地方實(shí)習(xí)，但是一直沒有好的地方，希望有實(shí)習(xí)的地方推薦的可以聯(lián)系我，在這里先謝謝了

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

zhoutao

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

2021世界智能網(wǎng)聯(lián)汽車大會(huì)觀感

閱讀 1669·2021-09-28 09:35
前端技術(shù)演進(jìn)（三）：前端安全

閱讀 1139·2019-08-30 15:54
New CSS Logical Properties! - The Next Step of CSS

閱讀 1665·2019-08-30 15:44
面試刷題總結(jié)

閱讀 3370·2019-08-30 14:09
BFC！Repaint！Reflow

閱讀 499·2019-08-29 14:05
d3js中級(jí)教程之漂浮的卡牌效果(data的key函數(shù)進(jìn)階)

閱讀 2668·2019-08-28 17:53
前端小報(bào) - 201903月刊

閱讀 1991·2019-08-26 13:41
angular源碼分析之platformBrowserDynamic

閱讀 1721·2019-08-26 13:26

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

scrapy抓取淘寶女郎

相關(guān)文章

python

爬蟲 - 收藏集 - 掘金

23個(gè)Python爬蟲開源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評(píng)論

0條評(píng)論

zhoutao

男|高級(jí)講師

TA的文章

2021世界智能網(wǎng)聯(lián)汽車大會(huì)觀感

前端技術(shù)演進(jìn)（三）：前端安全

New CSS Logical Properties! - The Next Step of CSS

面試刷題總結(jié)

BFC！Repaint！Reflow

d3js中級(jí)教程之漂浮的卡牌效果(data的key函數(shù)進(jìn)階)

前端小報(bào) - 201903月刊

angular源碼分析之platformBrowserDynamic

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

scrapy抓取淘寶女郎

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！