使用python抓取百度漂流瓶妹紙照片

bang590 發(fā)布于2019-07-25 11:44 / 3305人閱讀

摘要：無(wú)意中發(fā)現(xiàn)貼吧也出了個(gè)漂流瓶的東西，隨手翻了翻發(fā)現(xiàn)居然有好多妹子圖，閑來(lái)無(wú)事于是就想寫個(gè)爬蟲(chóng)程序把圖片全部抓取下來(lái)。具體獲取一頁(yè)內(nèi)容的如下看參數(shù)很容易明白，就是當(dāng)前頁(yè)碼，就是當(dāng)前頁(yè)中包含的漂流瓶數(shù)量。

無(wú)意中發(fā)現(xiàn)貼吧也出了個(gè)漂流瓶的東西，隨手翻了翻發(fā)現(xiàn)居然有好多妹子圖，閑來(lái)無(wú)事于是就想寫個(gè)爬蟲(chóng)程序把圖片全部抓取下來(lái)。

這里是貼吧漂流瓶地址
http://tieba.baidu.com/bottle...

1.分析

首先打開(kāi)抓包神器 Fiddler ，然后打開(kāi)漂流瓶首頁(yè)，加載幾頁(yè)試試，在Fiddler中過(guò)濾掉圖片數(shù)據(jù)以及非 http 200 狀態(tài)碼的干擾數(shù)據(jù)后，發(fā)現(xiàn)每一頁(yè)的數(shù)據(jù)獲取都很有規(guī)律，這就給抓取提供了便利。具體獲取一頁(yè)內(nèi)容的url如下：

http://tieba.baidu.com/bottle...

看參數(shù)很容易明白，page_number 就是當(dāng)前頁(yè)碼，page_size 就是當(dāng)前頁(yè)中包含的漂流瓶數(shù)量。

訪問(wèn)后得到的是一個(gè)json格式的數(shù)據(jù)，結(jié)構(gòu)大致如下：

{
    "error_code": 0,
    "error_msg": "success",
    "data": {
        "has_more": 1,
        "bottles": [
            {
                "thread_id": "5057974188",
                "title": "美得不可一世",
                "img_url": "http://imgsrc.baidu.com/forum/pic/item/a8c87dd062d9f2d3f0113c2ea0ec8a136227cca9.jpg"
            },
            {
                "thread_id": "5057974188",
                "title": "美得不可一世",
                "img_url": "http://imgsrc.baidu.com/forum/pic/item/a8c87dd062d9f2d3f0113c2ea0ec8a136227cca9.jpg"
            },
            ...
   }
}

內(nèi)容很直白一眼就看出，bottles 中的數(shù)據(jù)就是我們想要的（thread_id 瓶子具體id, title 妹紙吐槽的內(nèi)容, img_url 照片真實(shí)地址），遍歷 bottles 就可以獲得當(dāng)前頁(yè)的所有漂流瓶子。（其實(shí)現(xiàn)在得到的只是封面圖哦，打開(kāi)具體的瓶子有驚喜，因?yàn)槲冶容^懶就懶得寫了，不過(guò)我也分析了內(nèi)部的數(shù)據(jù)，具體url是：http://tieba.baidu.com/bottle...瓶子thread_id>）

還有一個(gè)參數(shù) has_more 猜測(cè)是是否存在下一頁(yè)的意思。
到這里采集方式應(yīng)該可以確定了。就是從第一頁(yè)不停往后循環(huán)采集，直到 has_more 這個(gè)參數(shù)不為 1 結(jié)束。

2.編碼

這里采用的是 python2.7 + urllib2 + demjson 來(lái)完成此項(xiàng)工作。urllib2 是python2.7自帶的庫(kù)，demjson 需要自己安裝下（一般情況下用python自帶的json庫(kù)就可以完成json解析任務(wù)，但是現(xiàn)在好多網(wǎng)站提供的json并不規(guī)范，這就讓自帶json庫(kù)無(wú)能為力了。）

demjson 安裝方式 (windows 不需要 sudo)

sudo pip install demjson

或者

sudo esay_install demjson

2.1獲得一頁(yè)內(nèi)容

def bottlegen():
    page_number = 1
    while True:
        try:
            data = urllib2.urlopen(
                "http://tieba.baidu.com/bottle/bottles?page_number=%d&page_size=30" % page_number).read()
            json = demjson.decode(data)
            if json["error_code"] == 0:
                data = json["data"]
                has_more = data["has_more"]
                bottles = data["bottles"]
                for bottle in bottles:
                    thread_id = bottle["thread_id"]
                    title = bottle["title"]
                    img_url = bottle["img_url"]
                    yield (thread_id, title, img_url)
                if has_more != 1:
                    break
                page_number += 1
        except:
            raise
            print("bottlegen exception")
            time.sleep(5)

這里使用python的生成器來(lái)源源不斷的輸出分析到的內(nèi)容。

2.2根據(jù)url保存圖片數(shù)據(jù)

for thread_id, title, img_url in bottlegen():
    filename = os.path.basename(img_url)
    pathname = "tieba/bottles/%s_%s" % (thread_id, filename)
        print filename
        with open(pathname, "wb") as f:
            f.write(urllib2.urlopen(img_url).read())
            f.close()

2.3全部代碼如下

# -*- encoding: utf-8 -*-
import urllib2
import demjson
import time
import re
import os

def bottlegen():
    page_number = 1
    while True:
        try:
            data = urllib2.urlopen(
                "http://tieba.baidu.com/bottle/bottles?page_number=%d&page_size=30" % page_number).read()
            json = demjson.decode(data)
            if json["error_code"] == 0:
                data = json["data"]
                has_more = data["has_more"]
                bottles = data["bottles"]
                for bottle in bottles:
                    thread_id = bottle["thread_id"]
                    title = bottle["title"]
                    img_url = bottle["img_url"]
                    yield (thread_id, title, img_url)
                if has_more != 1:
                    break
                page_number += 1
        except:
            raise
            print("bottlegen exception")
            time.sleep(5)

def imggen(thread_id):
    try:
        data = urllib2.urlopen(
            "http://tieba.baidu.com/bottle/photopbPage?thread_id=%s" % thread_id).read()
        match = re.search(r"\_.Module.use("encourage/widget/bottle",(.*?),function(){});", data)
        data = match.group(1)
        json = demjson.decode(data)
        json = demjson.decode(json[1].replace("
", ""))
        for i in json:
            thread_id = i["thread_id"]
            text = i["text"]
            img_url = i["img_url"]
            yield (thread_id, text, img_url)
    except:
        raise
        print("imggen exception")

try:
    os.makedirs("tieba/bottles")
except:
    pass

for thread_id, _, _ in bottlegen():
    for _, title, img_url in imggen(thread_id):
        filename = os.path.basename(img_url)
        pathname = "tieba/bottles/%s_%s" % (thread_id, filename)
        print filename
        with open(pathname, "wb") as f:
            f.write(urllib2.urlopen(img_url).read())
            f.close()

運(yùn)行后會(huì)先獲得每頁(yè)所有瓶子，然后再獲得具體瓶子中的所有圖片，輸出到 tieba/bottles/xxxxx.jpg 中。(因?yàn)楸容^懶就沒(méi)做錯(cuò)誤兼容，見(jiàn)諒 ^_^,,,)

結(jié)論

結(jié)論是,,, 都是騙人的就首頁(yè)有幾張好看的 - -,,, 他喵的,,,

最后貼下采集成果

云服務(wù)器 GPU云服務(wù)器騰訊云服務(wù)器百度抓取異常504 python抓取 python 爬照片 python網(wǎng)頁(yè)抓取

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38580.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

bang590

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

SSM實(shí)戰(zhàn)項(xiàng)目：人事管理系統(tǒng)（藍(lán)色版）【附源代碼】

閱讀 2587·2021-11-22 09:34
Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MyS

閱讀 962·2021-11-19 11:34
華為注資3億元加碼云計(jì)算領(lǐng)域_云資訊

閱讀 2815·2021-10-14 09:42
什么云主機(jī)便宜-國(guó)內(nèi)便宜的云主機(jī)哪些人用？

閱讀 1499·2021-09-22 15:27
（快）開(kāi)學(xué)了，各大編程語(yǔ)言在群里吵翻了天！

閱讀 2399·2021-09-07 09:59
Vultr：裸金屬服務(wù)器，$0.275/H，1.9TB SSD/10T流量/10G帶寬，洛杉磯/日本

閱讀 1749·2021-08-27 13:13
前端培訓(xùn)-中級(jí)階段（8）- jQuery元素屬性樣式操作（2019-08-01期）

閱讀 3442·2019-08-30 11:21
vs code 插件折騰記（二）

閱讀 784·2019-08-29 18:35

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用python抓取百度漂流瓶妹紙照片

相關(guān)文章

Python爬蟲(chóng)基礎(chǔ)：爬取妹子圖片并保存到本地

零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

**手把手教你用Python爬蟲(chóng)煎蛋妹紙海量圖片**

【“探探”為例】手把手教你用最少的代碼實(shí)現(xiàn)各種“機(jī)器人”

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評(píng)論

0條評(píng)論

bang590

男|高級(jí)講師

TA的文章

SSM實(shí)戰(zhàn)項(xiàng)目：人事管理系統(tǒng)（藍(lán)色版）【附源代碼】

Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MyS

華為注資3億元加碼云計(jì)算領(lǐng)域_云資訊

什么云主機(jī)便宜-國(guó)內(nèi)便宜的云主機(jī)哪些人用？

（快）開(kāi)學(xué)了，各大編程語(yǔ)言在群里吵翻了天！

Vultr：裸金屬服務(wù)器，$0.275/H，1.9TB SSD/10T流量/10G帶寬，洛杉磯/日本

前端培訓(xùn)-中級(jí)階段（8）- jQuery元素屬性樣式操作（2019-08-01期）

vs code 插件折騰記（二）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用python抓取百度漂流瓶妹紙照片

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！