使用Scrapy抓取新浪微博用戶信息

dingding199389 發(fā)布于2019-07-30 18:44 / 3576人閱讀

摘要：詳細(xì)代碼可查看數(shù)據(jù)的來源是新浪微博的手機(jī)端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始

詳細(xì)代碼可查看Knowsmore

數(shù)據(jù)的來源是新浪微博的手機(jī)端H5頁面

個人資料API：https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API：https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數(shù)從1開始】

# -*- coding: utf-8 -*-
import scrapy
import re
import json
import os,sys
from scrapy import Selector, Request
from knowsmore.items import WeiboUserItem, WeiboStatusItem
from ..common import *
from ..model.mongodb import *

WEIBO_USER_CONFIG = {
    "BASE_URL" : "https://m.weibo.cn",
    "USER_IDS" : ["6883966016"]
}

class WeiboUserSpider(scrapy.Spider):

    name = "weibo_user"

    def start_requests(self):
        for uid in WEIBO_USER_CONFIG["USER_IDS"]:
            url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid)
            yield Request(url)
            # Define your statuses implementation here, just a demo below
            for i in range(1, 2):
                status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i)
                yield Request(status_url, callback=self.parse_status)

    # https://m.weibo.cn/profile/1784537661
    def parse(self, response):
        user_data = json.loads(response.text)
        yield WeiboUserItem(
            fans_url = user_data["data"]["fans"],
            follow_url = user_data["data"]["follow"],
            more_url = user_data["data"]["more"],
            user = user_data["data"]["user"]
        )

    # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2
    def parse_status(self, response):
        status_data = json.loads(response.text)
        yield WeiboStatusItem(
            cards = status_data["data"]["cards"]
        )

GPU云服務(wù)器云服務(wù)器 python抓取微博新浪微博仿新浪微博新浪微博分享

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/42957.html

發(fā)表評論

登陸后可評論

0條評論

dingding199389

男|高級講師

我要關(guān)注我要私信

TA的文章

搬瓦工只能年付嗎?能不能按月付款?能不能一次性多買幾年?

閱讀 2138·2021-09-27 14:04
基于vue的驗(yàn)證碼組件

閱讀 1883·2019-08-30 15:55
CSS居中那些事

閱讀 1707·2019-08-30 13:13
提升你的CSS姿勢

閱讀 1076·2019-08-30 13:07
Node.js究竟是什么？

閱讀 2754·2019-08-29 15:20
垂直居中

閱讀 3247·2019-08-29 12:42
圖解利用CSS實(shí)現(xiàn)三角形

閱讀 3345·2019-08-28 17:58
嘿，咱不能老靠著css

閱讀 3606·2019-08-28 17:56

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Scrapy抓取新浪微博用戶信息

相關(guān)文章

**使用Scrapy抓取新浪微博用戶信息**

23個Python爬蟲開源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

利用新浪API實(shí)現(xiàn)數(shù)據(jù)的抓取微博數(shù)據(jù)爬取微博爬蟲

發(fā)表評論

0條評論

dingding199389

男|高級講師

TA的文章

搬瓦工只能年付嗎?能不能按月付款?能不能一次性多買幾年?

基于vue的驗(yàn)證碼組件

CSS居中那些事

提升你的CSS姿勢

Node.js究竟是什么？

垂直居中

圖解利用CSS實(shí)現(xiàn)三角形

嘿，咱不能老靠著css

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Scrapy抓取新浪微博用戶信息

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！