摘要:詳細(xì)代碼可查看數(shù)據(jù)的來源是新浪微博的手機(jī)端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始
詳細(xì)代碼可查看Knowsmore
數(shù)據(jù)的來源是新浪微博的手機(jī)端H5頁面
個人資料API:https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API:https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數(shù)從1開始】
# -*- coding: utf-8 -*- import scrapy import re import json import os,sys from scrapy import Selector, Request from knowsmore.items import WeiboUserItem, WeiboStatusItem from ..common import * from ..model.mongodb import * WEIBO_USER_CONFIG = { "BASE_URL" : "https://m.weibo.cn", "USER_IDS" : ["6883966016"] } class WeiboUserSpider(scrapy.Spider): name = "weibo_user" def start_requests(self): for uid in WEIBO_USER_CONFIG["USER_IDS"]: url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid) yield Request(url) # Define your statuses implementation here, just a demo below for i in range(1, 2): status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i) yield Request(status_url, callback=self.parse_status) # https://m.weibo.cn/profile/1784537661 def parse(self, response): user_data = json.loads(response.text) yield WeiboUserItem( fans_url = user_data["data"]["fans"], follow_url = user_data["data"]["follow"], more_url = user_data["data"]["more"], user = user_data["data"]["user"] ) # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2 def parse_status(self, response): status_data = json.loads(response.text) yield WeiboStatusItem( cards = status_data["data"]["cards"] )
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/42957.html
摘要:詳細(xì)代碼可查看數(shù)據(jù)的來源是新浪微博的手機(jī)端頁面?zhèn)€人資料用戶發(fā)出的微博用戶頁數(shù)從開始 詳細(xì)代碼可查看Knowsmore 數(shù)據(jù)的來源是新浪微博的手機(jī)端H5頁面 個人資料API:https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API:https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE...
摘要:今天為大家整理了個爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
摘要:本人長期出售超大量微博數(shù)據(jù)旅游網(wǎng)站評論數(shù)據(jù),并提供各種指定數(shù)據(jù)爬取服務(wù),。如果用戶傳入偽造的,則新浪微博會返回一個錯誤。 PS:(本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評論數(shù)據(jù),并提供各種指定數(shù)據(jù)爬取服務(wù),Message to [email protected]。由于微博接口更新后限制增大,這個代碼已經(jīng)不能用來爬數(shù)據(jù)了。如果只是為了收集數(shù)據(jù)可以咨詢我的郵箱,如果是為了學(xué)習(xí)爬蟲,...
閱讀 2138·2021-09-27 14:04
閱讀 1883·2019-08-30 15:55
閱讀 1707·2019-08-30 13:13
閱讀 1076·2019-08-30 13:07
閱讀 2754·2019-08-29 15:20
閱讀 3247·2019-08-29 12:42
閱讀 3345·2019-08-28 17:58
閱讀 3606·2019-08-28 17:56