摘要:具體代碼可參看這里列表頁是指端的入口,如電影抓取后數(shù)據(jù)如下大毛狗何明翰張璇歷史萬次播放
具體代碼可參看Knowsmore
這里列表頁是指PC端的入口,如電影
抓取后數(shù)據(jù)如下:
{ "link" : "http://v.youku.com/v_show/id_XMzMyMzE2MTMxNg==.html", "thumb_img" : "http://r1.ykimg.com/051600005AD944F0859B5E040E03BD62", "title" : "大毛狗", "tag" : [ "VIP" ], "actors" : [ "何明翰", "張璇" ], "play_times" : " 歷史 2,236萬次播放 " }
# -*- coding: utf-8 -*- import scrapy import re import json from scrapy import Selector, Request from knowsmore.items import YoukuListItem from ..common import * from ..model.mongodb import * class YoukuListSpider(scrapy.Spider): name = "youku_list" custom_settings = { "DOWNLOADER_MIDDLEWARES" : { } } start_urls = [ "https://list.youku.com/category/show/c_96_s_1_d_4_p_29.html" ] def parse(self, response): GRID_SELECTOR = ".panel .mr1" for grid in response.css(GRID_SELECTOR): THUMB_IMG_SELECTOR = ".p-thumb img::attr(_src)" LINK_SELECTOR = ".info-list .title a::attr(href)" TITLE_SELECTOR = ".info-list .title a::text" ACTORS_SELECTOR = ".info-list .actor a::text" TAG_SELECTOR = ".p-thumb .p-thumb-tagrt span::text" PLAY_TIMES_SELECTOR = ".info-list li:nth-child(3)::text" item_thumb_img = grid.css( THUMB_IMG_SELECTOR).extract_first() item_link = grid.css( LINK_SELECTOR).extract_first() item_title = grid.css( TITLE_SELECTOR).extract_first() item_actors = grid.css( ACTORS_SELECTOR).extract() item_tag = grid.css( TAG_SELECTOR).extract() item_play_times = grid.css( PLAY_TIMES_SELECTOR).extract_first() # Build Scrapy Item youku_item = YoukuListItem( thumb_img = item_thumb_img, link = item_link, title = item_title, actors = item_actors, play_times = item_play_times, tag = item_tag ) # Send to Pipelines yield youku_item NEXT_PAGE_SELECTOR = ".yk-pages .next a::attr(href)" next_page = response.css(NEXT_PAGE_SELECTOR).extract_first() if next_page is not None: print next_page yield response.follow(next_page)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/42980.html
摘要:在線體驗(yàn)地址源碼項(xiàng)目預(yù)覽主頁面登錄頁面注冊頁面會員中心電影播放頁面電影彈幕功能視頻網(wǎng)站項(xiàng)目已經(jīng)完功能如下當(dāng)前最新版本增加自動抓取功能,網(wǎng)站數(shù)據(jù)定期實(shí)時(shí)更新電影和電視劇數(shù)據(jù)抓取電影數(shù)據(jù)信息前端展現(xiàn)電影頁面圖片的自動抓取下載和展示代碼結(jié)構(gòu)調(diào)整簡 在線體驗(yàn)地址:http://vip.52tech.tech/ GIthub源碼:https://github.com/xiugangzha......
摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...
摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...
閱讀 2053·2021-10-08 10:05
閱讀 1893·2021-09-22 15:31
閱讀 3016·2021-09-22 15:13
閱讀 3498·2021-09-09 09:34
閱讀 2105·2021-09-03 10:46
閱讀 3131·2019-08-30 15:56
閱讀 1710·2019-08-30 15:53
閱讀 2367·2019-08-30 15:44