成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

爬蟲基礎(chǔ)練習(xí)一 爬取豆瓣電影TOP250

reclay / 2581人閱讀

摘要:對(duì)新手來(lái)說(shuō),難點(diǎn)部分在于如何找到并成功跳轉(zhuǎn)到下一頁(yè),并且在最后一頁(yè)的時(shí)候識(shí)別出來(lái)并停止爬蟲。一個(gè)很基礎(chǔ)的爬蟲。

這是一個(gè)很好的新手練習(xí)項(xiàng)目,爬取豆瓣top250的電影,并分別記錄排名、片名、導(dǎo)演、主演、評(píng)論等信息,保存在一個(gè)txt文檔里。
對(duì)新手來(lái)說(shuō),難點(diǎn)部分在于如何找到并成功跳轉(zhuǎn)到下一頁(yè),并且在最后一頁(yè)的時(shí)候識(shí)別出來(lái)并停止爬蟲。

一個(gè)很基礎(chǔ)的爬蟲。以下是代碼部分。

import requests
from bs4 import BeautifulSoup
import time
import re

lurl = "https://movie.douban.com/top250"

movie = []

def getlist(listurl):
    time.sleep(2)
    headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"}
    res = requests.get(listurl)
    soup = BeautifulSoup(res.text, "html.parser")
    movielist = soup.select(".grid_view li")
    for m in movielist:
        rank = m.select("em")[0].text
        title = m.select(".title")[0].text
        direct = m.select(".info .bd p")[0].text.strip()
        actor = "
主演:".join(direct.split("???主演:"))
        director = "年代:".join(actor.split("                           "))
        if m.select(".inq"):
            comments = m.select(".inq")[0].text.strip()
        else:
            comments = "None"
        movie.append("排名: "+ rank+ "
" +"片名: "+ title + "
"+ director + "
" + "評(píng)論: "+ comments +"
" + "
")
    if soup.select(".next a"):
        asoup = soup.select(".next a")[0]["href"]
        Next_page = lurl + asoup
        getlist(Next_page)
    else:
        print("結(jié)束")
    return movie



movies = getlist(lurl)

with open("movie.txt", "w") as m:
    for a in movies:
        m.write(a)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38370.html

相關(guān)文章

  • Python為何能成為數(shù)據(jù)分析的主流工具?

    摘要:根據(jù)在年的調(diào)查顯示,近的數(shù)據(jù)科學(xué)家使用作為主要的編程語(yǔ)言,每一次的進(jìn)步都是它成為數(shù)據(jù)分析主流工具的重要因素。根據(jù)進(jìn)行的一項(xiàng)調(diào)查顯示,在上的月活躍用戶的占比在年后大幅上升。 昨天,微信的Python交流群出現(xiàn)了這樣的對(duì)話: showImg(https://segmentfault.com/img/bVbjV16?w=700&h=425); 看到這部分代碼交流,讓我不禁感受到Python的...

    macg0406 評(píng)論0 收藏0
  • 基礎(chǔ)如何學(xué)爬蟲技術(shù)

    摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來(lái)源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來(lái)源于某博主:htt...

    KunMinX 評(píng)論0 收藏0
  • Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

    摘要:前言新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡(jiǎn)單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁(yè)面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡(jiǎn)單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁(yè)面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...

    WalkerXu 評(píng)論0 收藏0
  • scrapy入門:豆瓣電影top250爬取

    摘要:本文內(nèi)容爬取豆瓣電影頁(yè)面內(nèi)容,字段包含排名,片名,導(dǎo)演,一句話描述有的為空,評(píng)分,評(píng)價(jià)人數(shù),上映時(shí)間,上映國(guó)家,類別抓取數(shù)據(jù)存儲(chǔ)介紹爬蟲框架教程一入門創(chuàng)建項(xiàng)目創(chuàng)建爬蟲注意,爬蟲名不能和項(xiàng)目名一樣應(yīng)對(duì)反爬策略的配置打開文件,將修改為。 本文內(nèi)容 爬取豆瓣電影Top250頁(yè)面內(nèi)容,字段包含:排名,片名,導(dǎo)演,一句話描述 有的為空,評(píng)分,評(píng)價(jià)人數(shù),上映時(shí)間,上映國(guó)家,類別 抓取數(shù)據(jù)存儲(chǔ) ...

    xialong 評(píng)論0 收藏0
  • scrapy入門教程——爬取豆瓣電影Top250!

    摘要:注意爬豆爬一定要加入選項(xiàng),因?yàn)橹灰馕龅骄W(wǎng)站的有,就會(huì)自動(dòng)進(jìn)行過濾處理,把處理結(jié)果分配到相應(yīng)的類別,但偏偏豆瓣里面的為空不需要分配,所以一定要關(guān)掉這個(gè)選項(xiàng)。 本課只針對(duì)python3環(huán)境下的Scrapy版本(即scrapy1.3+) 選取什么網(wǎng)站來(lái)爬取呢? 對(duì)于歪果人,上手練scrapy爬蟲的網(wǎng)站一般是官方練手網(wǎng)站 http://quotes.toscrape.com 我們中國(guó)人,當(dāng)然...

    senntyou 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<