成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

xiaolinBot(Twitter笑話集錦爬蟲Bot) Step1-最簡爬蟲

zr_hebo / 2820人閱讀

摘要:最簡爬蟲環(huán)境準(zhǔn)備最好使用另外需要兩個必要的庫一個封裝了服務(wù)的庫類似,使用非常方便開始實現(xiàn)第一個應(yīng)用我們第一個應(yīng)用實現(xiàn)的功能主要如下訪問一個頁面這里我們以糗事百科為例獲得頁面的內(nèi)容進(jìn)行簡單的處理,獲得我們需要的內(nèi)容結(jié)果簡單分析利用獲得頁面

Step1 - 最簡爬蟲 環(huán)境準(zhǔn)備

Python3.5 最好使用venv

另外需要兩個必要的庫:

requests : 一個封裝了HTTP服務(wù)的python庫

pyquery : 類似Jquery,使用非常方便

$ pip install requests
$ pip install pyquery
開始 實現(xiàn)第一個應(yīng)用

我們第一個應(yīng)用實現(xiàn)的功能主要如下:

訪問一個頁面,這里我們以 糗事百科(http://www.qiushibaike.com/) 為例

獲得頁面的內(nèi)容

進(jìn)行簡單的處理,獲得我們需要的內(nèi)容

import requests
from pyquery import PyQuery as pq

__author__ = "BONFY CHEN "


SITE = "http://www.qiushibaike.com/"
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)
結(jié)果

簡單分析

利用 requests.get 獲得頁面

assert 斷言,如果網(wǎng)絡(luò)問題 訪問不到就退出

contents 利用 pyquery 獲得所有文章 后續(xù) 讀取 div class = "content" 的為文本內(nèi)容 (這里沒有處理圖片后續(xù)的講解中會完善)

print 輸出

完整代碼

補(bǔ)充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot

歡迎關(guān)注及一起交流

請期待下一篇: 代碼優(yōu)化

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37937.html

相關(guān)文章

  • xiaolinBotTwitter笑話集錦爬蟲Bot) Step2-代碼優(yōu)化

    摘要:代碼優(yōu)化簡介這篇我們簡要的討論一下代碼優(yōu)化,這里主要討論兩點過程到函數(shù)加入對的處理我們在中的編碼是面向過程的,這個不利于復(fù)用,所以我們簡單的將我們前面的代碼函數(shù)化,方便以后擴(kuò)展及別人的調(diào)用另外,代碼最好符合規(guī)范,方便自己和別人閱讀編碼創(chuàng)建 Step2 - 代碼優(yōu)化 簡介 這篇我們簡要的討論一下代碼優(yōu)化,這里主要討論兩點 過程到函數(shù) 加入對media的處理 PEP8 我們在Step1...

    HelKyle 評論0 收藏0
  • 基于asyncio編寫一個telegram爬蟲機(jī)器人

    摘要:而的異步非阻塞特性能夠完美的解決這一問題。爬蟲機(jī)器人功能實現(xiàn)我使用編寫的機(jī)器人是用來抓取來自游民星空的圖片。也是使用裝飾器進(jìn)行回調(diào)函數(shù)注冊,使用進(jìn)行消息更新。當(dāng)沒有指令時,會顯示一些能夠查看的圖片類型。 原文鏈接 前言 aiotg 可以通過異步調(diào)用telegram api的方式來構(gòu)建bot,因為決定開發(fā)一個爬蟲功能的bot,所以網(wǎng)絡(luò)請求阻塞是比較嚴(yán)重的性能障礙。而asyncio的異步非...

    馬忠志 評論0 收藏0
  • Nginx 限制百度等爬蟲連接

    摘要:目的每兩秒允許個來自頭包含等的爬蟲類請求測試官方文檔中文相關(guān)解釋 目的: 每兩秒允許1個來自header頭包含Baiduspider等的爬蟲類請求 http { map $http_user_agent $is_limited_bot { ~Baiduspider 1; ~OtherSpider 2; default ; } limit_req_zone $i...

    yearsj 評論0 收藏0
  • ?? 爬蟲分析CSDN大佬之間關(guān)系,堪比娛樂圈 ??

    ? 作者主頁:不吃西紅柿 ? 簡介:CSDN博客專家?、信息技術(shù)智庫公號作者?簡歷模板、PPT模板、技術(shù)資料盡管【關(guān)注】私聊我。歷史文章目錄:https://t.1yb.co/zHJo ? 歡迎點贊 ? 收藏 ?留言 ? 如有錯誤敬請指正! 本文重點: 1、爬蟲獲取csdn大佬之間的關(guān)系 2、可視化分析曖昧關(guān)系,復(fù)雜堪比娛樂圈 大佬簡介 ? Java李楊勇:一個性感的計算機(jī)專業(yè)畢業(yè)的...

    Michael_Ding 評論0 收藏0

發(fā)表評論

0條評論

zr_hebo

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<