摘要:最簡爬蟲環(huán)境準(zhǔn)備最好使用另外需要兩個必要的庫一個封裝了服務(wù)的庫類似,使用非常方便開始實現(xiàn)第一個應(yīng)用我們第一個應(yīng)用實現(xiàn)的功能主要如下訪問一個頁面這里我們以糗事百科為例獲得頁面的內(nèi)容進(jìn)行簡單的處理,獲得我們需要的內(nèi)容結(jié)果簡單分析利用獲得頁面
Step1 - 最簡爬蟲 環(huán)境準(zhǔn)備
Python3.5 最好使用venv
另外需要兩個必要的庫:
requests : 一個封裝了HTTP服務(wù)的python庫
pyquery : 類似Jquery,使用非常方便
$ pip install requests $ pip install pyquery開始 實現(xiàn)第一個應(yīng)用
我們第一個應(yīng)用實現(xiàn)的功能主要如下:
訪問一個頁面,這里我們以 糗事百科(http://www.qiushibaike.com/) 為例
獲得頁面的內(nèi)容
進(jìn)行簡單的處理,獲得我們需要的內(nèi)容
import requests from pyquery import PyQuery as pq __author__ = "BONFY CHEN結(jié)果 簡單分析" SITE = "http://www.qiushibaike.com/" r = requests.get(SITE) assert r.status_code == 200 d = pq(r.text) contents = d("div .article") for item in contents: i = pq(item) content = i("div .content").text() print(content)
利用 requests.get 獲得頁面
assert 斷言,如果網(wǎng)絡(luò)問題 訪問不到就退出
contents 利用 pyquery 獲得所有文章 后續(xù) 讀取 div class = "content" 的為文本內(nèi)容 (這里沒有處理圖片后續(xù)的講解中會完善)
print 輸出
完整代碼補(bǔ)充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot
歡迎關(guān)注及一起交流
請期待下一篇: 代碼優(yōu)化
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37937.html
摘要:代碼優(yōu)化簡介這篇我們簡要的討論一下代碼優(yōu)化,這里主要討論兩點過程到函數(shù)加入對的處理我們在中的編碼是面向過程的,這個不利于復(fù)用,所以我們簡單的將我們前面的代碼函數(shù)化,方便以后擴(kuò)展及別人的調(diào)用另外,代碼最好符合規(guī)范,方便自己和別人閱讀編碼創(chuàng)建 Step2 - 代碼優(yōu)化 簡介 這篇我們簡要的討論一下代碼優(yōu)化,這里主要討論兩點 過程到函數(shù) 加入對media的處理 PEP8 我們在Step1...
摘要:而的異步非阻塞特性能夠完美的解決這一問題。爬蟲機(jī)器人功能實現(xiàn)我使用編寫的機(jī)器人是用來抓取來自游民星空的圖片。也是使用裝飾器進(jìn)行回調(diào)函數(shù)注冊,使用進(jìn)行消息更新。當(dāng)沒有指令時,會顯示一些能夠查看的圖片類型。 原文鏈接 前言 aiotg 可以通過異步調(diào)用telegram api的方式來構(gòu)建bot,因為決定開發(fā)一個爬蟲功能的bot,所以網(wǎng)絡(luò)請求阻塞是比較嚴(yán)重的性能障礙。而asyncio的異步非...
摘要:目的每兩秒允許個來自頭包含等的爬蟲類請求測試官方文檔中文相關(guān)解釋 目的: 每兩秒允許1個來自header頭包含Baiduspider等的爬蟲類請求 http { map $http_user_agent $is_limited_bot { ~Baiduspider 1; ~OtherSpider 2; default ; } limit_req_zone $i...
? 作者主頁:不吃西紅柿 ? 簡介:CSDN博客專家?、信息技術(shù)智庫公號作者?簡歷模板、PPT模板、技術(shù)資料盡管【關(guān)注】私聊我。歷史文章目錄:https://t.1yb.co/zHJo ? 歡迎點贊 ? 收藏 ?留言 ? 如有錯誤敬請指正! 本文重點: 1、爬蟲獲取csdn大佬之間的關(guān)系 2、可視化分析曖昧關(guān)系,復(fù)雜堪比娛樂圈 大佬簡介 ? Java李楊勇:一個性感的計算機(jī)專業(yè)畢業(yè)的...
閱讀 1791·2021-11-11 11:02
閱讀 1697·2021-09-22 15:55
閱讀 2498·2021-09-22 15:18
閱讀 3500·2019-08-29 11:26
閱讀 3757·2019-08-26 13:43
閱讀 2656·2019-08-26 13:32
閱讀 912·2019-08-26 10:55
閱讀 973·2019-08-26 10:27