爬取博客園首頁并定時發(fā)送到微信

aaron 發(fā)布于2019-07-30 16:17 / 844人閱讀

摘要：應(yīng)女朋友要求，為了能及時掌握技術(shù)動向，特意寫了這個爬蟲，每天定時爬取博客園首頁并發(fā)送至微信。

應(yīng)女朋友要求，為了能及時掌握技術(shù)動向，特意寫了這個爬蟲，每天定時爬取博客園首頁并發(fā)送至微信。

環(huán)境：

Python3.4

第三方庫

Requests:向服務(wù)器發(fā)送請求

BeautifulSoup4：解析Html

wxpy：微信接口

Schedule：定時器

代碼

# -*-coding:utf-8 -*-

import requests
from requests import exceptions
from bs4 import BeautifulSoup as bs
import re
from wxpy import *
import  schedule
import  time


bot=Bot(cache_path=True)

#獲取網(wǎng)頁內(nèi)容
def getHtml(pageIndex):
    #定義請求頭 偽裝成瀏覽器
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"}
    #pageIndex代表頁數(shù)
    payload={"CategoryType": "SiteHome", "ParentCategoryId": "0", "CategoryId": "808", "PageIndex": pageIndex, "TotalPostCount": "4000"}
    try:
        r=requests.post("https://www.cnblogs.com/mvc/AggSite/PostList.aspx",data=payload,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except requests.RequestException as e:
        return e.strerror
#向微信文件傳輸助手發(fā)送消息
def sendblogmsg(content):
    #搜索自己的好友
    #my_friend = bot.friends().search("")[0]
    my_friend=bot.file_helper
    my_friend.send(content)

def job():
    contents=""
    #i表示當(dāng)前頁數(shù)
    for i in range(1,3):
        html=getHtml(i)
        soup=bs(html,"html.parser")
        blogs=soup.findAll("div",{"class":"post_item_body"})
        for blog in blogs:
            title=blog.find("h3").get_text()
            summary=blog.find("p",{"class":"post_item_summary"}).get_text()
            link=blog.find("a",{"class":"titlelnk"})["href"]
            content="標(biāo)題："+title+"
鏈接："+link+"
-----------
"
            contents+=content
        sendblogmsg(contents)
#定時
schedule.every().day.at("06:00").do(job)
while True:
    schedule.run_pending()
    time.sleep(1)
bot.join()

注意事項(xiàng)：

不要進(jìn)行惡意攻擊行為

盡量在空閑時間訪問網(wǎng)站，控制訪問頻率，不要惡意消耗網(wǎng)站資源

GPU云服務(wù)器云服務(wù)器 asp網(wǎng)頁發(fā)送到微信博客園博客園webrtc wcf博客園

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/41586.html

發(fā)表評論

登陸后可評論

0條評論

aaron

男|高級講師

我要關(guān)注我要私信

TA的文章

#開學(xué)季#無憂云：4核/4G/80G/5Mbps不限流量/洛陽BGP/月付59元，帶5G防御

閱讀 3891·2021-09-10 11:22
Pillow 10行代碼給營業(yè)執(zhí)照模板寫數(shù)據(jù)，批量生產(chǎn)

閱讀 2365·2021-09-03 10:30
記：原樣輸出文字，不做任何處理

閱讀 3677·2019-08-30 15:55
如何在React中優(yōu)雅的處理doubleClick

閱讀 1921·2019-08-30 15:44
怎樣分析頁面加載慢

閱讀 855·2019-08-30 15:44
純css三角形及其應(yīng)用

閱讀 603·2019-08-30 14:04
vue中的適配：px2rem

閱讀 3056·2019-08-29 17:18
swiper的使用

閱讀 1278·2019-08-29 15:04

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬取博客園首頁并定時發(fā)送到微信

相關(guān)文章

爬取博客園首頁數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

個人博客建站最全解析

java爬取博客園個人博客

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

淺談CDN、SEO、XSS、CSRF

發(fā)表評論

0條評論

aaron

男|高級講師

TA的文章

#開學(xué)季#無憂云：4核/4G/80G/5Mbps不限流量/洛陽BGP/月付59元，帶5G防御

Pillow 10行代碼給營業(yè)執(zhí)照模板寫數(shù)據(jù)，批量生產(chǎn)

記：原樣輸出文字，不做任何處理

如何在React中優(yōu)雅的處理doubleClick

怎樣分析頁面加載慢

純css三角形及其應(yīng)用

vue中的適配：px2rem

swiper的使用

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

爬取博客園首頁并定時發(fā)送到微信

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！