成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

爬取博客園首頁并定時發(fā)送到微信

aaron / 844人閱讀

摘要:應(yīng)女朋友要求,為了能及時掌握技術(shù)動向,特意寫了這個爬蟲,每天定時爬取博客園首頁并發(fā)送至微信。

應(yīng)女朋友要求,為了能及時掌握技術(shù)動向,特意寫了這個爬蟲,每天定時爬取博客園首頁并發(fā)送至微信。

環(huán)境:

Python3.4

第三方庫

Requests:向服務(wù)器發(fā)送請求

BeautifulSoup4:解析Html

wxpy:微信接口

Schedule:定時器

代碼
# -*-coding:utf-8 -*-

import requests
from requests import exceptions
from bs4 import BeautifulSoup as bs
import re
from wxpy import *
import  schedule
import  time


bot=Bot(cache_path=True)

#獲取網(wǎng)頁內(nèi)容
def getHtml(pageIndex):
    #定義請求頭 偽裝成瀏覽器
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"}
    #pageIndex代表頁數(shù)
    payload={"CategoryType": "SiteHome", "ParentCategoryId": "0", "CategoryId": "808", "PageIndex": pageIndex, "TotalPostCount": "4000"}
    try:
        r=requests.post("https://www.cnblogs.com/mvc/AggSite/PostList.aspx",data=payload,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except requests.RequestException as e:
        return e.strerror
#向微信文件傳輸助手發(fā)送消息
def sendblogmsg(content):
    #搜索自己的好友
    #my_friend = bot.friends().search("")[0]
    my_friend=bot.file_helper
    my_friend.send(content)

def job():
    contents=""
    #i表示當(dāng)前頁數(shù)
    for i in range(1,3):
        html=getHtml(i)
        soup=bs(html,"html.parser")
        blogs=soup.findAll("div",{"class":"post_item_body"})
        for blog in blogs:
            title=blog.find("h3").get_text()
            summary=blog.find("p",{"class":"post_item_summary"}).get_text()
            link=blog.find("a",{"class":"titlelnk"})["href"]
            content="標(biāo)題:"+title+"
鏈接:"+link+"
-----------
"
            contents+=content
        sendblogmsg(contents)
#定時
schedule.every().day.at("06:00").do(job)
while True:
    schedule.run_pending()
    time.sleep(1)
bot.join()
注意事項(xiàng):

不要進(jìn)行惡意攻擊行為

盡量在空閑時間訪問網(wǎng)站,控制訪問頻率,不要惡意消耗網(wǎng)站資源

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41586.html

相關(guān)文章

  • 爬取博客首頁數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

    摘要:目標(biāo)選取了博客園,爬取了首頁的前頁文章,但是數(shù)據(jù)放在那一直沒去分析。為了避免對博客園造成壓力,爬蟲代碼不公開。注數(shù)據(jù)來源是年月日至月的博客園首頁文章。誰是博客園最愛的用戶最愛的用戶,在這里是按文章上首頁的數(shù)量來判斷的。 前言 之前折騰了一小段時間scrapy,覺得使用起來異常簡單,然后打算練練手。目標(biāo)選取了博客園,爬取了首頁的前200頁文章,但是數(shù)據(jù)放在那一直沒去分析。趁著現(xiàn)在有閑心,...

    zilu 評論0 收藏0
  • 個人博客建站最全解析

    摘要:今天呢我想給大家,也給我自己,對我的個人網(wǎng)站做一個全面的整理和分析。首頁上用戶直接看得到的部分有導(dǎo)航欄和輪播大圖當(dāng)時寫這個網(wǎng)站的設(shè)想是在年月份的時候。目前網(wǎng)上流行的個人博客頁面。感謝框架對本網(wǎng)站的大力支持。大家好~又見面了。 今天呢我想給大家,也給我自己, 對我的個人網(wǎng)站yanyy.cn/yanyy 做一個全面的整理和分析。 也給有這方面想法的朋友一個參考。 做網(wǎng)站的有愛好也有帶有目的性的。...

    zlyBear 評論0 收藏0
  • java爬取博客個人博客

    摘要:本人以前也是搞過幾年,由于公司的崗位職責(zé),后面漸漸地被掰彎,現(xiàn)在主要是做前端開發(fā)。所以想利用爬取文章,再將爬取的轉(zhuǎn)化成目前還未實(shí)現(xiàn),歡迎各位同學(xué)指導(dǎo)。 java爬取博客園個人博客 前言 近期本人在某云上購買了個人域名,本想著以后購買與服務(wù)器搭建自己的個人網(wǎng)站,由于需要籌備的太多,暫時先擱置了,想著先借用GitHub Pages搭建一個靜態(tài)的站,搭建的過程其實(shí)也曲折,主要是域名地址配置把...

    leonardofed 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 淺談CDN、SEO、XSS、CSRF

    摘要:要錢的簡單理解百度的廣告就是不用錢的自己配置提高搜索引擎的權(quán)重是一種技術(shù),主要是用于提高網(wǎng)站瀏覽量而做的優(yōu)化手段為什么需要我們搜一下微信公眾號發(fā)現(xiàn)排名是有先后的,博客園都是靠前的。 CDN 什么是CDN 初學(xué)Web開發(fā)的時候,多多少少都會聽過這個名詞->CDN。 CDN在我沒接觸之前,它給我的印象是用來優(yōu)化網(wǎng)絡(luò)請求的,我第一次用到CDN的時候是在找JS文件時。當(dāng)時找不到相對應(yīng)的JS文件...

    番茄西紅柿 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<