成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

[新手開源] 爬取韓寒“一個(gè)”文章且自動(dòng)郵件發(fā)送功能

zhkai / 1495人閱讀

摘要:源碼地址準(zhǔn)備一臺云服務(wù)器寫好的腳本效果因?yàn)楝F(xiàn)在一個(gè)的客戶端啟動(dòng)越來越慢,而且很多自己不感興趣的東西我只是想看看文章,所以就寫了這個(gè)小爬蟲。因?yàn)橐粋€(gè)是每天點(diǎn)會更新,所以自己的服務(wù)器要做一個(gè)定時(shí)服務(wù),下自帶了定時(shí)任務(wù)。

源碼地址:https://github.com/xcc3641/pySendOneToEmail

準(zhǔn)備

一臺云服務(wù)器

寫好的Python腳本

效果

因?yàn)楝F(xiàn)在“一個(gè)”的Android客戶端啟動(dòng)越來越慢,而且很多自己不感興趣的東西(我只是想看看文章),所以就寫了這個(gè)小爬蟲。它可以在“一個(gè)”更新后把我要的內(nèi)容發(fā)到我的郵箱里。

放在云服務(wù)器里,所以不用擔(dān)心電費(fèi)啊其他問題~

實(shí)踐 云服務(wù)器

自己配置的是阿里云的服務(wù)器,學(xué)生特惠9.9,Ubuntu系統(tǒng)。這個(gè)系統(tǒng)自帶了Python2.7環(huán)境,所以不用自己手動(dòng)去安裝。

本地是用的Window10系統(tǒng),最好安裝下SecureCRSecureFXPortable。遠(yuǎn)程連接自己的服務(wù)器,而且命令行和文件操作會簡便很多。

因?yàn)椤耙粋€(gè)”是每天22點(diǎn)會更新,所以自己的服務(wù)器要做一個(gè)定時(shí)服務(wù),ubuntu下自帶了Crontab定時(shí)任務(wù)。

配置Crontab

加入需要執(zhí)行的腳本

crontab -e
1 22 * * * 路徑/python 路徑/xxx.py
保存重啟 /etc/init.d/cron restart

Python最好寫全路徑,這是一個(gè)坑

需要在root用戶下進(jìn)行

具體的Crontab可以參考Crontab

Python代碼

這里主要是用到了python自帶的郵件服務(wù)的庫和第三方網(wǎng)絡(luò)解析庫,代碼量不多而且也不難,有編程基礎(chǔ)的很容易學(xué)會。

郵件相關(guān)

郵件類庫

   from email.mime.multipart import MIMEMultipart
   from email.header import Header
   from email.mime.text import MIMEText
   from email.utils import parseaddr, formataddr
   import smtplib

配置郵件&發(fā)送郵件的關(guān)鍵代碼

    msg = MIMEMultipart()

    msg["From"] = _format_addr(u"Xie CC <%s>" % from_addr)
    msg["To"] = _format_addr(u"管理員 <%s>" % to_addr)
    msg["Subject"] = Header(u"The One    " + title, "utf-8").encode()

    msg.attach(MIMEText("


" + text + "






" + story + "", "html", "utf-8")) server = smtplib.SMTP(smtp_server, 25) server.set_debuglevel(1) server.login(from_addr, password) server.sendmail(from_addr, [to_addr], msg.as_string()) server.quit()

這里自己就不詳細(xì)介紹這個(gè)庫,具體可以參考這個(gè)教程,Python不是很難理解.

爬取信息

類庫

   import requests
   from bs4 import BeautifulSoup

有一次用urllib,urllib2發(fā)現(xiàn)會遇到各種編碼問題需要自己去解決,特別煩人。然后轉(zhuǎn)到了requests這個(gè)庫,完全沒有遇到像url那樣惡心的編碼問題,而且很多需求都可以滿足,所以后面爬靜態(tài)網(wǎng)頁都習(xí)慣用這個(gè)庫了。

以前還是蠻喜歡用正則的,這次就學(xué)習(xí)了下bs4的用法,感覺還是挺容易上手的。具體的實(shí)現(xiàn)都不難,都是基礎(chǔ)的爬蟲知識,而且“一個(gè)”并沒有反爬蟲的設(shè)定,所以蠻適合初學(xué)者的。

用工具方便自己,我覺得這就是自己編程的意義,這讓我很開心。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37744.html

相關(guān)文章

  • nodeJS實(shí)現(xiàn)基于Promise爬蟲 定時(shí)發(fā)送信息到指定郵件

    摘要:也就是說,我的篇文章的請求對應(yīng)個(gè)實(shí)例,這些實(shí)例都請求完畢后,執(zhí)行以下邏輯他的目的在于對每一個(gè)返回值這個(gè)返回值為單篇文章的內(nèi)容,進(jìn)行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導(dǎo)致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點(diǎn)在于,這是個(gè)nodejs腳本,非常短,包括注釋只有71行。 ...

    xuweijian 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<