摘要:源碼地址準(zhǔn)備一臺云服務(wù)器寫好的腳本效果因?yàn)楝F(xiàn)在一個(gè)的客戶端啟動(dòng)越來越慢,而且很多自己不感興趣的東西我只是想看看文章,所以就寫了這個(gè)小爬蟲。因?yàn)橐粋€(gè)是每天點(diǎn)會更新,所以自己的服務(wù)器要做一個(gè)定時(shí)服務(wù),下自帶了定時(shí)任務(wù)。
源碼地址:https://github.com/xcc3641/pySendOneToEmail
準(zhǔn)備一臺云服務(wù)器
寫好的Python腳本
效果因?yàn)楝F(xiàn)在“一個(gè)”的Android客戶端啟動(dòng)越來越慢,而且很多自己不感興趣的東西(我只是想看看文章),所以就寫了這個(gè)小爬蟲。它可以在“一個(gè)”更新后把我要的內(nèi)容發(fā)到我的郵箱里。
放在云服務(wù)器里,所以不用擔(dān)心電費(fèi)啊其他問題~
實(shí)踐 云服務(wù)器自己配置的是阿里云的服務(wù)器,學(xué)生特惠9.9,Ubuntu系統(tǒng)。這個(gè)系統(tǒng)自帶了Python2.7環(huán)境,所以不用自己手動(dòng)去安裝。
本地是用的Window10系統(tǒng),最好安裝下SecureCRSecureFXPortable。遠(yuǎn)程連接自己的服務(wù)器,而且命令行和文件操作會簡便很多。
因?yàn)椤耙粋€(gè)”是每天22點(diǎn)會更新,所以自己的服務(wù)器要做一個(gè)定時(shí)服務(wù),ubuntu下自帶了Crontab定時(shí)任務(wù)。
配置Crontab
加入需要執(zhí)行的腳本
crontab -e 1 22 * * * 路徑/python 路徑/xxx.py 保存重啟 /etc/init.d/cron restart
Python最好寫全路徑,這是一個(gè)坑
需要在root用戶下進(jìn)行
具體的Crontab可以參考Crontab
Python代碼這里主要是用到了python自帶的郵件服務(wù)的庫和第三方網(wǎng)絡(luò)解析庫,代碼量不多而且也不難,有編程基礎(chǔ)的很容易學(xué)會。
郵件相關(guān)郵件類庫
from email.mime.multipart import MIMEMultipart from email.header import Header from email.mime.text import MIMEText from email.utils import parseaddr, formataddr import smtplib
配置郵件&發(fā)送郵件的關(guān)鍵代碼
msg = MIMEMultipart() msg["From"] = _format_addr(u"Xie CC <%s>" % from_addr) msg["To"] = _format_addr(u"管理員 <%s>" % to_addr) msg["Subject"] = Header(u"The One " + title, "utf-8").encode() msg.attach(MIMEText("
" + text + "
" + story + "", "html", "utf-8")) server = smtplib.SMTP(smtp_server, 25) server.set_debuglevel(1) server.login(from_addr, password) server.sendmail(from_addr, [to_addr], msg.as_string()) server.quit()這里自己就不詳細(xì)介紹這個(gè)庫,具體可以參考這個(gè)教程,Python不是很難理解.
爬取信息類庫
import requests from bs4 import BeautifulSoup有一次用urllib,urllib2發(fā)現(xiàn)會遇到各種編碼問題需要自己去解決,特別煩人。然后轉(zhuǎn)到了requests這個(gè)庫,完全沒有遇到像url那樣惡心的編碼問題,而且很多需求都可以滿足,所以后面爬靜態(tài)網(wǎng)頁都習(xí)慣用這個(gè)庫了。
以前還是蠻喜歡用正則的,這次就學(xué)習(xí)了下bs4的用法,感覺還是挺容易上手的。具體的實(shí)現(xiàn)都不難,都是基礎(chǔ)的爬蟲知識,而且“一個(gè)”并沒有反爬蟲的設(shè)定,所以蠻適合初學(xué)者的。
用工具方便自己,我覺得這就是自己編程的意義,這讓我很開心。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37744.html
摘要:也就是說,我的篇文章的請求對應(yīng)個(gè)實(shí)例,這些實(shí)例都請求完畢后,執(zhí)行以下邏輯他的目的在于對每一個(gè)返回值這個(gè)返回值為單篇文章的內(nèi)容,進(jìn)行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導(dǎo)致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點(diǎn)在于,這是個(gè)nodejs腳本,非常短,包括注釋只有71行。 ...
閱讀 3579·2023-04-25 20:41
閱讀 2674·2023-04-25 16:40
閱讀 1444·2021-09-23 11:44
閱讀 1262·2021-09-10 10:51
閱讀 1691·2021-09-07 09:59
閱讀 1679·2019-12-27 12:08
閱讀 567·2019-08-30 15:44
閱讀 3344·2019-08-30 11:08