摘要:公司的一個(gè)項(xiàng)目,首先需要過濾一下郵件郵件的主要內(nèi)容就是應(yīng)聘信息當(dāng)然會產(chǎn)生很多的垃圾郵件,比如智聯(lián)招聘發(fā)的廣告獵頭郵件和網(wǎng)易廣告等這里首先要過濾一下郵件,把沒有用處的垃圾郵件過濾掉本著先易后難的原則,首先使用簡單的過濾方法簡單的說就是根據(jù)標(biāo)題
公司的一個(gè)項(xiàng)目,首先需要過濾一下郵件
郵件的主要內(nèi)容就是應(yīng)聘信息
當(dāng)然會產(chǎn)生很多的垃圾郵件,比如智聯(lián)招聘發(fā)的廣告、獵頭郵件和網(wǎng)易廣告等
這里首先要過濾一下郵件,把沒有用處的垃圾郵件過濾掉
本著先易后難的原則,首先使用簡單的過濾方法
簡單的說就是根據(jù)標(biāo)題中的關(guān)鍵詞,發(fā)件人郵箱來過濾郵件
這樣的過濾方法其實(shí)過濾的準(zhǔn)確性還是挺高的
當(dāng)然啦,準(zhǔn)確率和召回率可能還是要差一點(diǎn)的
經(jīng)過初步過濾之后,接下來要做的就是信息的抽取
這個(gè)東西難度較大,
抽取的東西有地址、人名、公司名、職位、聯(lián)系方式等
機(jī)器識別畢竟無法達(dá)到人類的高度
本次開發(fā)中主要使用python來做,這里寫一下python項(xiàng)目需要注意的問題
1、不要濫用try ... except .....
感覺這個(gè)問題很嚴(yán)重,如果濫用,而且還沒處理好的話,出了問題根 本就無法調(diào)試,返回錯(cuò)誤如果不對的話根本就無法追蹤
2、要注意編碼問題
在使用python處理中文的時(shí)候,編碼問題是格外重要,不過python的 編碼還是比較簡單,我遇到的有g(shù)bk、gb18030、gb2312、utf8這幾 種使用的時(shí)候統(tǒng)一轉(zhuǎn)為utf8比較方便
3、時(shí)間的處理
這個(gè)還是比較麻煩的,郵件中的時(shí)間都是字符串類型,關(guān)鍵是要知道 怎么去轉(zhuǎn)化,例如: Wed, 2 Mar 2016 14:31:24 +0800 (CST) 這里面的Wed, 2 Mar 2016 14:31:24部分,可以通過以下方式來做 time.strptime("Wed, 2 Mar 2016 14:31:24", "%a,%d %b %Y %H:%M:%S") 這樣也能生成一個(gè)time的對象 缺點(diǎn)就是需要截取一部分,而且不知道時(shí)間格式是否會變化,如果變化的話那也是要出問題的 這里面email模塊提供了一個(gè)解析的方法 from email import utils utils.mktime_tz(utils.parsedate_tz(timestr)) 這樣返回的是時(shí)間戳,然后再用 time.localtime(stamptime) 就可以返回正常的時(shí)間格式了 其實(shí)email的utils方法提供了很多的解析郵件的方法,比如: utils.parseaddr()就可以把msg.get("From")里面的內(nèi)容解析成郵箱
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37784.html
摘要:為保證活動(dòng)的公平公正,對任何惡意刷量的行為,七牛云有停止發(fā)放抽獎(jiǎng)機(jī)會及收回獎(jiǎng)勵(lì)資源的權(quán)利。邀好友,抽好簽,贏好禮進(jìn)入七牛云官網(wǎng)立即參與牛小七提前祝大家年,新年快樂 還有不到一個(gè)星期,2019 年就將正式「官宣」。值此之際,七牛云特別推出【好運(yùn)+好禮】新年上上簽活動(dòng)~不僅有好運(yùn)好彩頭,還有超多驚喜好禮等你拿。天貓購物卡、七牛云產(chǎn)品優(yōu)惠包、櫻桃機(jī)械鍵盤、終極大獎(jiǎng) iPhone Xs 256...
摘要:背景由于各種原因,沒有接入完整的調(diào)用鏈追蹤,。顯然,有基本的操作。抽取整個(gè)對象的所有對象實(shí)例隊(duì)列中的結(jié)果不足框架中不可避免的使用了操作,或者其他業(yè)務(wù)代碼中也使用。這樣導(dǎo)致鉤子函數(shù)無法正常完成他的使用。 背景 由于各種原因,沒有接入完整的調(diào)用鏈追蹤,(┬_┬)。但是我們自身再通過php的curl調(diào)用各端接口時(shí),會請求多次。那么有沒有一種方法可以在不植入業(yè)務(wù)代碼的前提下,捕捉到這些curl...
摘要:圖中其他兩個(gè)文件和是郵件發(fā)送類的核心文件,為了簡化調(diào)用,抽取了出來,詳細(xì)的用法和參數(shù)設(shè)置,可以參考的使用說明注意點(diǎn)在此步驟中,我們需要注意幾點(diǎn)是你設(shè)置的郵件發(fā)送的賬號是否已經(jīng)開啟并且找對對應(yīng)的安全協(xié)議和端口號。 1、環(huán)境說明 阿里云centos7thinkphp5.0.11swoole2.0.8 2、tp實(shí)現(xiàn)郵件發(fā)送 在項(xiàng)目下建立如下的文件目錄:showImg(https://segm...
摘要:下載器負(fù)責(zé)獲取頁面,然后將它們交給引擎來處理。內(nèi)置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請求和響應(yīng)對象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個(gè)字典來配置。 前段時(shí)間我寫了一篇《scrapy快速入門》,簡單介紹了一點(diǎn)scrapy的知識。最近我的搬瓦工讓墻了,而且我又學(xué)了一點(diǎn)mongodb的知識,所以這次就來介紹一些scr...
閱讀 1255·2021-09-01 10:30
閱讀 2133·2021-07-23 10:38
閱讀 907·2019-08-29 15:06
閱讀 3161·2019-08-29 13:53
閱讀 3284·2019-08-26 11:54
閱讀 1837·2019-08-26 11:38
閱讀 2379·2019-08-26 10:29
閱讀 3134·2019-08-23 18:15