成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

郵件信息抽取

codercao / 3005人閱讀

摘要:公司的一個(gè)項(xiàng)目,首先需要過濾一下郵件郵件的主要內(nèi)容就是應(yīng)聘信息當(dāng)然會產(chǎn)生很多的垃圾郵件,比如智聯(lián)招聘發(fā)的廣告獵頭郵件和網(wǎng)易廣告等這里首先要過濾一下郵件,把沒有用處的垃圾郵件過濾掉本著先易后難的原則,首先使用簡單的過濾方法簡單的說就是根據(jù)標(biāo)題

公司的一個(gè)項(xiàng)目,首先需要過濾一下郵件
郵件的主要內(nèi)容就是應(yīng)聘信息
當(dāng)然會產(chǎn)生很多的垃圾郵件,比如智聯(lián)招聘發(fā)的廣告、獵頭郵件和網(wǎng)易廣告等
這里首先要過濾一下郵件,把沒有用處的垃圾郵件過濾掉

本著先易后難的原則,首先使用簡單的過濾方法
簡單的說就是根據(jù)標(biāo)題中的關(guān)鍵詞,發(fā)件人郵箱來過濾郵件
這樣的過濾方法其實(shí)過濾的準(zhǔn)確性還是挺高的

當(dāng)然啦,準(zhǔn)確率和召回率可能還是要差一點(diǎn)的

經(jīng)過初步過濾之后,接下來要做的就是信息的抽取

這個(gè)東西難度較大,
抽取的東西有地址、人名、公司名、職位、聯(lián)系方式等
機(jī)器識別畢竟無法達(dá)到人類的高度

本次開發(fā)中主要使用python來做,這里寫一下python項(xiàng)目需要注意的問題

1、不要濫用try ... except .....

 感覺這個(gè)問題很嚴(yán)重,如果濫用,而且還沒處理好的話,出了問題根   
 本就無法調(diào)試,返回錯(cuò)誤如果不對的話根本就無法追蹤

2、要注意編碼問題

 在使用python處理中文的時(shí)候,編碼問題是格外重要,不過python的
 編碼還是比較簡單,我遇到的有g(shù)bk、gb18030、gb2312、utf8這幾
 種使用的時(shí)候統(tǒng)一轉(zhuǎn)為utf8比較方便

3、時(shí)間的處理

 這個(gè)還是比較麻煩的,郵件中的時(shí)間都是字符串類型,關(guān)鍵是要知道
 怎么去轉(zhuǎn)化,例如:
 Wed, 2 Mar 2016 14:31:24 +0800 (CST)
 這里面的Wed, 2 Mar 2016 14:31:24部分,可以通過以下方式來做
 time.strptime("Wed, 2 Mar 2016 14:31:24", "%a,%d %b %Y %H:%M:%S")
 這樣也能生成一個(gè)time的對象
 缺點(diǎn)就是需要截取一部分,而且不知道時(shí)間格式是否會變化,如果變化的話那也是要出問題的
 
 這里面email模塊提供了一個(gè)解析的方法
 from email import utils
 utils.mktime_tz(utils.parsedate_tz(timestr))
 這樣返回的是時(shí)間戳,然后再用
 time.localtime(stamptime)
 就可以返回正常的時(shí)間格式了
 其實(shí)email的utils方法提供了很多的解析郵件的方法,比如:
 utils.parseaddr()就可以把msg.get("From")里面的內(nèi)容解析成郵箱 

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37784.html

相關(guān)文章

  • 邀好友贏大獎(jiǎng)!快來抽取你的 2019 新年上上簽!

    摘要:為保證活動(dòng)的公平公正,對任何惡意刷量的行為,七牛云有停止發(fā)放抽獎(jiǎng)機(jī)會及收回獎(jiǎng)勵(lì)資源的權(quán)利。邀好友,抽好簽,贏好禮進(jìn)入七牛云官網(wǎng)立即參與牛小七提前祝大家年,新年快樂 還有不到一個(gè)星期,2019 年就將正式「官宣」。值此之際,七牛云特別推出【好運(yùn)+好禮】新年上上簽活動(dòng)~不僅有好運(yùn)好彩頭,還有超多驚喜好禮等你拿。天貓購物卡、七牛云產(chǎn)品優(yōu)惠包、櫻桃機(jī)械鍵盤、終極大獎(jiǎng) iPhone Xs 256...

    dailybird 評論0 收藏0
  • CodeIgniter框架中抽取部分類庫做問題追蹤的思路

    摘要:背景由于各種原因,沒有接入完整的調(diào)用鏈追蹤,。顯然,有基本的操作。抽取整個(gè)對象的所有對象實(shí)例隊(duì)列中的結(jié)果不足框架中不可避免的使用了操作,或者其他業(yè)務(wù)代碼中也使用。這樣導(dǎo)致鉤子函數(shù)無法正常完成他的使用。 背景 由于各種原因,沒有接入完整的調(diào)用鏈追蹤,(┬_┬)。但是我們自身再通過php的curl調(diào)用各端接口時(shí),會請求多次。那么有沒有一種方法可以在不植入業(yè)務(wù)代碼的前提下,捕捉到這些curl...

    沈儉 評論0 收藏0
  • thinkphp5+swoole實(shí)現(xiàn)異步郵件群發(fā)(SMTP方式)

    摘要:圖中其他兩個(gè)文件和是郵件發(fā)送類的核心文件,為了簡化調(diào)用,抽取了出來,詳細(xì)的用法和參數(shù)設(shè)置,可以參考的使用說明注意點(diǎn)在此步驟中,我們需要注意幾點(diǎn)是你設(shè)置的郵件發(fā)送的賬號是否已經(jīng)開啟并且找對對應(yīng)的安全協(xié)議和端口號。 1、環(huán)境說明 阿里云centos7thinkphp5.0.11swoole2.0.8 2、tp實(shí)現(xiàn)郵件發(fā)送 在項(xiàng)目下建立如下的文件目錄:showImg(https://segm...

    tuniutech 評論0 收藏0
  • scrapy 進(jìn)階使用

    摘要:下載器負(fù)責(zé)獲取頁面,然后將它們交給引擎來處理。內(nèi)置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請求和響應(yīng)對象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個(gè)字典來配置。 前段時(shí)間我寫了一篇《scrapy快速入門》,簡單介紹了一點(diǎn)scrapy的知識。最近我的搬瓦工讓墻了,而且我又學(xué)了一點(diǎn)mongodb的知識,所以這次就來介紹一些scr...

    The question 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<