成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

詳細(xì)說明Python中的信息清潔工具flashtext

89542767 / 530人閱讀

  FlashText是GitHub上的另一個(gè)開源系統(tǒng)Python庫(kù),如同以前提到的,他在獲得關(guān)鍵字和更換關(guān)鍵字每日任務(wù)上具有非常高的特性。本文詳細(xì)說明一下下flashtext的應(yīng)用,所需要的可以了解一下


  在平時(shí)的些的較小規(guī)模的信息的過慮、清理環(huán)節(jié)中應(yīng)用比較多的是正則匹配,但隨著數(shù)據(jù)量級(jí)的擴(kuò)大,正則匹配也顯得有一些力不從心了。


  正則匹配在這個(gè)10k的詞庫(kù)文件中檢索15k個(gè)關(guān)鍵字的時(shí)長(zhǎng)大概是0.165秒。但對(duì)于Flashtext來講只需0.002秒。因而,在這件事情上Flashtext的速率大概比正則匹配快82倍。

01.png

  從上述的示例圖的性能評(píng)測(cè)中,不難發(fā)現(xiàn)伴隨著我們應(yīng)該處理標(biāo)識(shí)符愈來愈多,正則匹配的響應(yīng)速度大部分都是線形增大的。但是,F(xiàn)lashtext基本上是個(gè)變量定義。


  1、提前準(zhǔn)備flashtext環(huán)境


  根據(jù)pip的方法來組裝flashtext,或是其他的方式也可以的,這兒默認(rèn)設(shè)置采用的是清華大學(xué)的鏡像站。

  pipinstallflashtext-ihttps://pypi.tuna.tsinghua.edu.cn/simple


  2、加詞


  這兒加詞時(shí)是由多帶帶關(guān)鍵字的來導(dǎo)入到關(guān)鍵詞詞庫(kù)中,使用add_keyword函數(shù)公式來加上。初次主要參數(shù)表明必須加上核心關(guān)鍵詞,下一個(gè)主要參數(shù)也表示為第一位關(guān)鍵字的別稱,如果關(guān)鍵詞被找到則顯示的是別稱的方式,要是沒有應(yīng)用下一個(gè)主要參數(shù)做為別稱則或者表明原先的名字。


  fromflashtextimportKeywordProcessor
  #復(fù)位關(guān)鍵詞詞庫(kù)Cpu
  processor=KeywordProcessor()
  #基本方法加詞
  processor.add_keyword('Python')
  #別稱方法加詞
  processor.add_keyword('Scala','Java')


  那樣各自應(yīng)用兩種形式已將必須核心關(guān)鍵詞導(dǎo)入到詞庫(kù)文件Cpu中獎(jiǎng)了。


  3、提取關(guān)鍵詞


  根據(jù)上一層樓加詞,如今詞庫(kù)文件Cpu里已經(jīng)存有有關(guān)鍵字的內(nèi)容了,再使用extract_keywords將關(guān)鍵詞提取出去就可以。


  #在這個(gè)字符串?dāng)?shù)組中獲取出關(guān)鍵字信息內(nèi)容
  found=processor.extract_keywords('IlikePythonandScala.')
  #結(jié)論
  print(found)
  #['Python','Java']

  結(jié)果公示,和我們預(yù)料的都是一樣的,并Scala也表明為了能Java。


  4、更換關(guān)鍵字


  更換關(guān)鍵字所使用的是replace_keywords函數(shù),基礎(chǔ)是詞庫(kù)文件中具有別稱的詞匯才會(huì)被更換,如同上邊的Scala被表明變成的Java相同。


  更換1個(gè)字符串?dāng)?shù)組里的Scala關(guān)鍵字,因?yàn)镾cala對(duì)相對(duì)應(yīng)的別稱是Java,而一個(gè)字符串?dāng)?shù)組里的Scala需要被更換為Java。


  replaced=processor.replace_keywords('IlikeScala.')
  #結(jié)論
  print(replaced)
  #IlikeJava.
  #Scala果然便被更換為了能Java。


  5、獲得所有關(guān)鍵字


  有的時(shí)候,在KeywordProcessor詞庫(kù)文件Cpu中加了什么關(guān)鍵字可能他都記不清楚了,這時(shí)候能使用get_all_keywords函數(shù)來獲得現(xiàn)階段的所有關(guān)鍵字。


  all_keywords=processor.get_all_keywords()
  #結(jié)論
  print(all_keywords)
  #{'python':'Python','scala':'Java'}


  6、大批量加詞


  當(dāng)關(guān)鍵詞詞庫(kù)需要更多關(guān)鍵字的情況下,能通過目錄或者詞典的形式進(jìn)行大批量加上。相對(duì)應(yīng)的函數(shù)公式各自是add_keywords_from_list、add_keywords_from_dict函數(shù)。


  #復(fù)位1個(gè)詞典根據(jù)用來做批量添加
  dict_={
  'java':['java_ee','java_se','java_me'],
  'python':['pandas','all']
  }
  #根據(jù)詞典的方式去大批量加詞
  processor.add_keywords_from_dict(dict_)
  #從批量添加核心關(guān)鍵詞中搭配關(guān)鍵字
  result=processor.extract_keywords('lookingforjava_eeandpandas.')
  #結(jié)論
  print(result)
  #['java','python']
  #根據(jù)目錄的方式大批量加詞
  processor.add_keywords_from_list(['scala','python','scala','go'])
  #根據(jù)get_all_keywords查詢一下所有關(guān)鍵字
  all_keywords=processor.get_all_keywords()
  #結(jié)論
  print(all_keywords)
  #{'python':'python','pandas':'python','scala':'scala','java_ee':'java','java_se':'java','java_me':'java','all':'python','go':'go'}


  發(fā)覺所有核心關(guān)鍵詞早已導(dǎo)入到詞庫(kù)文件Cpu中,而且重復(fù)不容易再度加上。


  7、批量刪除關(guān)鍵字


  批量刪除詞庫(kù)文件Cpu中核心關(guān)鍵詞同是主要有兩種方式,有一個(gè)是目錄、另一個(gè)就是詞典。相對(duì)應(yīng)的函數(shù)公式各自是remove_keywords_from_list、remove_keywords_from_dict函數(shù)。


  #大批量移出頁(yè)面上核心關(guān)鍵詞
  processor.remove_keywords_from_list(['python','java_ee','java_me'])
  #大批量移出詞典中核心關(guān)鍵詞
  processor.remove_keywords_from_dict({'python':['pandas','all']})
  #根據(jù)get_all_keywords查詢一下所有關(guān)鍵字
  all_keywords=processor.get_all_keywords()
  #結(jié)論
  print(all_keywords)
  #{'scala':'scala','java_se':'java','go':'go'}


  發(fā)覺必須移出核心關(guān)鍵詞早已被所有移除開。


  8、開發(fā)效率比照


  能夠更豐厚的視覺效果,找了一個(gè)兩個(gè)flashtext在檢索和更換關(guān)鍵字過程的高效率前后對(duì)比能夠簡(jiǎn)單明了。

01.png

02.png

  flashtext、正則匹配檢索高效率比照

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/129079.html

相關(guān)文章

  • 詳細(xì)說明Python中的信息清潔工具flashtext

      FlashText是GitHub上的另一個(gè)開源系統(tǒng)Python庫(kù),如同以前提到的,他在獲得關(guān)鍵字和更換關(guān)鍵字每日任務(wù)上具有非常高的特性。本文詳細(xì)說明一下下flashtext的應(yīng)用,所需要的可以了解一下  在平時(shí)的些的較小規(guī)模的信息的過慮、清理環(huán)節(jié)中應(yīng)用最多的是正則匹配,但隨著數(shù)據(jù)量級(jí)的擴(kuò)大,正則匹配也顯得有一些力不從心了?! ≌齽t匹配在這個(gè)10k的詞典中查尋15k個(gè)關(guān)鍵字的時(shí)長(zhǎng)大概是0.165...

    89542767 評(píng)論0 收藏0
  • 自制小工具大大加速M(fèi)ySQL SQL語(yǔ)句優(yōu)化(附源碼)

    摘要:如果語(yǔ)句中使用了子查詢集合操作臨時(shí)表等情況,會(huì)給列帶來很大的復(fù)雜性。會(huì)遞歸執(zhí)行這些子查詢,把結(jié)果放在臨時(shí)表里。查詢優(yōu)化器從中所選擇使用的索引。該字段顯示了查詢優(yōu)化器通過系統(tǒng)收集的統(tǒng)計(jì)信息估算出來的結(jié)果集記錄條數(shù)。 引言 優(yōu)化SQL,是DBA常見的工作之一。如何高效、快速地優(yōu)化一條語(yǔ)句,是每個(gè)DBA經(jīng)常要面對(duì)的一個(gè)問題。在日常的優(yōu)化工作中,我發(fā)現(xiàn)有很多操作是在優(yōu)化過程中必不可少的步驟。然...

    Hujiawei 評(píng)論0 收藏0
  • 詳細(xì)Python實(shí)現(xiàn)新浪微博模擬登陸(小白都能懂)

    摘要:可能有的老手覺得我寫得很啰嗦,但其實(shí)很多新手可能都不知道這些細(xì)節(jié),所以我把我在分析新浪微博模擬登陸的過程全寫了出來。 這篇文章于去年4月發(fā)布在我的簡(jiǎn)書,現(xiàn)在把它放到這里,主要是為了宣傳自己的分布式微博爬蟲。下面是主要內(nèi)容,希望能幫到有這個(gè)需求的朋友 最近由于需要一直在研究微博的爬蟲,第一步便是模擬登陸,從開始摸索到走通模擬登陸這條路其實(shí)還是挺艱難的,需要一定的經(jīng)驗(yàn),為了讓朋友們以后少...

    Aldous 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<