正在進(jìn)行NLP(自然語言處理)相關(guān)任務(wù)完成后,經(jīng)常碰到務(wù)必辨別并獲得省、大都市、行政區(qū)的需求。今天給大家介紹1個模塊,你只需將結(jié)構(gòu)體數(shù)組傳遞給這個模塊,他就可以給你返回這個結(jié)構(gòu)體數(shù)組內(nèi)的省、市、區(qū)關(guān)鍵詞,趕緊一起來了解一下
正在進(jìn)行NLP(自然語言處理)相關(guān)任務(wù)完成后,經(jīng)常碰到務(wù)必辨別并獲得省、大都市、行政區(qū)的需求。雖然自身依據(jù)關(guān)鍵詞表1個一個搜索也可以實(shí)現(xiàn)獲得目的,但必須要先搜集省份關(guān)鍵詞表,相對而言比較復(fù)雜。
今天給大家介紹1個模塊,你只需將結(jié)構(gòu)體數(shù)組傳遞給這個模塊,他就可以給你返回這個結(jié)構(gòu)體數(shù)組內(nèi)的省、市、區(qū)關(guān)鍵詞,并可以給你在圖片里標(biāo)出下去,它是Cpca模塊。
1.打算
開始前,你需要保證Python和pip已成功組裝電腦上,要是沒有,能夠網(wǎng)站訪問本文:超全Python組裝手冊開展組裝。
(可選擇1)假如你用了Python的目的在于數(shù)據(jù)統(tǒng)計(jì)分析,能直接組裝Anaconda,它自帶了Python和pip.
(可選擇2)除此之外,建議大家用VSCode在線編輯器,它有很多的優(yōu)勢
挑選下列任一種方法輸入指令組裝依靠:
1.Windows自然環(huán)境開啟Cmd(逐漸-運(yùn)作-CMD)。
2.MacOS自然環(huán)境開啟Terminal(command+空格符鍵入Terminal)。
3.假如你用的都是VSCode在線編輯器或Pycharm,能夠直接用頁面下方Terminal.
pipinstallcpca
留意,現(xiàn)階段cpca模塊僅適用Python3或以上版本號。
在windows上有可能出現(xiàn)類似如下所示難題:
Buildingwheelforpyahocorasick(setup.py)...error
先閱讀去免費(fèi)下載MicrosoftVisualC++BuildTools組裝VC++構(gòu)建工具,再重新pipinstallcpca,就可以處理問題。
2.基本使用
通過兩行代碼就能實(shí)現(xiàn)最基本的省市區(qū)提?。?/p>
#公眾號:Python實(shí)用寶典 #2022/06/23 import cpca location_str=[ "廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層", "特斯拉上海超級工廠是特斯拉汽車首座美國本土以外的超級工廠,位于中華人民共和國上海市。", "三星堆遺址位于中國四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址" ] df=cpca.transform(location_str) print(df)
效果如下:
省市區(qū)地址adcode
0廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層440304
1上海市None None。310000
2四川省德陽市廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址510681
注意第三條的廣漢市,cpca不僅識別到了語句中的縣級市廣漢市,還能自動匹配到其代管市的德陽市,不得不說非常強(qiáng)大。
如果你想獲知程序是從字符串的那個位置提取出省市區(qū)名的,可以添加一個pos_sensitive=True參數(shù):
#公眾號:Python實(shí)用寶典 #2022/06/23 import cpca location_str=[ "廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層", "特斯拉上海超級工廠是特斯拉汽車首座美國本土以外的超級工廠,位于中華人民共和國上海市。", "三星堆遺址位于中國四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址" ] df=cpca.transform(location_str,pos_sensitive=True) print(df) 效果如下: (base)G:push20220623>python 1.py 省市區(qū)地址adcode省_pos市_pos區(qū)_pos 0廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層440304 0 3 6 1上海市None None。310000 38-1-1 2四川省德陽市廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址510681 9-1 12 它標(biāo)記出了識別到省、市、區(qū)的關(guān)鍵位置(index),當(dāng)然如果是德陽市這種特殊的識別會被標(biāo)記為-1.
3.高級使用
它還可以從大段文本中批量識別多個地區(qū):
#公眾號:Python實(shí)用寶典 #2022/06/23 import cpca long_text="對一個城市的評價總會包含個人的感情。如果你喜歡一個城市,很有可能是喜歡彼時彼地的自己。" "在廣州、香港讀過書,工作過,在深圳買過房、短暫生活過,去北京出了幾次差。" "想重點(diǎn)比較一下廣州、深圳和香港,順帶說一下北京??偟膩碚f,覺得廣州舒適、" "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。" df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True) print(df) 效果如下: (base)G:push20220623>python 1.py 省市區(qū)地址adcode省_pos市_pos區(qū)_pos 0廣東省廣州市None 440100-1 44-1 1香港特別行政區(qū)None None 810000 47-1-1 2廣東省深圳市None 440300-1 58-1 3北京市None None 110000 71-1-1 4廣東省廣州市None 440100-1 86-1 5廣東省深圳市None 440300-1 89-1 6香港特別行政區(qū)None None 810000 92-1-1 7北京市None None 110000 100-1-1 8廣東省廣州市None 440100-1 110-1 9香港特別行政區(qū)None None 810000 115-1-1 10廣東省深圳市None 440300-1 120-1 11北京市None None 110000 128-1-1 12廣東省廣州市None 440100-1 143-1 不僅如此,模塊中還自帶一些簡單繪圖工具,可以在地圖上將上面輸出的數(shù)據(jù)以熱力圖的形式畫出來: #公眾號:Python實(shí)用寶典 #2022/06/23 import cpca from cpca import drawer long_text="對一個城市的評價總會包含個人的感情。如果你喜歡一個城市,很有可能是喜歡彼時彼地的自己。" "在廣州、香港讀過書,工作過,在深圳買過房、短暫生活過,去北京出了幾次差。" "想重點(diǎn)比較一下廣州、深圳和香港,順帶說一下北京??偟膩碚f,覺得廣州舒適、" "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。" df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True) drawer.draw_locations(df[cpca._ADCODE],"df.html")
運(yùn)行的時候可能會報(bào)這個錯:
(base)G:push20220623>python 1.py Traceback(most recent call last): File"1.py",line 12,in<module> drawer.draw_locations(df[cpca._ADCODE],"df.html") File"G:Anaconda3libsite-packagescpcadrawer.py",line 41,in draw_locations import folium ModuleNotFoundError:No module named'folium' 使用pip安裝即可: pip install folium
然后重新運(yùn)行代碼,會在當(dāng)前目錄下生成df.html,雙擊打開,效果如下:
怎么用,是不是感覺非常方便?以后地點(diǎn)的識別用這個模塊就完全夠了。
還有更多的細(xì)節(jié)你可以訪問這個項(xiàng)目的Github主頁閱讀,該項(xiàng)目的README完全中文編寫,非常容易閱讀:
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/130266.html
摘要:基于此,我爬取了淘寶上多條月餅的銷售數(shù)據(jù),為大家展示了一幅漂亮的可視化大屏,解決大家心目中的問題。模塊的安裝與配置這次爬取淘寶,采用的是最簡單的方式控制瀏覽器進(jìn)行自動化操作,中途只需要掃碼登陸一次,即可完成整個數(shù)據(jù)的爬取。 ...
眾所周知,Python有著很強(qiáng)大的技術(shù)能力,比如,他可以進(jìn)行實(shí)戰(zhàn)繪圖,還有這很強(qiáng)的函數(shù)能力,可以進(jìn)行繪制散點(diǎn)圖,下面小編就具體的功能,給大家進(jìn)行詳細(xì)的介紹下?! ∫?、導(dǎo)入庫importmatplotlib.pyplotasplt 二.設(shè)置文字 plt.title("doublenumber",fontsize=24) plt.xlabel("number&...
摘要:本文作為學(xué)習(xí)過程中對一些常用知識點(diǎn)的整理,方便查找。所有繪圖操作僅對當(dāng)前圖和當(dāng)前坐標(biāo)有效。表示把圖標(biāo)分割成的網(wǎng)格。每個對象都是一個擁有自己坐標(biāo)系統(tǒng)的繪圖區(qū)域。避免比例壓縮為橢圓數(shù)據(jù)可視化入門教程繪圖核心剖析如何調(diào)整子圖的大小 本文作為學(xué)習(xí)過程中對matplotlib一些常用知識點(diǎn)的整理,方便查找。 強(qiáng)烈推薦ipython無論你工作在什么項(xiàng)目上,IPython都是值得推薦的。利用ipyt...
摘要:簡介同一樣,也是進(jìn)行數(shù)據(jù)可視化分析的重要第三方包。的五種繪圖風(fēng)格有五種的風(fēng)格,它們分別是。 作者:xiaoyu微信公眾號:Python數(shù)據(jù)科學(xué)知乎:python數(shù)據(jù)分析師 最近在做幾個項(xiàng)目的數(shù)據(jù)分析,每次用到seaborn進(jìn)行可視化繪圖的時候總是忘記具體操作。雖然seaborn的官方網(wǎng)站已經(jīng)詳細(xì)的介紹了使用方法,但是畢竟是英文,而且查找不是很方便。因此博主想從零開始將seaborn學(xué)...
此篇文章主要是闡述了如何運(yùn)用python完成Sim哈希算法,文章內(nèi)容依托于python的相關(guān)信息開展Sim哈希算法的詳細(xì)介紹一下,具有很強(qiáng)的參考意義,感興趣的朋友可以了解一下 1.為何需用Simhash? 傳統(tǒng)式相關(guān)性優(yōu)化算法:語義相似度測算,一般采用線性空間實(shí)體模型(VSM),先向文字中文分詞,提取特征,依據(jù)特點(diǎn)創(chuàng)建文字空間向量,把文字中間相關(guān)性測算轉(zhuǎn)化成矩陣的特征值之間的距離測算,如歐...
閱讀 892·2023-01-14 11:38
閱讀 837·2023-01-14 11:04
閱讀 688·2023-01-14 10:48
閱讀 1892·2023-01-14 10:34
閱讀 895·2023-01-14 10:24
閱讀 753·2023-01-14 10:18
閱讀 482·2023-01-14 10:09
閱讀 522·2023-01-14 10:02