成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

python編程之制作省市縣名稱字典

darry / 3106人閱讀

摘要:準備字典文件為了更加準確的將失蹤地址中的省市縣三級單位提取出來,最好能夠直接以省市縣區(qū)的名稱為字典,這樣通過分詞以上的詞都能準確的切分出來。在網上搜索發(fā)現(xiàn),根據最新的國家統(tǒng)計區(qū)位碼之作的現(xiàn)成的字典文件,并沒有。

在失蹤兒童信息保存在本地之后,有一個字段是失蹤地點,字段內容通常比較詳細,具體到了失蹤的街道或者村,我打算通過某種方法將失蹤地點中的省、市、縣/區(qū)三級地址提取出來。

確定分詞技術

知道要干什么之后,那就將這個“某種方法”確定下來,根據以往的知識積累,利用分詞的原理來做,可能會更簡單。這次就不用php來寫了,換成python,在我的電腦上已經安裝了python的開發(fā)環(huán)境,在python下使用的分詞組件,搜索了一下,jieba用的比較多,而且調用也非常的容易。

準備字典文件

為了更加準確的將失蹤地址中的省、市、縣三級單位提取出來,最好能夠直接以省、市、縣、區(qū)的名稱為字典,這樣通過分詞99%以上的詞都能準確的切分出來。
在網上搜索發(fā)現(xiàn),根據最新的國家統(tǒng)計區(qū)位碼之作的現(xiàn)成的字典文件,并沒有。但是有同學之前開發(fā)過爬蟲將這些區(qū)位關系存在了mysql數據庫,并且在網上有他放出來的sql備份文件,下載下來恢復到數據庫中即可。
這個文件包含70多萬行數據,在導入數據庫的過程大約花了十來分鐘。數據表如下:

因此,還需要將數據表中province_name,city_name,county_name提取出來即可,逐行存入文件就成為可以使用的字典文件。

import pymysql

class AnManMysql:
    phost = "127.0.0.1"
    pyuer = "root"
    password = "123456"
    database = "anman_org"
    def pyMyConnection(phost,pyuser,password,database):
        db = pymysql.connect(phost,pyuser,password,database,charset="utf8")
        # cursor = db.cursor()
        return db

    # 導出省市縣鎮(zhèn)村字典
    def getDict(db):
        cursor = db.cursor()
        cursor.execute("select distinct province_name from j_position")
        data = cursor.fetchall()
        # 打開字典文件my.dict
        fo = open("my.dict","w+")
        for da in data:
            print(da[0])
            fo.seek(0,2)
            fo.write(da[0]+"
")
        print(len(data))
        cursor.execute("select distinct city_name from j_position")
        data = cursor.fetchall()
        for da in data:
            print(da[0])
            fo.seek(0, 2)
            fo.write(da[0] + "
")
        print(len(data))
        cursor.execute("select distinct county_name from j_position")
        data = cursor.fetchall()
        for da in data:
            print(da[0])
            fo.seek(0, 2)
            fo.write(da[0] + "
")
        print(len(data))
        cursor.execute("select distinct town_name from j_position")
        data = cursor.fetchall()
        for da in data:
            print(da[0])
            fo.seek(0, 2)
            fo.write(da[0] + "
")
        print(len(data))
        # cursor.execute("select distinct village_name,village_id from j_position")
        # data = cursor.fetchall()
        # for da in data:
        #     print(da[0])
        #     print(da[1])
        #     fo.seek(0, 2)
        #     fo.write(da[0] + "
")
        # print(len(data))
        fo.close()

在python里新建一個類,增加一個方法,打開一個字典文件,逐個從數據庫中distinct字段,然后逐行追加到字典文件中。

cursor = AnManMysql.pyMyConnection(AnManMysql.phost,AnManMysql.pyuer,AnManMysql.password,AnManMysql.database)
AnManMysql.getDict(cursor)
最后再來看看得到的字典文件

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/41623.html

相關文章

  • 【echarts地圖制作】下鉆到鄉(xiāng)鎮(zhèn)/街道級別的

    摘要:需求展示西安市各區(qū)縣的地圖,點擊各區(qū)縣下鉆到各鄉(xiāng)鎮(zhèn)街道,只能內網環(huán)境使用,不可用通過百度高德地圖來實現(xiàn)。利用展示自定義的地圖關于具體如何導入格式數據到的方法,可以參考官方示例。 需求 展示西安市各區(qū)縣的地圖,點擊各區(qū)縣下鉆到各鄉(xiāng)鎮(zhèn)/街道,只能內網環(huán)境使用,不可用通過百度/高德地圖來實現(xiàn)。 解決 利用地圖數據生成區(qū)域的geojson 網絡上大部分地圖數據只是到省市,最多到區(qū)縣,再往下的數...

    寵來也 評論0 收藏0
  • EXTJS-6.2.0示例-全國省市三級聯(lián)動(傳統(tǒng)組件方式)

    摘要:實現(xiàn)全國城市三級聯(lián)動傳統(tǒng)模式,監(jiān)聽下拉選擇框的事件實現(xiàn)全國城市三級聯(lián)動傳統(tǒng)方式省份請選擇城市請選擇區(qū)縣請選擇三級聯(lián)動用到的全國城市數據 extjs 6.2.0 實現(xiàn)全國城市三級聯(lián)動 傳統(tǒng)模式,監(jiān)聽下拉選擇框的change事件實現(xiàn) 全國城市三級聯(lián)動-傳統(tǒng)方式 function ge...

    greatwhole 評論0 收藏0
  • jquery移動端省市(區(qū))三級聯(lián)動插件

    摘要:寫省市區(qū)三級聯(lián)動插件的關鍵是在于你如何編寫自己的省市縣區(qū)文件,你要是把數據格式寫對了,可以很輕松的寫一省市區(qū)插件出來。 最近剛做完一個版本的項目,閑暇時間,就索性把項目中需要用到的插件都自己寫了一個,畢竟自己動手豐衣足食才是最重要,自己寫的,可以應對各種項目需求,今天又把手機端的省市區(qū)三級聯(lián)動選擇功能編寫了一個插件出來,代碼很簡單,樣式也是應用的跟日期時間選擇插件的一樣。寫省市區(qū)三級聯(lián)...

    Rocko 評論0 收藏0
  • jquery移動端省市(區(qū))三級聯(lián)動插件

    摘要:寫省市區(qū)三級聯(lián)動插件的關鍵是在于你如何編寫自己的省市縣區(qū)文件,你要是把數據格式寫對了,可以很輕松的寫一省市區(qū)插件出來。 最近剛做完一個版本的項目,閑暇時間,就索性把項目中需要用到的插件都自己寫了一個,畢竟自己動手豐衣足食才是最重要,自己寫的,可以應對各種項目需求,今天又把手機端的省市區(qū)三級聯(lián)動選擇功能編寫了一個插件出來,代碼很簡單,樣式也是應用的跟日期時間選擇插件的一樣。寫省市區(qū)三級聯(lián)...

    spacewander 評論0 收藏0

發(fā)表評論

0條評論

darry

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<