摘要:先將里面的表格預(yù)處理清理下復(fù)雜格式把第一行置為英文字段名將導(dǎo)出為格式這時在中導(dǎo)入會提示是因?yàn)闀褂孟到y(tǒng)編碼到處的文件編碼在中使用系統(tǒng)自帶的轉(zhuǎn)換該文件為格式具體參數(shù)可以參考這樣轉(zhuǎn)換好的文件就是使用導(dǎo)入安裝即自帶導(dǎo)入工具
先將excel里面的表格預(yù)處理,清理下復(fù)雜格式,把第一行置為英文字段名
將xls導(dǎo)出為csv格式: points.csv
這時在mongoimport中導(dǎo)入會提示:
exception:Invalid UTF8 character detected
是因?yàn)閑xcel會使用系統(tǒng)編碼到處GBK的文件編碼.
在linux-mint中,使用系統(tǒng)自帶的iconv轉(zhuǎn)換該文件為utf8格式
iconv -f gbk -t UTF-8 points.csv > points_utf8.csv
具體參數(shù)可以參考:
iconv --help
這樣轉(zhuǎn)換好的文件就是points_utf8.csv
使用mongoimport導(dǎo)入(安裝mongodb即自帶導(dǎo)入工具)
mongoimport -d test -c students --type csv --file ./points_utf8.csv --headerline --upsert
同樣 具體參數(shù)解釋可以參見 mongoimport -h
points里面的內(nèi)容就會被轉(zhuǎn)換到mongodb:test db的students集合中.
每一行作為一個object有一個唯一的id,之前在表格中定義的headerline為key的document插入.
{ "_id" : ObjectId("553edfdac4e551239d3c975b"), "name" : "張三", "teamName" : "某某班", "ss1" : 12, "ss2" : "", "ss3" : 37, "ss4" : 45, "ss5" : "", "ss6" : "", "ss7" : 18, "ss8" : 24, "ss9" : 17, "ss10" : 11, "ss11" : 9, "ss12" : 15, "ss13" : 10, "ss14" : 13, "ss15" : 24, "ss16" : 26, "po1" : 21, "po2" : 38, "fn1" : "", "fn2" : 25, "fn3" : 23 }
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/18759.html
摘要:查看源碼下載頁面并處理提取數(shù)據(jù)觀察該網(wǎng)站結(jié)構(gòu)可知該頁面下所有電影包含在標(biāo)簽下。使用語句獲取該標(biāo)簽在標(biāo)簽中遍歷每個標(biāo)簽獲取單個電影的信息。以電影名字為例清洗數(shù)據(jù)其余部分詳見源碼頁面跳轉(zhuǎn)檢查后頁標(biāo)簽。 查看源碼 1 下載頁面并處理 DOWNLOAD_URL = http://movie.douban.com/top250/ html = requests.get(url).text tr...
閱讀 523·2021-10-09 09:44
閱讀 2108·2021-09-02 15:41
閱讀 3561·2019-08-30 15:53
閱讀 1840·2019-08-30 15:44
閱讀 1295·2019-08-30 13:10
閱讀 1202·2019-08-30 11:25
閱讀 1481·2019-08-30 10:51
閱讀 3372·2019-08-30 10:49