摘要:使用文件分析數(shù)據(jù)遇到的問題有時候到手的數(shù)據(jù)基本是固定分隔符分隔的幾個文件,需要重里面做一些數(shù)據(jù)統(tǒng)計,比如去重,計算某一列的和,兩個文件的并集等等,如果能夠像一樣操作文件就好了,這就是帶來的好處如何加載文件示例文件數(shù)據(jù)安裝好在文件目錄中運行在
使用txt文件分析數(shù)據(jù)遇到的問題
有時候到手的數(shù)據(jù)基本是固定分隔符分隔的幾個文件,需要重里面做一些數(shù)據(jù)統(tǒng)計,比如去重,計算某一列的和,兩個文件的并集等等,如果能夠像sql一樣操作txt文件就好了,這就是pandas帶來的好處
如何加載txt文件?示例文件數(shù)據(jù) papa.txt
paxi_id grade 1 50 2 50 3 100 4 200 3 100 5 100
安裝好jupyter ,在文件目錄中運行jupyter notebook,在打開的瀏覽器界面上,選擇python運行
在打開的界面上,運行加載的命令
import pandas #引入pandas papa=pandas.read_csv("papa.txt",sep=" ") #加載papa.txt,指定它的分隔符是 papa.head() #顯示數(shù)據(jù)的前幾行
可以看到加載的結(jié)果直觀的用表格展示
如何知道剛加載的數(shù)據(jù)有幾行?有幾列?運行指令如下
rowNum=papa.shape[0] #不包括表頭 colNum=papa.columns.size
結(jié)果為
如何根據(jù)一列對整個數(shù)據(jù)進行去重?運行指令如下
uPapa=papa.drop_duplicates(["paxi_id"])
結(jié)果如下
運行指令如下
uPaxiId=papa["paxi_id"].unique() print("uPaxiId:",uPaxiId) totalUPaxiIdNum=uPaxiId.size print("num:",totalUPaxiIdNum)
運行結(jié)果如下
如何計算一列的和?運行指令如下
papa["grade"].sum()
結(jié)果如下
如何過濾特定的值的行?運行指令如下
papa[ ( papa["grade"] == 50 ) | ( papa["grade"] == 100 ) ]
結(jié)果如下
如何計算某一列各個取值的個數(shù)?運行指令如下
gPapa=papa.groupby("grade").size()
結(jié)果如下
如何計算其中兩個或者所有的和?運行指令如下
v=gPapa[50]+gPapa[100] print("兩個的和:",v) print("總和:",gPapa.sum())
結(jié)果如下
如何用圖形表示各個值?運行指令如下
import matplotlib.pyplot as plt fig=plt.figure() gPapa.plot(kind="bar",grid=True) #bar 和 barh 能切換x軸,y軸 plt.show() #在需要顯示的時候調(diào)用,會一次把所有的圖都畫出來
結(jié)果如下
如何對兩個txt的文件根據(jù)一列做join?另一個文件為xixi.txt
paxi_id type 1 3 2 4 3 3 4 4 5 3
執(zhí)行指令如下
xixi=pandas.read_csv("xixi.txt",sep=" ") uXixi=xixi.drop_duplicates(["paxi_id"]) pandas.merge(uPapa,uXixi,on=["paxi_id"]) #join
結(jié)果如下
https://pandas.pydata.org/pan... 有教程~
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41892.html
摘要:三個常用的虛擬環(huán)境配置來匯總,如有不適之處,還望各位大佬指正。一個項目對應一個,支持開發(fā)環(huán)境與正式環(huán)境區(qū)分。其使用創(chuàng)建環(huán)境,以便分隔使用不同版本和不同程序包的項目。 前言 和其他大多數(shù)現(xiàn)代編程語言一樣,Python對包和 模塊的下載、存儲以及管理有其自己的一套方法。但是當我們同時開發(fā)多個項目工程的時候,不同的項目會將第三方的包存放在相同的路徑下。這就意味著,如果有兩個工程依賴同一個包,但是所...
摘要:網(wǎng)址庫的安裝和使用自帶了等深度學習基礎庫。遍歷目錄列出根目錄的所有文件查詢條件教程詳見可以看到控制臺打印結(jié)果測試其中是接下來的教程獲取文件的唯一標識。該示例演示的是對健康科技設計三個類別的標題進行分類。 showImg(https://segmentfault.com/img/remote/1460000012731670); 原文鏈接 https://jinkey.ai/post/t...
摘要:大多數(shù)模板實現(xiàn)原理基本一致模板字符串首先通過各種手段剝離出普通字符串和模板語法字符串生成抽象語法樹然后針對模板語法片段進行編譯,期間模板變量均去引擎輸入的變量中查找模板語法片段生成出普通片段,與原始普通字符串進行拼接輸出。 前端模板的發(fā)展 模板可以說是前端開發(fā)最常接觸的工具之一。將頁面固定不變的內(nèi)容抽出成模板,服務端返回的動態(tài)數(shù)據(jù)裝填到模板中預留的坑位,最后組裝成完整的頁面html字符...
閱讀 2789·2021-11-02 14:42
閱讀 3172·2021-10-08 10:04
閱讀 1193·2019-08-30 15:55
閱讀 1036·2019-08-30 15:54
閱讀 2327·2019-08-30 15:43
閱讀 1688·2019-08-29 15:18
閱讀 871·2019-08-29 11:11
閱讀 2370·2019-08-26 13:52