數(shù)據(jù)分析面試題之Pandas中的groupby

ThinkSNS 發(fā)布于2019-07-30 18:32 / 1753人閱讀

摘要：昨天晚上，筆者有幸參加了一場(chǎng)面試，有一個(gè)環(huán)節(jié)就是現(xiàn)場(chǎng)編程題目如下示例數(shù)據(jù)如下，求每名學(xué)生對(duì)應(yīng)的成績(jī)最高的那門科目與，用實(shí)現(xiàn)這個(gè)題目看上去很簡(jiǎn)單，其實(shí)，并不簡(jiǎn)單。

??昨天晚上，筆者有幸參加了一場(chǎng)面試，有一個(gè)環(huán)節(jié)就是現(xiàn)場(chǎng)編程！題目如下：
??示例數(shù)據(jù)如下，求每名學(xué)生（ID）對(duì)應(yīng)的成績(jī)（score）最高的那門科目（class）與ID，用Python實(shí)現(xiàn)：

這個(gè)題目看上去很簡(jiǎn)單，其實(shí)，并不簡(jiǎn)單。即要求輸出形式如下：

??當(dāng)然，我們一開(kāi)始能先到的是利用Pandas中的groupby，按ID做groupby，按score取最大值，可是之后的過(guò)程就難辦了，是將得到的結(jié)果與原表做join，還是再想其他辦法？
??怎么辦？答案就是Pandas中g(shù)roupby的官方文檔說(shuō)明，網(wǎng)址為：http://pandas.pydata.org/pand...。截圖如下：

本文將會(huì)用到其中的三個(gè)函數(shù)： idxmax(), idxmin(), rank().
??其實(shí)，讓我們來(lái)解決一開(kāi)始提出的問(wèn)題，Python代碼如下：

import pandas as pd

df = pd.read_csv("E://score.csv")
new_df = df.groupby("ID")["score"].idxmax()
for i in new_df:
    print(df.iloc[i, :].tolist()[0:2])

分析代碼，df.groupby("ID")["score"].idxmax()是對(duì)原數(shù)據(jù)按ID做groupby，然后取score列，用idxmax(）取出成績(jī)最好的行。然后取出這些行即可。
??當(dāng)然，上述代碼存在兩個(gè)衍生問(wèn)題：

每名學(xué)生（ID）對(duì)應(yīng)的成績(jī)（score）最低的那門科目（class）與ID；

若有學(xué)生他的某些科目的成績(jī)是一樣的，求每名學(xué)生對(duì)應(yīng)的成績(jī)最高的那些科目與ID。

??第一個(gè)問(wèn)題，很好解決，在原先的代碼中，將idxmax()替換為idxmin()即可，輸出的結(jié)果如下：

[1, "C"]
[2, "A"]
[3, "C"]
[4, "A"]

??第二個(gè)問(wèn)題，如果有學(xué)生他的某些科目的成績(jī)是一樣的，如下面的示例數(shù)據(jù)：

在上面數(shù)據(jù)中，第1,3名學(xué)生的最高成績(jī)存在重復(fù)。這是，我們需要用到rank()函數(shù)，Python代碼如下:

import pandas as pd
import numpy as np

df = pd.read_csv("E://score.csv")
df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64)
#print(df)
print(df[df["rank"] == 1][["ID", "class"]])

輸出結(jié)果如下：

    ID class
0    1     A
1    1     B
5    2     C
7    3     B
8    3     C
11   4     C

可以看到，我們得到的df這個(gè)數(shù)據(jù)框添加了一列rank,就是每名學(xué)生的科目的成績(jī)排名，得到的df如下：

    ID class  score  rank
0    1     A     90     1
1    1     B     90     1
2    1     C     70     3
3    2     A     60     3
4    2     B     80     2
5    2     C    100     1
6    3     A     90     3
7    3     B    100     1
8    3     C    100     1
9    4     A     70     3
10   4     B     80     2
11   4     C     90     1

然后按需要取出數(shù)據(jù)即可。

??本次分享到此結(jié)束，歡迎大家交流~~

注意：本人現(xiàn)已開(kāi)通微信公眾號(hào)： Python爬蟲(chóng)與算法（微信號(hào)為：easy_web_scrape），歡迎大家關(guān)注哦~~

云服務(wù)器 GPU云服務(wù)器 groupby groupby性能 pandas pandas python

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/42637.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

ThinkSNS

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

開(kāi)源負(fù)載均衡器HAProxy嚴(yán)重安全漏洞易受關(guān)鍵HTTP請(qǐng)求走私攻擊

閱讀 1076·2021-09-13 10:29
【周刊-1】三年大廠面試官-面試題精選及答案

閱讀 3418·2019-08-29 18:31
WEB基礎(chǔ)之HTML的各個(gè)標(biāo)簽的默認(rèn)樣式

閱讀 2665·2019-08-29 11:15
vue的指令

閱讀 3042·2019-08-26 13:25
G6 2.0 開(kāi)源發(fā)布 -- 裂變·聚變

閱讀 1403·2019-08-26 12:00
SCORM標(biāo)準(zhǔn)應(yīng)用編程接口（API）和數(shù)據(jù)模型（Data Model）學(xué)習(xí)及總結(jié)

閱讀 2383·2019-08-26 11:41
[打怪升級(jí)]小程序評(píng)論回復(fù)和發(fā)帖功能實(shí)戰(zhàn)（二）

閱讀 3472·2019-08-26 10:31
@vue/cli+webpack搭建多頁(yè)面應(yīng)用

閱讀 1518·2019-08-26 10:25

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

數(shù)據(jù)分析面試題之Pandas中的groupby

相關(guān)文章

**??僅剩20分鐘挑戰(zhàn)一道Pandas面試題??生死競(jìng)速??簡(jiǎn)直刺激?**

**python處理數(shù)據(jù)的風(fēng)騷操作[pandas 之 groupby&agg]**

【數(shù)據(jù)科學(xué)系統(tǒng)學(xué)習(xí)】Python # 數(shù)據(jù)分析基本操作[四] 數(shù)據(jù)規(guī)整化和數(shù)據(jù)聚合與分組運(yùn)算

Pandas使用DataFrame進(jìn)行數(shù)據(jù)分析比賽進(jìn)階之路（一）

發(fā)表評(píng)論

0條評(píng)論

ThinkSNS

男|高級(jí)講師

TA的文章

開(kāi)源負(fù)載均衡器HAProxy嚴(yán)重安全漏洞易受關(guān)鍵HTTP請(qǐng)求走私攻擊

【周刊-1】三年大廠面試官-面試題精選及答案

WEB基礎(chǔ)之HTML的各個(gè)標(biāo)簽的默認(rèn)樣式

vue的指令

G6 2.0 開(kāi)源發(fā)布 -- 裂變·聚變

SCORM標(biāo)準(zhǔn)應(yīng)用編程接口（API）和數(shù)據(jù)模型（Data Model）學(xué)習(xí)及總結(jié)

[打怪升級(jí)]小程序評(píng)論回復(fù)和發(fā)帖功能實(shí)戰(zhàn)（二）

@vue/cli+webpack搭建多頁(yè)面應(yīng)用

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

數(shù)據(jù)分析面試題之Pandas中的groupby

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！