【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（二）

zhoutao 發(fā)布于2019-07-25 11:46 / 3531人閱讀

摘要：比較折中的解決方案是，另外建立二分類變量，當(dāng)變量為缺失值時，該變量取值，否則取值。一種方案是創(chuàng)建變量變量的數(shù)據(jù)透視表，并求變量的值。一種解決辦法是加載指定數(shù)目的行數(shù)到內(nèi)存中。

本文是譯文，可以轉(zhuǎn)載，但需注明出處，點(diǎn)擊這里可以獲取原文，有刪減。
本系列博文包含四篇文章：
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（一）——Q1-Q15
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（二）——Q16-Q30
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（三）——Q31-Q45
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（四）——A1-A45及其解釋

Q16

在上述數(shù)據(jù)集中， “Cabin”變量5個樣本中就有3個是缺失值，如果某個變量含有較高比例的缺失值，我們可以刪除該類變量，但這樣做又會損失一定的信息量。
比較折中的解決方案是，另外建立二分類變量 “Missing_Cabin”，當(dāng)“Cabin”變量為缺失值時，該變量取值1，否則取值0。
下列哪行代碼可以實(shí)現(xiàn)這個需求？

A - train["Missing_Cabin"] = train.Cabin.apply(lambda x: x == "")
B - train["Missing_Cabin"] = train.Cabin.isnull() == False
C - train["Missing_Cabin"] = train.Cabin.isnull().astype(int)
D - 以上選項(xiàng)都不能

Q17

上述數(shù)據(jù)集是出口產(chǎn)品的屬性數(shù)據(jù)，但是在原始數(shù)據(jù)中，沒有列名。我們怎樣讀入包含指定列名的數(shù)據(jù)框的數(shù)據(jù)集？

A - pd.read_csv("train.csv", header=None, columns=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility" ])
B - pd.read_csv("train.csv", header=None, usecols=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility"])
C - pd.read_csv("train.csv", header=None, names=["Item_Identifier" ,"Item_Weight" ,"Item_Fat_Content", "Item_Visibility"])
D - 以上選項(xiàng)都不能

Q18

當(dāng)我們使用pandas讀入數(shù)據(jù)集時，變量的類型可能解析得不對。為此，我們需要在讀入數(shù)據(jù)集時，指定每個變量的數(shù)據(jù)類型，或者讀入數(shù)據(jù)集后，轉(zhuǎn)換指定變量的數(shù)據(jù)類型。
下列哪行代碼可以把“Item_Fat_Content” 變量由“object”類型改變成“category”類型？

A - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("categorical")
B - train["Item_Fat_Content"] = train["Item_Fat_Content"].astype("category")
C - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("category")
D - 以上選項(xiàng)都不能

Q19

上述數(shù)據(jù)集中， “Item_Identifier”變量似乎和“Item_Type”變量存在一些關(guān)系：當(dāng)“Item_Identifier”變量首字母發(fā)生變化時， “Item_Type” 變量隨即也發(fā)生變化。當(dāng)“Item_Identifier”變量以字母“F”開頭時，對應(yīng)的“Item_Type” 變量取值都是可以吃的物品，而“D”則對應(yīng)的是飲料。
為了檢驗(yàn)這個假設(shè)，下列哪行代碼可以查詢出所有“Item_Identifier” 變量以“F”開頭的樣本？

A - train.Item_Identifier.str.starts_with("F")
B - train.Item_Identifier.str.startswith("F")
C - train.Item_Identifier.str.is_start("F")
D - 以上選項(xiàng)都不能

Q20

下列哪行代碼可以把 “Item_MRP”變量由“浮點(diǎn)型”改變成“整型”？

A - train["Item_MRP"] = train.Item_MRP.astype(real)
B - train["Item_MRP"] = train.Item_MRP.astype(int)
C - train["Item_MRP"] = train.Item_MRP.astype(float)
D - 以上選項(xiàng)都不能

Q21

我們現(xiàn)在還有另外一個假設(shè)：在超市里，對于新顧客而言，一個物品越容易看到，它的銷量就會越好。
下列哪行代碼可以計(jì)算 “Item_Outlet_Sales”變量和 “Item_Visibility”變量之間的皮爾遜相關(guān)系數(shù)？

A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method="pearson")
B - train.Item_Visibility.corr(train.Item_Outlet_Sales)
C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method="pearson")
D - A和B都可以

Q22

我們想查看“Hours.Per.Week”變量相對于用戶的“Marital.Status”變量和“Occupation”變量的分布。一種方案是創(chuàng)建“Marital.Status”變量vs“Occupation”變量的數(shù)據(jù)透視表，并求“Hours.Per.Week”變量的值。
下列哪行代碼可以實(shí)現(xiàn)這個需求？（聚合函數(shù)設(shè)定為“Sum”）

A - train.pivot(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum")
B - train.pivot_table(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum")
C - train.pivot_table(index="Marital.Status", columns="Hours.Per.Week", values="Occupation", aggfunc="sum")
D - 以上選項(xiàng)都不能

Q23

上述數(shù)據(jù)集中，假設(shè)前兩行都不是我們想要的，我們想從第三行開始讀入數(shù)據(jù)，在pandas 中如何操作？

A - train = pd.read_csv("train.csv", startrow=2)
B - train = pd.csvReader("train.csv", startrow=2)
C - train = pd.read_csv("train.csv", skiprows=2)
D - 以上選項(xiàng)都不能

Q24

假設(shè)數(shù)據(jù)集太大而不能加載到本地機(jī)器中，但是我們?nèi)匀幌氚阉虞d到內(nèi)存中。一種解決辦法是加載指定數(shù)目的行數(shù)到內(nèi)存中。
下列哪行代碼可以只讀取前500行數(shù)據(jù)到內(nèi)存中？

A - train = pd.read_csv("train.csv", nrows=500)
B - train = pd.read_csv("train.csv", numrows=500)
C - train = pd.read_csv("train.csv", rows=500)
D - 以上選項(xiàng)都不能

Q25

我們現(xiàn)在想要知道“Relationship”變量在數(shù)據(jù)集中的分布。為此，我們可以發(fā)現(xiàn)用戶數(shù)與“Relationship”變量的百分比分布。
要做到這一點(diǎn)，需要找到“Relationship”變量所有取值的樣本量，然后將其除以總樣本數(shù)，得到百分比并將其映射到每一列即可。
下列哪行代碼可以實(shí)現(xiàn)這個需求？

A - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_count/train.shape[0])
B - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0])
C - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts/train.shape[0])
D - 以上選項(xiàng)都不能

Q26

上述數(shù)據(jù)集中，“Date_time_of_event”變量被解析成“分類型”變量，因此，一些有關(guān)日期的操作不能作用于該變量。
下列哪行代碼可以把 “Date_time_of_event”變量由“分類型”變量轉(zhuǎn)換成“時間型”變量？

A - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y")
B - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M")
C - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m")
D - 以上選項(xiàng)都不能

Q27

上述數(shù)據(jù)集中，我們想根據(jù)“Date_time_of_event” 變量衍生出 “Date”變量，下列哪行代碼可以提取出“Date_time_of_event” 變量中的日期？

A - train.Date_time_of_event.dt.days
B - train.Date_time_of_event.dt.day
C - train.Date_time_of_event.dt.Day
D - 以上選項(xiàng)都不能

Q28

下列哪行代碼可以提取“Date_time_of_event” 變量中的工作日？

A - train.Date_time_of_event.dt.weekdayname
B - train.Date_time_of_event.dt.weekday_name
C - train.Date_time_of_event.dt.Weekday_name
D - 以上選項(xiàng)都不能

Q29

“時間型”變量可能被解析成unix格式，在抽取有用信息之前，我們必須把它轉(zhuǎn)換成可用的格式，下列哪行代碼可以實(shí)現(xiàn)？

A - pd.to_datetime(train["TIMESTAMP"],unit="s")
B - pd.to_datetime(train["TIMESTAMP"],unit="second")
C - pd.to_datetime(train["TIMESTAMP"],unit="unix")
D - 以上選項(xiàng)都不能

Q30

下列哪行代碼可以找出“現(xiàn)在”與 ‘Date_time_of_event’變量之間的時間差？

A - pd.datetime.now - train.Date_time_of_event.dt
B - pd.datetime.now() - train.Date_time_of_event.dt
C - pd.datetime.now() - train.Date_time_of_event
D - 以上選項(xiàng)都不能

友情鏈接：
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（一）——Q1-Q15
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（三）——Q31-Q45
【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（四）——A1-A45及其解釋

云服務(wù)器 GPU云服務(wù)器數(shù)據(jù)科學(xué)在生活中的應(yīng)用軟件測試技能 java第二階段測試數(shù)據(jù)遷移測試方案

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/38599.html

發(fā)表評論

登陸后可評論

0條評論

zhoutao

男|高級講師

我要關(guān)注我要私信

TA的文章

2021世界智能網(wǎng)聯(lián)汽車大會觀感

閱讀 1669·2021-09-28 09:35
前端技術(shù)演進(jìn)（三）：前端安全

閱讀 1139·2019-08-30 15:54
New CSS Logical Properties! - The Next Step of CSS

閱讀 1666·2019-08-30 15:44
面試刷題總結(jié)

閱讀 3370·2019-08-30 14:09
BFC！Repaint！Reflow

閱讀 499·2019-08-29 14:05
d3js中級教程之漂浮的卡牌效果(data的key函數(shù)進(jìn)階)

閱讀 2668·2019-08-28 17:53
前端小報(bào) - 201903月刊

閱讀 1992·2019-08-26 13:41
angular源碼分析之platformBrowserDynamic

閱讀 1721·2019-08-26 13:26

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（二）

相關(guān)文章

**【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（四）**

**【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（三）**

**SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧**

**深度 : 數(shù)據(jù)科學(xué)，來自業(yè)界的誘惑（譯）**

發(fā)表評論

0條評論

zhoutao

男|高級講師

TA的文章

2021世界智能網(wǎng)聯(lián)汽車大會觀感

前端技術(shù)演進(jìn)（三）：前端安全

New CSS Logical Properties! - The Next Step of CSS

面試刷題總結(jié)

BFC！Repaint！Reflow

d3js中級教程之漂浮的卡牌效果(data的key函數(shù)進(jìn)階)

前端小報(bào) - 201903月刊

angular源碼分析之platformBrowserDynamic

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

【譯】技能測試解決方案：Python中的數(shù)據(jù)科學(xué)（二）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！