摘要:比較折中的解決方案是,另外建立二分類變量,當(dāng)變量為缺失值時,該變量取值,否則取值。一種方案是創(chuàng)建變量變量的數(shù)據(jù)透視表,并求變量的值。一種解決辦法是加載指定數(shù)目的行數(shù)到內(nèi)存中。
本文是譯文,可以轉(zhuǎn)載,但需注明出處,點(diǎn)擊這里可以獲取原文,有刪減。
本系列博文包含四篇文章:
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(一)——Q1-Q15
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(二)——Q16-Q30
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(三)——Q31-Q45
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(四)——A1-A45及其解釋
Q16
在上述數(shù)據(jù)集中, “Cabin”變量5個樣本中就有3個是缺失值,如果某個變量含有較高比例的缺失值,我們可以刪除該類變量,但這樣做又會損失一定的信息量。
比較折中的解決方案是,另外建立二分類變量 “Missing_Cabin”,當(dāng)“Cabin”變量為缺失值時,該變量取值1,否則取值0。
下列哪行代碼可以實(shí)現(xiàn)這個需求?
A - train["Missing_Cabin"] = train.Cabin.apply(lambda x: x == "") B - train["Missing_Cabin"] = train.Cabin.isnull() == False C - train["Missing_Cabin"] = train.Cabin.isnull().astype(int) D - 以上選項(xiàng)都不能
Q17
上述數(shù)據(jù)集是出口產(chǎn)品的屬性數(shù)據(jù),但是在原始數(shù)據(jù)中,沒有列名。我們怎樣讀入包含指定列名的數(shù)據(jù)框的數(shù)據(jù)集?
A - pd.read_csv("train.csv", header=None, columns=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility" ]) B - pd.read_csv("train.csv", header=None, usecols=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility"]) C - pd.read_csv("train.csv", header=None, names=["Item_Identifier" ,"Item_Weight" ,"Item_Fat_Content", "Item_Visibility"]) D - 以上選項(xiàng)都不能
Q18
當(dāng)我們使用pandas讀入數(shù)據(jù)集時,變量的類型可能解析得不對。為此,我們需要在讀入數(shù)據(jù)集時,指定每個變量的數(shù)據(jù)類型,或者讀入數(shù)據(jù)集后,轉(zhuǎn)換指定變量的數(shù)據(jù)類型。
下列哪行代碼可以把“Item_Fat_Content” 變量由“object”類型改變成“category”類型?
A - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("categorical") B - train["Item_Fat_Content"] = train["Item_Fat_Content"].astype("category") C - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("category") D - 以上選項(xiàng)都不能
Q19
上述數(shù)據(jù)集中, “Item_Identifier”變量似乎和“Item_Type”變量存在一些關(guān)系:當(dāng)“Item_Identifier”變量首字母發(fā)生變化時, “Item_Type” 變量隨即也發(fā)生變化。當(dāng)“Item_Identifier”變量以字母“F”開頭時,對應(yīng)的“Item_Type” 變量取值都是可以吃的物品,而“D”則對應(yīng)的是飲料。
為了檢驗(yàn)這個假設(shè),下列哪行代碼可以查詢出所有“Item_Identifier” 變量以“F”開頭的樣本?
A - train.Item_Identifier.str.starts_with("F") B - train.Item_Identifier.str.startswith("F") C - train.Item_Identifier.str.is_start("F") D - 以上選項(xiàng)都不能
Q20
下列哪行代碼可以把 “Item_MRP”變量由“浮點(diǎn)型”改變成“整型”?
A - train["Item_MRP"] = train.Item_MRP.astype(real) B - train["Item_MRP"] = train.Item_MRP.astype(int) C - train["Item_MRP"] = train.Item_MRP.astype(float) D - 以上選項(xiàng)都不能
Q21
我們現(xiàn)在還有另外一個假設(shè):在超市里,對于新顧客而言,一個物品越容易看到,它的銷量就會越好。
下列哪行代碼可以計(jì)算 “Item_Outlet_Sales”變量和 “Item_Visibility”變量之間的皮爾遜相關(guān)系數(shù)?
A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method="pearson") B - train.Item_Visibility.corr(train.Item_Outlet_Sales) C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method="pearson") D - A和B都可以
Q22
我們想查看“Hours.Per.Week”變量相對于用戶的“Marital.Status”變量和“Occupation”變量的分布。一種方案是創(chuàng)建“Marital.Status”變量vs“Occupation”變量的數(shù)據(jù)透視表,并求“Hours.Per.Week”變量的值。
下列哪行代碼可以實(shí)現(xiàn)這個需求?(聚合函數(shù)設(shè)定為“Sum”)
A - train.pivot(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum") B - train.pivot_table(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum") C - train.pivot_table(index="Marital.Status", columns="Hours.Per.Week", values="Occupation", aggfunc="sum") D - 以上選項(xiàng)都不能
Q23
上述數(shù)據(jù)集中,假設(shè)前兩行都不是我們想要的,我們想從第三行開始讀入數(shù)據(jù),在pandas 中如何操作?
A - train = pd.read_csv("train.csv", startrow=2) B - train = pd.csvReader("train.csv", startrow=2) C - train = pd.read_csv("train.csv", skiprows=2) D - 以上選項(xiàng)都不能
Q24
假設(shè)數(shù)據(jù)集太大而不能加載到本地機(jī)器中,但是我們?nèi)匀幌氚阉虞d到內(nèi)存中。一種解決辦法是加載指定數(shù)目的行數(shù)到內(nèi)存中。
下列哪行代碼可以只讀取前500行數(shù)據(jù)到內(nèi)存中?
A - train = pd.read_csv("train.csv", nrows=500) B - train = pd.read_csv("train.csv", numrows=500) C - train = pd.read_csv("train.csv", rows=500) D - 以上選項(xiàng)都不能
Q25
我們現(xiàn)在想要知道“Relationship”變量在數(shù)據(jù)集中的分布。 為此,我們可以發(fā)現(xiàn)用戶數(shù)與“Relationship”變量的百分比分布。
要做到這一點(diǎn),需要找到“Relationship”變量所有取值的樣本量,然后將其除以總樣本數(shù),得到百分比并將其映射到每一列即可。
下列哪行代碼可以實(shí)現(xiàn)這個需求?
A - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_count/train.shape[0]) B - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0]) C - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts/train.shape[0]) D - 以上選項(xiàng)都不能
Q26
上述數(shù)據(jù)集中,“Date_time_of_event”變量被解析成“分類型”變量,因此,一些有關(guān)日期的操作不能作用于該變量。
下列哪行代碼可以把 “Date_time_of_event”變量由“分類型”變量轉(zhuǎn)換成“時間型”變量?
A - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y") B - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M") C - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m") D - 以上選項(xiàng)都不能
Q27
上述數(shù)據(jù)集中,我們想根據(jù)“Date_time_of_event” 變量衍生出 “Date”變量,下列哪行代碼可以提取出“Date_time_of_event” 變量中的日期?
A - train.Date_time_of_event.dt.days B - train.Date_time_of_event.dt.day C - train.Date_time_of_event.dt.Day D - 以上選項(xiàng)都不能
Q28
下列哪行代碼可以提取“Date_time_of_event” 變量中的工作日?
A - train.Date_time_of_event.dt.weekdayname B - train.Date_time_of_event.dt.weekday_name C - train.Date_time_of_event.dt.Weekday_name D - 以上選項(xiàng)都不能
Q29
“時間型”變量可能被解析成unix格式,在抽取有用信息之前,我們必須把它轉(zhuǎn)換成可用的格式,下列哪行代碼可以實(shí)現(xiàn)?
A - pd.to_datetime(train["TIMESTAMP"],unit="s") B - pd.to_datetime(train["TIMESTAMP"],unit="second") C - pd.to_datetime(train["TIMESTAMP"],unit="unix") D - 以上選項(xiàng)都不能
Q30
下列哪行代碼可以找出“現(xiàn)在”與 ‘Date_time_of_event’變量之間的時間差?
A - pd.datetime.now - train.Date_time_of_event.dt B - pd.datetime.now() - train.Date_time_of_event.dt C - pd.datetime.now() - train.Date_time_of_event D - 以上選項(xiàng)都不能
友情鏈接:
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(一)——Q1-Q15
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(三)——Q31-Q45
【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(四)——A1-A45及其解釋
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38599.html
摘要:友情鏈接譯技能測試解決方案中的數(shù)據(jù)科學(xué)一譯技能測試解決方案中的數(shù)據(jù)科學(xué)二譯技能測試解決方案中的數(shù)據(jù)科學(xué)三 本文是譯文,可以轉(zhuǎn)載,但需注明出處,點(diǎn)擊這里可以獲取原文,有刪減。本系列博文包含四篇文章:【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(一)——Q1-Q15【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(二)——Q16-Q30【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(...
摘要:在關(guān)聯(lián)該數(shù)據(jù)集時,重復(fù)行會帶來一定的困擾,為了避免這個困擾,我們只保留重復(fù)數(shù)據(jù)第一個出現(xiàn)的樣本。 本文是譯文,可以轉(zhuǎn)載,但需注明出處,點(diǎn)擊這里可以獲取原文,有刪減。本系列博文包含四篇文章:【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(一)——Q1-Q15【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(二)——Q16-Q30 【譯】技能測試解決方案:Python中的數(shù)據(jù)科學(xué)(三)...
摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...
摘要:所以克拉姆卡創(chuàng)辦了洞察力數(shù)據(jù)科學(xué)公司來為博士們提供面向業(yè)界數(shù)據(jù)科學(xué)的職業(yè)培訓(xùn)。舊金山公司的數(shù)據(jù)實(shí)驗(yàn)室主管伊萊巴塞特建議,學(xué)習(xí)更符合業(yè)界胃口的編程工具如和語言。 伊萊·巴塞特(Eli Bressert)計(jì)劃把自己的學(xué)術(shù)生涯都放在針對恒星形成的研究上。他在英國??巳卮髮W(xué)(University of Exeter)獲得博士學(xué)位,又在澳洲悉尼附近完成了針對射電天文學(xué)的博士后研究。他發(fā)表論文的引用量...
閱讀 1669·2021-09-28 09:35
閱讀 1139·2019-08-30 15:54
閱讀 1666·2019-08-30 15:44
閱讀 3370·2019-08-30 14:09
閱讀 499·2019-08-29 14:05
閱讀 2668·2019-08-28 17:53
閱讀 1992·2019-08-26 13:41
閱讀 1721·2019-08-26 13:26