成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

打造數(shù)據(jù)科學(xué)作品集:用數(shù)據(jù)講故事

yankeys / 637人閱讀

摘要:作者譯者校對(duì)出品翻譯組編程派這是如何打造數(shù)據(jù)科學(xué)作品集系列教程的第一篇。我們將介紹怎樣打造作品集中的第一個(gè)項(xiàng)目,怎樣使用數(shù)據(jù)講述一個(gè)有效的故事。班級(jí)大小紐約市每所學(xué)校班級(jí)規(guī)模數(shù)據(jù)。

作者:Vik Paruchuri
譯者:Nick Tang
校對(duì):EarlGrey
出品:PythonTG 翻譯組/編程派

這是「如何打造數(shù)據(jù)科學(xué)作品集」系列教程的第一篇。如果覺(jué)得不錯(cuò),可以訂閱我們第一時(shí)間獲取最新更新。這個(gè)系列的文章都很長(zhǎng),建議先收藏再找時(shí)間詳細(xì)閱讀。如果你覺(jué)得譯文讀起來(lái)不舒服,可以點(diǎn)此閱讀原文,并給我們提些改建建議。

數(shù)據(jù)科學(xué)公司在招聘時(shí)越來(lái)越看重個(gè)人作品集,原因在于作品集是衡量實(shí)際能力最好的方式之一。好消息是,你完全掌控著自己的作品集。如果付出一些努力,你就可以打造一套令用人單位印象深刻的高質(zhì)量作品集。

想要打造高質(zhì)量作品集,第一步需要搞清楚應(yīng)該在作品中展現(xiàn)什么能力。公司希望數(shù)據(jù)科學(xué)家具備的能力(也就是他們希望作品集能夠展示的能力)包括:

溝通能力

與他人協(xié)作能力

技術(shù)能力

數(shù)據(jù)推斷能力

主觀能動(dòng)性

一個(gè)好的作品集一般由多個(gè)項(xiàng)目構(gòu)成,每一個(gè)項(xiàng)目展示以上 1-2 個(gè)能力點(diǎn)。本文是教你怎樣打造一個(gè)全面的數(shù)據(jù)科學(xué)作品系列的第一篇。我們將介紹怎樣打造作品集中的第一個(gè)項(xiàng)目,怎樣使用數(shù)據(jù)講述一個(gè)有效的故事。本篇結(jié)束時(shí),你將擁有一個(gè)展示溝通能力和數(shù)據(jù)推斷能力的數(shù)據(jù)科學(xué)項(xiàng)目。

用數(shù)據(jù)講故事

數(shù)據(jù)科學(xué)的本質(zhì)是溝通。你通過(guò)數(shù)據(jù)得到了一些洞察,然后采用有效的方式將其傳播給他人,并向其推銷(xiāo)你的解決方案??梢?jiàn)使用數(shù)據(jù)來(lái)講述一個(gè)有效的故事,是數(shù)據(jù)科學(xué)家最重要的技能之一。一個(gè)有效的故事可以使你的洞察更有說(shuō)服力,同時(shí)能幫助他人理解你的觀點(diǎn)。

數(shù)據(jù)科學(xué)中的故事需要圍繞著你發(fā)現(xiàn)了什么,怎么發(fā)現(xiàn)的,意味著什么進(jìn)行講述。舉個(gè)例子,你發(fā)現(xiàn)公司利潤(rùn)去年下降了25%。僅僅闡述這個(gè)事實(shí)是不夠的,你必須說(shuō)明為什么利潤(rùn)會(huì)下降,可以通過(guò)什么方式來(lái)解決。

用數(shù)據(jù)講故事的要點(diǎn)如下:

搞清楚并且設(shè)置故事的上下文

從多個(gè)角度進(jìn)行探索

有說(shuō)服力的形象化展示

使用多種數(shù)據(jù)源

敘述的一致性

這里最有效的工具是 Jupyter notebook。如果你對(duì)此不是很熟悉,請(qǐng)參考這個(gè)教程。Jupyter notebook 允許你交互式的探索數(shù)據(jù),支持將結(jié)果分享到多個(gè)網(wǎng)站,包括 Github 。通過(guò)分享,他人可以很好的與你協(xié)作,并擴(kuò)充你的成果。

我們會(huì)在文中使用 Jupyter notebook 以及一些 Python 數(shù)據(jù)科學(xué)庫(kù),如 Pandas 和 matplotlib。

選擇項(xiàng)目主題

創(chuàng)建項(xiàng)目的第一步是決定主題。你需要選擇感興趣且有動(dòng)力去研究的題目。我們都知道為了做項(xiàng)目而做,還是真的感興趣去做,這之間有巨大區(qū)別。因此這一步值得多花點(diǎn)功夫,確保能夠找到真正感興趣的東西。

尋找題目的一個(gè)好辦法是瀏覽不同的數(shù)據(jù)集,看看有什么有趣的東西。這里推薦一些好的站點(diǎn):

Data.gov – 包含政府信息。

/r/datasets – 一個(gè)reddit的子集擁有非常多的有趣數(shù)據(jù)集。

Awesome datasets – Github上的一些數(shù)據(jù)集。

rs.io – 一個(gè)很棒的Blog,發(fā)布了很多有趣的數(shù)據(jù)。

一般現(xiàn)實(shí)中,你拿到的經(jīng)常不是一個(gè)完美的單個(gè)數(shù)據(jù)集。通常需要聚合不同的數(shù)據(jù)源,或者做大量的數(shù)據(jù)清理工作。當(dāng)選題對(duì)你來(lái)說(shuō)真的非常有意思,多花點(diǎn)時(shí)間去處理數(shù)據(jù)是非常值得的,同時(shí)在這個(gè)過(guò)程中你也可以炫耀一下技能。

本文我們使用紐約市公立學(xué)校的數(shù)據(jù),你可以在這里得到它們。

選定題目

能夠從一而終的完成項(xiàng)目是非常重要的。因此,限制項(xiàng)目的范圍非常關(guān)鍵,這可以讓我們清楚地知道我們可以完成它。

本文中,我們著眼于美國(guó)高中生的SAT 成績(jī)以及其他統(tǒng)計(jì)數(shù)據(jù)來(lái)做數(shù)據(jù)分析。SAT(Scholastic Aptitude Test) 是美國(guó)高中生申請(qǐng)大學(xué)前參加的一項(xiàng)考試。大學(xué)在作出是否入取決定時(shí)會(huì)參考考試成績(jī)。這個(gè)考試分為三個(gè)部分,每部分 800 分,總分 2400 (雖然總分曾改來(lái)改去很多次,但在這個(gè)數(shù)據(jù)集里仍是2400)。各高中經(jīng)常以 SAT 的平均成績(jī)進(jìn)行排名,SAT 成績(jī)高代表著這個(gè)學(xué)區(qū)的高品質(zhì)。

有人提出 SAT 對(duì)美國(guó)的某些種族人群不公平,因此對(duì)紐約市的數(shù)據(jù)進(jìn)行分析可以幫組我們進(jìn)一步搞清楚 SAT 考試的公平性。

從這里獲得SAT數(shù)據(jù)及各高中數(shù)據(jù)。這將是項(xiàng)目的基礎(chǔ),但是我們還需要更多的信息來(lái)確保有說(shuō)服力的分析。

補(bǔ)充數(shù)據(jù)

一旦找到了好題目,接下來(lái)去多找一些有助于這個(gè)題目或者能使你更進(jìn)一步深入研究的數(shù)據(jù)集。最好提前準(zhǔn)備,以便在開(kāi)始建立項(xiàng)目前擁有盡可能多的數(shù)據(jù)。通常過(guò)少的數(shù)據(jù)意味著過(guò)早的放棄項(xiàng)目。

在這個(gè)項(xiàng)目里,某個(gè)網(wǎng)站上就有多個(gè)相關(guān)數(shù)據(jù)集,包括了生源統(tǒng)計(jì)信息以及測(cè)試分?jǐn)?shù)等。

這里是所有將使用數(shù)據(jù)集的鏈接:

按學(xué)校排列的 SAT 成績(jī) – 紐約市每所高中的 SAT 成績(jī)。

學(xué)校招生情況 – 紐約市每所學(xué)校的招生數(shù)據(jù)。

數(shù)學(xué)考試成績(jī) – 紐約市每所學(xué)校的數(shù)學(xué)測(cè)試成績(jī)。

班級(jí)大小 – 紐約市每所學(xué)校班級(jí)規(guī)模數(shù)據(jù)。

AP 考試成績(jī) – AP(Advanced Placement)考試成績(jī),通過(guò) AP 考試可以獲得大學(xué)學(xué)分。

畢業(yè)數(shù)據(jù) – 畢業(yè)學(xué)生比例,以及其他信息。

生源信息 – 每所學(xué)校的生源統(tǒng)計(jì)信息。

學(xué)校調(diào)查 – 每所學(xué)校的父母,老師,學(xué)生的調(diào)查報(bào)告。

學(xué)區(qū)地圖 – 包含學(xué)區(qū)的地理分布信息,此數(shù)據(jù)幫助我們繪圖。

所有的這些數(shù)據(jù)集是相互關(guān)聯(lián)的,我們可以在分析前先組合他們。

獲取背景信息

在深入分析數(shù)據(jù)之前,調(diào)查一些背景信息非常有用。本例中,我們已知一些非常有用的信息:

紐約市有五個(gè)區(qū),各自是獨(dú)立的區(qū)域。

所有學(xué)校分布在各個(gè)學(xué)區(qū)里,每個(gè)區(qū)包含數(shù)十個(gè)學(xué)校。

數(shù)據(jù)集里的學(xué)校并非都是高中,因此我們需要做一些數(shù)據(jù)清理工作。

每所有學(xué)校都有一個(gè)DBN (District Borough Number)唯一編號(hào)。

通過(guò)聚合每個(gè)區(qū)的數(shù)據(jù),我們可以繪制出各個(gè)區(qū)域之間的差異。

理解數(shù)據(jù)

為了能夠真正理解這些數(shù)據(jù)的上下文,你要花點(diǎn)時(shí)間去探索數(shù)據(jù)。上面每個(gè)鏈接都有一些關(guān)于數(shù)據(jù)及相關(guān)列的描述。我們手里有高中生的 SAT 成績(jī),以及生源信息等其他數(shù)據(jù)集。

我們可以執(zhí)行代碼來(lái)讀取數(shù)據(jù)。使用 Jupyter notebook 來(lái)探索這些數(shù)據(jù),下面的代碼將:

遍歷每個(gè)下載的數(shù)據(jù)文件

把文件數(shù)據(jù)讀入到Pandas DataFrame

將 DataFrame 統(tǒng)一放入一個(gè)Python字典

import pandas
import numpy as np

files = ["ap_2010.csv", "class_size.csv", "demographics.csv", "graduation.csv", "hs_directory.csv", "math_test_results.csv", "sat_results.csv"]

data = {}
for f in files:
    d = pandas.read_csv("schools/{0}".format(f))
    data[f.replace(".csv", "")] = d

數(shù)據(jù)讀入后,我們可以在 DataFrames 上使用 head 方法打印前 5 行數(shù)據(jù):

for k,v in data.items():
    print("
" + k + "
")
    print(v.head())

可以發(fā)現(xiàn)數(shù)據(jù)集中的一些明顯特征:

大多數(shù)數(shù)據(jù)集包含 DBN 列。

一些字段對(duì)繪圖有用,特別是 Location 1,其中包含了坐標(biāo)信息。

一些數(shù)據(jù)集似乎包含一個(gè)學(xué)校的多條信息(重復(fù)的 DBN ),這意味著我們必須做一些預(yù)處理。

統(tǒng)一數(shù)據(jù)

為了更容易的處理數(shù)據(jù),我們需要將所有的單個(gè)數(shù)據(jù)集集中到一個(gè)數(shù)據(jù)集里。這樣可以讓我們更快的比較數(shù)據(jù)集之間的列。為了做到這一點(diǎn),第一步我們需要找到一個(gè)統(tǒng)一的公共列。從上面的輸出結(jié)果來(lái)看,你會(huì)發(fā)現(xiàn) DBN 出現(xiàn)在大多數(shù)的數(shù)據(jù)集里,看起來(lái)可以用作公共列。

如果我們谷歌一下 DBN New York City Schools,會(huì)找到這個(gè)頁(yè)面,解釋了 DBN 是每一個(gè)學(xué)校的唯一編號(hào)。當(dāng)我們探索數(shù)據(jù)集,特別是政府?dāng)?shù)據(jù)集時(shí),為了搞清楚每一個(gè)列的意思,做一些調(diào)查工作是必不可少的。

現(xiàn)在有個(gè)問(wèn)題,class_sizehs_directory 數(shù)據(jù)集沒(méi)有發(fā)現(xiàn) DBN 字段。hs_directory 數(shù)據(jù)集只有 dbn 字段,我們可以通過(guò)重命名這個(gè)列或者把它拷貝到一個(gè)DBN 的新列來(lái)解決。而對(duì) class_size 數(shù)據(jù)集,我們需要采用其他辦法來(lái)處理。

DBN 列看起來(lái)像這樣:

data["demographics"]["DBN"].head()
0    01M015
1    01M015
2    01M015
3    01M015
4    01M015
Name: DBN, dtype: object

我們?cè)倏匆谎?class_size 的前 5 行數(shù)據(jù):

data["class_size"].head()

如上圖所見(jiàn),看起來(lái) DBN 實(shí)際上是由CSD、 BOROUGHSCHOOL CODE 組合而成。DBN 全稱為 District Borough Number 。csd 字段表示 District,BOROUGH 字段表示 borough,再與 SCHOOL CODE 字段一起最終組成DBN。

想洞察數(shù)據(jù)之間的這種關(guān)系并沒(méi)有什么系統(tǒng)化的方法,只能經(jīng)過(guò)探索和嘗試來(lái)找到答案。

現(xiàn)在我們知道怎樣構(gòu)建 DBN 了,可以把它添加到 class_sizehs_directory 數(shù)據(jù)集里:

data["class_size"]["DBN"] = data["class_size"].apply(lambda x: "{0:02d}{1}".format(x["CSD"], x["SCHOOL CODE"]), axis=1)
data["hs_directory"]["DBN"] = data["hs_directory"]["dbn"]
添加調(diào)查數(shù)據(jù)

最有趣的數(shù)據(jù)集之一,應(yīng)該是學(xué)生、父母、老師的問(wèn)卷調(diào)查數(shù)據(jù),囊括了對(duì)每個(gè)學(xué)校的安全程度、學(xué)術(shù)水平等等反饋數(shù)據(jù)。在組合數(shù)據(jù)集之前,讓我們添加這些調(diào)查數(shù)據(jù)。現(xiàn)實(shí)工作中,分析數(shù)據(jù)的途中你經(jīng)常會(huì)碰到你想要加入的有趣數(shù)據(jù)。使用Jupyter notebook 這樣靈活的工具,可以讓你快速添加額外代碼,并且重新運(yùn)行你的分析。

我們將要添加調(diào)查數(shù)據(jù)到我們的 data 字典里,然后再組合所有的數(shù)據(jù)集。調(diào)查數(shù)據(jù)包含兩個(gè)文件,一個(gè)針對(duì)所有學(xué)習(xí),一個(gè)是針對(duì) 75 區(qū)的學(xué)校。我們需要寫(xiě)一些代碼來(lái)組合。在下面的代碼中,我們將

使用 windows-1252 編碼讀入所有學(xué)校的數(shù)據(jù)。

使用 windows-1252 編碼讀入 75 區(qū)學(xué)校的數(shù)據(jù)。

添加一個(gè) flag 來(lái)數(shù)據(jù)來(lái)自哪個(gè)區(qū)。

使用 DataFrames 的 concat 方法來(lái)合并以上數(shù)據(jù)。

survey1 = pandas.read_csv("schools/survey_all.txt", delimiter="	", encoding="windows-1252")
survey2 = pandas.read_csv("schools/survey_d75.txt", delimiter="	", encoding="windows-1252")
survey1["d75"] = False
survey2["d75"] = True
survey = pandas.concat([survey1, survey2], axis=0)

一旦我們完成調(diào)查數(shù)據(jù)的合并,還有一個(gè)復(fù)雜的事情要處理。為了方便進(jìn)行比較和找出列直接關(guān)聯(lián),我們需要減少數(shù)據(jù)集中的列數(shù)。不幸的是,調(diào)查數(shù)據(jù)里包含太多對(duì)我們沒(méi)有用的列:

survey.head()

我們可以通過(guò)查看與調(diào)查數(shù)據(jù)一起下載下來(lái)的數(shù)據(jù)字典文件,來(lái)找出我們需要的重要字段去簡(jiǎn)化列:

這樣我們就可以刪除 survey 中多余的列:

survey["DBN"] = survey["dbn"]
survey_fields = ["DBN", "rr_s", "rr_t", "rr_p", "N_s", "N_t", "N_p", "saf_p_11", "com_p_11", "eng_p_11", "aca_p_11", "saf_t_11", "com_t_11", "eng_t_10", "aca_t_11", "saf_s_11", "com_s_11", "eng_s_11", "aca_s_11", "saf_tot_11", "com_tot_11", "eng_tot_11", "aca_tot_11",]
survey = survey.loc[:,survey_fields]
data["survey"] = survey
survey.shape
(1702, 23)

確保你能夠理解每個(gè)數(shù)據(jù)集包含什么,相關(guān)列是什么,可以為日后分析節(jié)省很多的時(shí)間和精力。

壓縮數(shù)據(jù)集

再次看一下數(shù)據(jù)集,我們馬上發(fā)現(xiàn)一個(gè)新的問(wèn)題:

data["class_size"].head()

class_size 中對(duì)應(yīng)一個(gè)高中存在多行數(shù)據(jù)(及重復(fù)的 DBNSCHOOL NAME )。然而 sat_results 里每個(gè)高中只有一條數(shù)據(jù):

data["sat_results"].head()

為了能夠聯(lián)合數(shù)據(jù)集,我們需要找到一種方式來(lái)保證一個(gè)高中對(duì)應(yīng)一行數(shù)據(jù)。如果不這樣做,我們將無(wú)法比較 SAT 成績(jī)與班級(jí)大小。首先我們需要更好地理解數(shù)據(jù),然后做一些聚合。在 class_size 數(shù)據(jù)集里,GRADEPROGRAM TYPE 字段對(duì)于一個(gè)學(xué)校存在多個(gè)值。通過(guò)限制一個(gè)字段只有一個(gè)值,我們可以過(guò)濾掉大部分的重復(fù)行。在下面的代碼中,我們將:

僅僅保留 class_sizeGRADE 字段是 09-12 的值。

僅僅保留 class_sizePROGRAM TYPEGEN ED 的值。

DBN 進(jìn)行g(shù)roup,計(jì)算每個(gè)列的平均值,得到每所學(xué)校平均的 class_size 值。

重置索引,將 DBN 作為列重新加回。

class_size = data["class_size"]
class_size = class_size[class_size["GRADE "] == "09-12"]
class_size = class_size[class_size["PROGRAM TYPE"] == "GEN ED"]
class_size = class_size.groupby("DBN").agg(np.mean)
class_size.reset_index(inplace=True)
data["class_size"] = class_size
壓縮其他數(shù)據(jù)集

同樣,我們需要壓縮 demographics 數(shù)據(jù)集。這個(gè)數(shù)據(jù)集收集了同一個(gè)學(xué)校多年的數(shù)據(jù),因此存在重復(fù)數(shù)據(jù)。我們將僅僅挑選出 schoolyear 字段里為最近年份的,來(lái)去除重復(fù)的數(shù)據(jù):

demographics = data["demographics"]
demographics = demographics[demographics["schoolyear"] == 20112012]
data["demographics"] = demographics

還需要壓縮 math_test_results 數(shù)據(jù)集。這個(gè)數(shù)據(jù)集按 GradeYear 進(jìn)行分割。我們可以只保留某一年中某個(gè)年級(jí)的數(shù)據(jù):

data["math_test_results"] = data["math_test_results"][data["math_test_results"]["Year"] == 2011]
data["math_test_results"] = data["math_test_results"][data["math_test_results"]["Grade"] == "8"]

最后,壓縮 graduation 數(shù)據(jù)集:

data["graduation"] = data["graduation"][data["graduation"]["Cohort"] == "2006"]
data["graduation"] = data["graduation"][data["graduation"]["Demographic"] == "Total Cohort"]

在真正開(kāi)始項(xiàng)目工作之前,數(shù)據(jù)的清理和探索是至關(guān)重要。擁有一個(gè)良好的、一致的數(shù)據(jù)集會(huì)大大加快后續(xù)分析工作。

計(jì)算變量值

計(jì)算變量值對(duì)加快分析過(guò)程有兩個(gè)好處,讓日后進(jìn)行比較更快,能夠比較原本不能比較的字段。目前我們要做的第一件事情是從 SAT Math Avg. Score、SAT Critical Reading Avg. Scoreand SAT Writing Avg. Score 列來(lái)計(jì)算 SAT 總分。下面的代碼:

把每個(gè) SAT 成績(jī)中的列從字符串轉(zhuǎn)為數(shù)字。

合計(jì)所有列到 sat_score 列,代表 SAT 總分。

cols = ["SAT Math Avg. Score", "SAT Critical Reading Avg. Score", "SAT Writing Avg. Score"]
for c in cols:
    data["sat_results"][c] = pandas.to_numeric(data["sat_results"][c], errors="coerce")

data["sat_results"]["sat_score"] = data["sat_results"][cols[0]] + data["sat_results"][cols[1]] + data["sat_results"][cols[2]]

接下里,我們來(lái)解析每個(gè)學(xué)校的坐標(biāo)位置,這個(gè)可以讓我們繪制每所學(xué)校的位置。下面的代碼:

Location 1 列解析出經(jīng)緯度。

轉(zhuǎn)換經(jīng)緯度為數(shù)字。

data["hs_directory"]["lat"] = data["hs_directory"]["Location 1"].apply(lambda x: x.split("
")[-1].replace("(", "").replace(")", "").split(", ")[0])
data["hs_directory"]["lon"] = data["hs_directory"]["Location 1"].apply(lambda x: x.split("
")[-1].replace("(", "").replace(")", "").split(", ")[1])

for c in ["lat", "lon"]:
    data["hs_directory"][c] = pandas.to_numeric(data["hs_directory"][c], errors="coerce")

現(xiàn)在,我們可以重新打印每一個(gè)數(shù)據(jù)集來(lái)看看:

for k,v in data.items():
    print(k)
    print(v.head())

合并數(shù)據(jù)集

現(xiàn)在我們完成了所有的準(zhǔn)備工作,可以使用 DBN 列來(lái)將數(shù)據(jù)集合并在一起了。合并后我們將獲得一個(gè)有著數(shù)百個(gè)列的數(shù)據(jù)集。合并時(shí)注意一些數(shù)據(jù)集存在缺失部分高中的數(shù)據(jù)。為了不丟失這部分?jǐn)?shù)據(jù),我們需要使用 outer join 來(lái)合并數(shù)據(jù)集。在現(xiàn)實(shí)世界里,數(shù)據(jù)缺失是很常見(jiàn)的。有能力推理和處理缺失數(shù)據(jù)是作品集中重要的展示部分。

你可以從這里了解不同類(lèi)型的 join 。

下面的代碼中,我們將:

遍歷 data 字典里的每一項(xiàng)。

打印非唯一 DBN 的數(shù)量。

決定 join 的策略,inner 還是 outer。

DBN 來(lái) join 所有的數(shù)據(jù)集,存于 DataFrame full。

flat_data_names = [k for k,v in data.items()]
flat_data = [data[k] for k in flat_data_names]
full = flat_data[0]
for i, f in enumerate(flat_data[1:]):
    name = flat_data_names[i+1]
    print(name)
    print(len(f["DBN"]) - len(f["DBN"].unique()))
    join_type = "inner"
    if name in ["sat_results", "ap_2010", "graduation"]:
        join_type = "outer"
    if name not in ["math_test_results"]:
        full = full.merge(f, on="DBN", how=join_type)

full.shape
sat_results
0
demographics
0
graduation
0
hs_directory
0
ap_2010
1
survey
0
class_size
0
(396, 174)
添加值

現(xiàn)在我們有了 DataFrame full, 幾乎包含所有我們需要信息的。但是,仍然有部分字段的數(shù)據(jù)是缺失的。例如我們想將 AP 考試的結(jié)果與 SAT 成績(jī)關(guān)聯(lián)到一起的話,我們需要將列轉(zhuǎn)化為數(shù)字,然后填入所有缺失的數(shù)值:

cols = ["AP Test Takers ", "Total Exams Taken", "Number of Exams with scores 3 4 or 5"]

for col in cols:
    full[col] = pandas.to_numeric(full[col], errors="coerce")

full[cols] = full[cols].fillna(value=0)

接著,我們計(jì)算 school_dist 列,得到學(xué)校的區(qū)號(hào)。之后我們將使用這個(gè)數(shù)據(jù)按區(qū)去匹配學(xué)區(qū),繪制學(xué)校的的統(tǒng)計(jì)數(shù)據(jù)。

full["school_dist"] = full["DBN"].apply(lambda x: x[:2])

最后我們用所有列的平均值,來(lái)填寫(xiě) full 中其他的缺失值:

full = full.fillna(full.mean())
計(jì)算關(guān)聯(lián)性

計(jì)算列之間的關(guān)聯(lián)性,是探索數(shù)據(jù)集和檢查列相關(guān)度的好方法。這個(gè)方法可以告訴你哪個(gè)列與你感興趣的列有緊密關(guān)系。我們可以使用 Pandas DataFrames 提供的 corr 方法來(lái)計(jì)算得分。得分越接近 0,表示越?jīng)]有相關(guān)性。越接近 1,則正相關(guān)性越強(qiáng),越接近 -1,則負(fù)相關(guān)性越強(qiáng):

full.corr()["sat_score"]

從上面的數(shù)據(jù)我們洞察到一些需要進(jìn)一步研究的東西:

總錄取人數(shù)與 sat_score 有很強(qiáng)的相關(guān)性。這有點(diǎn)令我們驚訝,在我們的認(rèn)知中,越小的學(xué)校,應(yīng)該越注重于學(xué)生教育,分?jǐn)?shù)應(yīng)該更高才對(duì)。

女性百分比(female_per)與 SAT 成績(jī)成正比,男性比例(male_per) 則相反。

調(diào)查反饋數(shù)據(jù)與 SAT 成績(jī)沒(méi)有什么相關(guān)性。

SAT 成績(jī)中有顯著的種族不平等性(white_per, asian_per, black_per, hispanic_per)。

ell_percent 與 SAT 成績(jī)有強(qiáng)烈的負(fù)相關(guān)性。

以上每一項(xiàng)都是一個(gè)潛在的探索方向,都可以使用數(shù)據(jù)來(lái)敘述一個(gè)故事。

設(shè)定上下文

在我們深入數(shù)據(jù)之前,要為自己以及讀者設(shè)定一個(gè)上下文。使用可探索的圖表或者地圖是一個(gè)好的方式。在本例中,我們按學(xué)校位置繪制出地圖,這可以幫組我們理解即將探索的問(wèn)題。

下面的代碼:

設(shè)立地圖中心為紐約市

為每所學(xué)校添加一個(gè)標(biāo)記

顯示地圖

import folium
from folium import plugins

schools_map = folium.Map(location=[full["lat"].mean(), full["lon"].mean()], zoom_start=10)
marker_cluster = folium.MarkerCluster().add_to(schools_map)
for name, row in full.iterrows():
    folium.Marker([row["lat"], row["lon"]], popup="{0}: {1}".format(row["DBN"], row["school_name"])).add_to(marker_cluster)
schools_map.save("schools.html")
schools_map

這幅地圖很有幫助,但很難看出哪個(gè)地區(qū)的學(xué)校最多。因此,我們制作一副熱力圖:

schools_heatmap = folium.Map(location=[full["lat"].mean(), full["lon"].mean()], zoom_start=10)
schools_heatmap.add_children(plugins.HeatMap([[row["lat"], row["lon"]] for name, row in full.iterrows()]))
schools_heatmap.save("heatmap.html")
schools_heatmap

學(xué)區(qū)地圖繪制

熱力圖對(duì)于繪制梯度差異很方便,但是我們希望使用更加結(jié)構(gòu)化的方式,來(lái)繪制城市中不同學(xué)校 SAT 成績(jī)的區(qū)別。學(xué)區(qū)是一個(gè)很好的可視化選擇,因?yàn)槊總€(gè)學(xué)期的管理各異。紐約市有數(shù)十個(gè)學(xué)期,每個(gè)學(xué)區(qū)就是一個(gè)小的地理范圍。

我們可以根據(jù)學(xué)期計(jì)算 SAT 成績(jī),然后將其繪制到地圖上。在下面的代碼中,我們將:

根據(jù)學(xué)區(qū)對(duì) full 進(jìn)行分組

計(jì)算每個(gè)學(xué)區(qū)的行均值

刪除 school_dist 字段中的前導(dǎo) 0 ,方便與地理區(qū)域數(shù)據(jù)進(jìn)行匹配

district_data = full.groupby("school_dist").agg(np.mean)
district_data.reset_index(inplace=True)
district_data["school_dist"] = district_data["school_dist"].apply(lambda x: str(int(x)))

現(xiàn)在我們可以繪制每個(gè)學(xué)區(qū)的平均 SAT 成績(jī)了。為此,我們讀取 GeoJSON 格式的數(shù)據(jù),獲取每個(gè)學(xué)區(qū)的形狀,然后通過(guò) school_dist 列將 SAT 成績(jī)與學(xué)區(qū)形狀關(guān)聯(lián)在一起,最后繪制出想要的圖形:

def show_district_map(col):
    geo_path = "schools/districts.geojson"
    districts = folium.Map(location=[full["lat"].mean(), full["lon"].mean()], zoom_start=10)
    districts.geo_json(
        geo_path=geo_path,
        data=district_data,
        columns=["school_dist", col],
        key_on="feature.properties.school_dist",
        fill_color="YlGn",
        fill_opacity=0.7,
        line_opacity=0.2,
    )
    districts.save("districts.html")
    return districts

show_district_map("sat_score")

入學(xué)率與 SAT 成績(jī)

繪制完每個(gè)學(xué)員的位置,并按學(xué)區(qū)繪制出 SAT 成績(jī)之后,我們就設(shè)定了分析的上下文。閱讀我們分析報(bào)告的人將能更好地理解數(shù)據(jù)集背后的上下文。接來(lái)下,我們進(jìn)行此前提到的分析。第一個(gè)是學(xué)校的學(xué)生數(shù)量與 SAT 成績(jī)之間的關(guān)系。

可以使用散點(diǎn)圖,來(lái)比較學(xué)校的入學(xué)率和 SAT 成績(jī)。

%matplotlib inline

full.plot.scatter(x="total_enrollment", y="sat_score")

我們發(fā)現(xiàn),左下方有大量的數(shù)據(jù)點(diǎn)聚集,表示低入學(xué)率低 SAT 成績(jī)。除此之外,SAT 成績(jī)和總?cè)雽W(xué)率之間似乎只有一點(diǎn)正相關(guān)。將相關(guān)性繪制出來(lái)可以發(fā)現(xiàn)意想不到的規(guī)律。

我們可以獲取低入學(xué)率、低 SAT 成績(jī)的學(xué)校名稱,進(jìn)行進(jìn)一步的探索。

full[(full["total_enrollment"] < 1000) & (full["sat_score"] < 1000)]["School Name"]

谷歌搜索結(jié)果顯示,這些學(xué)校中大多數(shù)是針對(duì)正在學(xué)習(xí)英語(yǔ)的學(xué)生,因此入學(xué)率也低。這一結(jié)果告訴我們,并不是說(shuō)總?cè)雽W(xué)率與 SAT 成績(jī)相關(guān),而是學(xué)校中的學(xué)生是否以英語(yǔ)為第二外語(yǔ)。

英語(yǔ)學(xué)生與 SAT 成績(jī)

既然我們知道了一個(gè)學(xué)習(xí)中英語(yǔ)學(xué)生的比例與較低的 SAT 成績(jī)相關(guān),可以進(jìn)一步作探索。ell_percent 列是每個(gè)學(xué)校中英語(yǔ)學(xué)生的比例。我們繪制一副散點(diǎn)圖來(lái)分析二者之間的關(guān)系。

full.plot.scatter(x="ell_percent", y="sat_score")

看上去有一些學(xué)校的英語(yǔ)學(xué)生比例很高,同時(shí)平均 SAT 成績(jī)卻很低。我們可以從學(xué)區(qū)層面對(duì)此進(jìn)行調(diào)查,弄清每個(gè)學(xué)區(qū)中英語(yǔ)學(xué)生的比例,然后檢查是否與根據(jù)學(xué)區(qū)繪制的 SAT 成績(jī)圖相匹配。

show_district_map("ell_percent")

從中可以看出,英語(yǔ)學(xué)生比例低的學(xué)區(qū),SAT 成績(jī)一般比較高,反之亦然。

調(diào)查分?jǐn)?shù)與 SAT 成績(jī)

我們可以合理地假設(shè),學(xué)生、家長(zhǎng)和老師調(diào)查的結(jié)果與 SAT 成績(jī)與較大的相關(guān)性。成績(jī)預(yù)期高的學(xué)校一般 SAT 成績(jī)也高。為了驗(yàn)證該假設(shè),我們結(jié)合 SAT 成績(jī)和各種調(diào)查結(jié)果進(jìn)行繪圖:

full.corr()["sat_score"][["rr_s", "rr_t", "rr_p", "N_s", "N_t", "N_p", "saf_tot_11", "com_tot_11", "aca_tot_11", "eng_tot_11"]].plot.bar()

令人意外的是,相關(guān)性最高的兩個(gè)因素是 N_pN_s,即參與調(diào)查的家長(zhǎng)和學(xué)生的數(shù)量。二者與總?cè)雽W(xué)率之間均呈強(qiáng)相關(guān)性,因此可能會(huì)受到 ell_learners 的影響。相關(guān)性強(qiáng)的其他指標(biāo)是 saf_t_11 。這是學(xué)生、家長(zhǎng)和老師對(duì)學(xué)校安全性的評(píng)價(jià)。一所學(xué)校越安全,學(xué)生更容易安心在其中學(xué)習(xí)。但是溝通、成績(jī)預(yù)期等其他因素與 SAT 成績(jī)之間沒(méi)有任何相關(guān)性。這或許說(shuō)明紐約市在調(diào)查時(shí)的問(wèn)題設(shè)計(jì)不妥,或者是調(diào)查因子就不正確(如果他們的目標(biāo)是提高 SAT 成績(jī)的話)。

種族和 SAT 成績(jī)

還有一個(gè)分析角度,就是種族和 SAT 成績(jī)。二者之間有很大的相關(guān)性,可視化后將有助于理解背后的原因:

full.corr()["sat_score"][["white_per", "asian_per", "black_per", "hispanic_per"]].plot.bar()

結(jié)果顯示,白人和亞洲學(xué)生的比例越高,SAT 成績(jī)就越高,而黑人和拉美裔學(xué)生比例越高,SAT 成績(jī)就越低。對(duì)于拉美裔學(xué)生來(lái)說(shuō),原因可能是近來(lái)移民的數(shù)量較大,其中多為英語(yǔ)學(xué)生。我們可以按地區(qū)繪制拉美裔的比例,來(lái)驗(yàn)證相關(guān)性。

show_district_map("hispanic_per")

拉美裔比例似乎和英語(yǔ)學(xué)生比例之間有一定相關(guān)性,但是要確定的話則需要做深入的分析和研究。

性別差別與 SAT 成績(jī)

最后一個(gè)分析角度是性別與SAT 成績(jī)。我們注意到女性比例更高的學(xué)校有更高的 SAT 成績(jī)。我們可以用一個(gè)柱狀圖來(lái)呈現(xiàn):

full.corr()["sat_score"][["male_per", "female_per"]].plot.bar()

為了挖掘更多信息,我們以 female_persat_score 列為軸繪制散點(diǎn)圖:

full.plot.scatter(x="female_per", y="sat_score")

在圖中,我們發(fā)現(xiàn)了一些擁有高比例女性和高 SAT 分?jǐn)?shù)的學(xué)校。可以這樣獲取這些學(xué)校的名字:

full[(full["female_per"] > 65) & (full["sat_score"] > 1400)]["School Name"]

谷歌搜索顯示,這些學(xué)校屬于表演藝術(shù)的精英學(xué)校。所以可以同時(shí)解釋這些學(xué)校有較高的女性占比以及較高的 SAT 分?jǐn)?shù)。

AP 成績(jī)

目前為止,我們已經(jīng)考慮了生源方面的分析角度。另一個(gè)方向是研究學(xué)生參加 AP 考試與SAT 成績(jī)的關(guān)系。二者之間應(yīng)該是相關(guān)的,學(xué)習(xí)成績(jī)好的學(xué)生,SAT 成績(jī)也應(yīng)更高。

full["ap_avg"] = full["AP Test Takers "] / full["total_enrollment"]

full.plot.scatter(x="ap_avg", y="sat_score")

看起來(lái)二者之間確實(shí)是正相關(guān)。右上方的學(xué)校很有趣,他們的 SAT 成績(jī)很高,學(xué)生參加 AP 考試的比例也很高。

full[(full["ap_avg"] > .3) & (full["sat_score"] > 1700)]["School Name"]

谷歌搜索顯示,它們大多數(shù)屬于需要考試才能入學(xué)的名牌學(xué)校。所以這些學(xué)校有高的 AP 考試比例也是理所當(dāng)然的。

故事總結(jié)

數(shù)據(jù)科學(xué)的世界里,故事絕不會(huì)完全結(jié)束。把你的分析分享給其他人,別人可以就任何感興趣的方向進(jìn)一步擴(kuò)充和塑造你的分析。比如本文中就有很多你可以繼續(xù)進(jìn)行挖掘的方向。

入門(mén)用數(shù)據(jù)來(lái)講故事最好的方式,就是嘗試擴(kuò)充或者復(fù)制其他人的分析。如果你決定這么做,非常歡迎你擴(kuò)展本文的分析,來(lái)看看你還會(huì)有什么發(fā)現(xiàn)。如果你這么做了,請(qǐng)?jiān)谙旅媪粞浴?/p> 下一步

如果你已經(jīng)學(xué)到這里了,代表你已經(jīng)理解如何用數(shù)據(jù)講故事和怎樣打造你的數(shù)據(jù)科學(xué)作品集。一旦你完成了你的數(shù)據(jù)科學(xué)項(xiàng)目,請(qǐng)將它傳到 Github,這樣別人就可以與你協(xié)作了。

本文首發(fā)于編程派公眾號(hào)及網(wǎng)站。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38186.html

相關(guān)文章

  • 打造數(shù)據(jù)科學(xué)品集:搭建一個(gè)數(shù)據(jù)科學(xué)博客

    摘要:讀完本文,你將學(xué)會(huì)如何使用靜態(tài)網(wǎng)站生成器,搭建一個(gè)屬于自己的博客,用來(lái)展示數(shù)據(jù)科學(xué)作品。靜態(tài)網(wǎng)站基本上,一個(gè)靜態(tài)網(wǎng)站就是一個(gè)全是文件的文件夾。建立靜態(tài)網(wǎng)站的一種方法是手寫(xiě),然后上傳所有的文件到服務(wù)器。 這是「打造數(shù)據(jù)科學(xué)作品集」系列文章的第二篇。如果你喜歡該系列,而且想知道下一篇文章什么時(shí)候發(fā)布,你可以訂閱我們。讀完本文,你將學(xué)會(huì)如何使用 Pelican 靜態(tài)網(wǎng)站生成器,搭建一個(gè)屬于...

    iamyoung001 評(píng)論0 收藏0
  • 【歷史上的今天】9 月 8 日:阿里開(kāi)放平臺(tái)計(jì)劃;英特爾發(fā)布首款雙核酷睿處理器;我國(guó)研制全數(shù)字高清晰

    摘要:資料來(lái)源維基百科年月日淘寶網(wǎng)發(fā)布開(kāi)放平臺(tái)淘園計(jì)劃年月日,淘寶網(wǎng)發(fā)布淘園計(jì)劃,推出淘寶大戰(zhàn)略。年月日,英特爾在京隆重舉 整理 | 王啟隆 透過(guò)「歷史上的今天」,...

    魏憲會(huì) 評(píng)論0 收藏0
  • 成為靠譜的數(shù)據(jù)科學(xué)家——從提出正確的問(wèn)題開(kāi)始

    摘要:我認(rèn)為提出正確的問(wèn)題和定義問(wèn)題陳述是許多數(shù)據(jù)科學(xué)初學(xué)者包括我面臨的一項(xiàng)挑戰(zhàn)。在本文中,我將與你分享作為數(shù)據(jù)科學(xué)家,該如何提出正確問(wèn)題并定義問(wèn)題陳述。我們的任務(wù)是幫助他們將問(wèn)題構(gòu)建成數(shù)據(jù)科學(xué)問(wèn)題,從他們的角度看問(wèn)題。 showImg(https://segmentfault.com/img/bVbnjxm?w=900&h=600);作者 | Admond Lee翻譯 | MikaCDA ...

    dendoink 評(píng)論0 收藏0
  • 程序員這條路,選擇深耕技術(shù),還是全面學(xué)習(xí)比較好?

    摘要:前言在開(kāi)發(fā)技術(shù)和應(yīng)用市場(chǎng)完全成熟的今天,有人希望深耕技術(shù)打造出自己的一片天地,也有人想廣泛學(xué)習(xí)在程序員市場(chǎng)中游刃有余。而這本書(shū)上千的引用論文,給我指明了一條系統(tǒng)學(xué)習(xí)理論的明路。 ...

    kun_jian 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<