摘要:去吧,參加一個(gè)在上正在舉辦的實(shí)時(shí)比賽吧試試你所學(xué)到的全部知識(shí)微軟雅黑深度學(xué)習(xí)終于看到這個(gè),興奮吧現(xiàn)在,你已經(jīng)學(xué)到了絕大多數(shù)關(guān)于機(jī)器學(xué)習(xí)的技術(shù),是時(shí)候試試深度學(xué)習(xí)了。微軟雅黑對(duì)于深度學(xué)習(xí),我也是個(gè)新手,就請(qǐng)把這些建議當(dāng)作參考吧。
如果你想做一個(gè)數(shù)據(jù)科學(xué)家,或者作為一個(gè)數(shù)據(jù)科學(xué)家你想擴(kuò)展自己的工具和知識(shí)庫(kù),那么,你來(lái)對(duì)地方了。
這篇文章的目的,是給剛開(kāi)始使用Python進(jìn)行數(shù)據(jù)分析的人,指明一條全面的Python學(xué)習(xí)路徑。這條路徑提供了用Python進(jìn)行數(shù)據(jù)分析的必要步驟的一個(gè)全面概述。如果你已經(jīng)有了一些基礎(chǔ),或者不需要所有的內(nèi)容,可以隨意調(diào)整學(xué)習(xí)路徑以適合自己,并讓我們知道你是怎么改動(dòng)的。
0熱身運(yùn)動(dòng)
在開(kāi)始學(xué)習(xí)之前,第一個(gè)需要回答的問(wèn)題是
推薦這個(gè)30分鐘的錄像,它是DataRobot創(chuàng)始人Jeremy在2014年P(guān)ython社區(qū)大會(huì)(PyCon)上的講話(huà),它能夠讓你了解Python有多有用。小編注:建議在Wi-Fi連接下觀看。
1、設(shè)置你的計(jì)算機(jī)
既然你已經(jīng)下定了決心,是時(shí)候設(shè)置你的計(jì)算機(jī)了。最簡(jiǎn)單的方法是直接從Continuum.io下載Anaconda,它含有你Python生涯中需要的絕大多數(shù)好東東 。
https://store.continuum.io/cshop/anaconda/
這樣做的主要缺點(diǎn)是,即便有一些底層包已經(jīng)有更新版本的時(shí)候,你還是需要等待Continuum更新Anaconda中的包。如果你只是剛剛開(kāi)始,那這一點(diǎn)就不算是個(gè)問(wèn)題。如果在安裝時(shí)遇到任何困難,你可以在下面這個(gè)網(wǎng)站找到在不同操作系統(tǒng)下安裝的詳細(xì)指引。
http://www.datarobot.com/blog/getting-up-and-running-with-python/?
2、學(xué)習(xí)基本知識(shí)
你應(yīng)該從了解Python語(yǔ)言、庫(kù)和數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)知識(shí)開(kāi)始,這個(gè)來(lái)自Codecademy的教程是你開(kāi)始學(xué)習(xí)的較佳選擇之一。
http://www.codecademy.com/tracks/python
在學(xué)完這個(gè)教程后,你應(yīng)該可以輕松地用Python寫(xiě)些小程序,并且對(duì)類(lèi)和對(duì)象的含義也有了理解。
特別學(xué)習(xí):Lists(列表),Tuples(元組),Dictionaries(字典),列表的內(nèi)涵和字典的內(nèi)涵。
完成作業(yè):完成在HackerRank上的教程習(xí)題。這些作業(yè)應(yīng)該能讓你的大腦因Python而“燃燒”。
備用資源:如果交互式編程學(xué)習(xí)不適合你,你也可以看看這個(gè)Google上的Python課程。這個(gè)兩天的課程,內(nèi)容覆蓋了隨后會(huì)提到的一些內(nèi)容。
https://developers.google.com/edu/python/。?
3、學(xué)習(xí)正則表達(dá)式
你將會(huì)大量使用它來(lái)進(jìn)行數(shù)據(jù)清洗,特別是在處理文本數(shù)據(jù)。學(xué)習(xí)正則表達(dá)式的較好方法是完成這個(gè)課程
https://developers.google.com/edu/python/regular-expressions
并把這個(gè)“夾帶”(當(dāng)然不是考試的小抄,是速查表)放在隨手可得的地方。
小編注:請(qǐng)上網(wǎng)站查看完整內(nèi)容。
www.debuggex.com/cheatsheet/regex/python
完成“嬰兒取名”練習(xí)
https://developers.google.com/edu/python/exercises/baby-names
如果想(gou)要(dan)更多的練習(xí),請(qǐng)學(xué)習(xí)這個(gè)文本清理的課程。該課程將會(huì)在數(shù)據(jù)清理的不同步驟給你挑戰(zhàn)。
http://www.analyticsvidhya.com/blog/2014/11/text-data-cleaning-steps-python/。
4、學(xué)習(xí)Python科學(xué)庫(kù)
有趣之事,始于此處!這里,簡(jiǎn)要介紹不同的Python科學(xué)庫(kù)——NumPy, SciPy, Matplotlib和Pandas。那么,讓我們開(kāi)始練習(xí)常用操作吧!
完整地練習(xí)NumPy操作課程,特別是NumPy的數(shù)組操作。這會(huì)建立一個(gè)好的基礎(chǔ),為將要面臨的現(xiàn)實(shí)挑戰(zhàn)做準(zhǔn)備。
http://wiki.scipy.org/Tentative_NumPy_Tutorial
接下來(lái),看看SciPy的課程。完整學(xué)習(xí)簡(jiǎn)介和基礎(chǔ)知識(shí)部分,剩余部分可根據(jù)個(gè)人需要進(jìn)行學(xué)習(xí)。
http://docs.scipy.org/doc/scipy/reference/tutorial/
如果你猜下一個(gè)是Matplotlib教程,那就錯(cuò)了!就我們目前的情況而言,它們太過(guò)全面了。事實(shí)上,把ipython筆記看到第68行(到animations)就基本可以了。
http://nbviewer.ipython.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-4-Matplotlib.ipynb
?最后,我們來(lái)看Pandas。它為Python提供了數(shù)據(jù)幀(DataFrame)的功能,類(lèi)似于R語(yǔ)言。你也需要在這上面多花時(shí)間好好練習(xí)。對(duì)于所有中等規(guī)模的數(shù)據(jù)分析來(lái)說(shuō),Panda將會(huì)成為最有效的工具。從這個(gè)短小的10分鐘入門(mén)開(kāi)始,了解一下Pandas。然后,... ...
http://pandas.pydata.org/pandas-docs/stable/10min.html?
然后,再看更詳細(xì)的課程
http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/。
你還可以看看“用Pandas進(jìn)行探索性數(shù)據(jù)分析”(http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/)以及“用Pandas進(jìn)行數(shù)據(jù)整合”(http://www.analyticsvidhya.com/blog/2014/08/baby-steps-python-performing-exploratory-analysis-python/)兩篇文章。其它資源:
?如果你需要一本有關(guān)Pandas和NumPy的教材,推薦Wes McKinney著的《Python for Data Analysis》
?下面這個(gè)網(wǎng)站,還有很多的教程可作為Pandas的學(xué)習(xí)材料。
http://pandas.pydata.org/pandas-docs/stable/tutorials.html
完成來(lái)自哈佛大學(xué)CS109課程的作業(yè)。
http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW1.ipynb
小編注:回復(fù) 可視化 查看【數(shù)據(jù)科學(xué)之5個(gè)較佳Python庫(kù)】,了解關(guān)于這些科學(xué)庫(kù)的更多介紹和學(xué)習(xí)資源。
5、有效的數(shù)據(jù)可視化
學(xué)完這個(gè)來(lái)自CS109的課程,你可以跳過(guò)前面的兩分鐘,接來(lái)下的內(nèi)容非常精彩!
http://cm.dce.harvard.edu/2015/01/14328/L03/screen_H264LargeTalkingHead-16x9.shtml
跟著課程完成下面課程作業(yè)
http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW2.ipynb
6、學(xué)習(xí)Scikit-learn和機(jī)器學(xué)習(xí)
現(xiàn)在,我們來(lái)到了整個(gè)過(guò)程的實(shí)質(zhì)部分。Scikit-learn是在Python中對(duì)機(jī)器學(xué)習(xí)最有用的庫(kù)。
學(xué)完來(lái)自哈佛大學(xué)2014年的CS109課程中第10講到第18講。你會(huì)全面了解機(jī)器學(xué)習(xí),監(jiān)督式學(xué)習(xí)算法(如回歸、決策樹(shù)、整體建模等)和非監(jiān)督式學(xué)習(xí)算法(如聚類(lèi)等)。切記,跟隨每一講,完成作業(yè)。
http://cs109.github.io/2014/pages/schedule.html
其它資源:
?如果有一本必讀的書(shū),那就是《Programming Collective Intelligence》,非常經(jīng)典,仍然是關(guān)于這方面較好的書(shū)之一
?另外,如果你需要技術(shù)上更清晰的解釋?zhuān)梢赃x擇Andrew Ng(這位大牛的課,不該不知道吧?)課程 ,用Python完成其中的習(xí)題。
https://www.coursera.org/course/ml
Scikit-lean的教程(這個(gè)不能忘)
試著完成Kaggle上的這個(gè)挑戰(zhàn)
http://www.kaggle.com/c/data-science-london-scikit-learn
7、練習(xí),練習(xí),再練習(xí)
祝賀你,你做到了!現(xiàn)在,你已經(jīng)擁有所需要的全部技能,只差練習(xí)了。哪里會(huì)有比在Kaggle上練習(xí)更好呢?上Kaggle與跟你一樣的數(shù)據(jù)科學(xué)家一較高下。去吧,參加一個(gè)在Kaggle上正在舉辦的實(shí)時(shí)比賽吧!試試你所學(xué)到的全部知識(shí)!
http://www.kaggle.com/
8、深度學(xué)習(xí)
終于看到這個(gè),興奮吧?!現(xiàn)在,你已經(jīng)學(xué)到了絕大多數(shù)關(guān)于機(jī)器學(xué)習(xí)的技術(shù),是時(shí)候試試深度學(xué)習(xí)了。很有可能你已然知道什么是深度學(xué)習(xí),萬(wàn)一仍然需要一個(gè)簡(jiǎn)要介紹,可以看看這個(gè)。
http://www.analyticsvidhya.com/blog/2014/06/deep-learning-attention/
對(duì)于深度學(xué)習(xí),我也是個(gè)新手,就請(qǐng)把這些建議當(dāng)作參考吧。最全面的資源在deeplearning.net上,在那里,你會(huì)找到所有的東西——講座、數(shù)據(jù)集、挑戰(zhàn)和教程。
http://deeplearning.net
如果想要了解神經(jīng)網(wǎng)絡(luò)的基本知識(shí),試著學(xué)習(xí)Geoff Hinton(這個(gè)大牛,你應(yīng)該也是知道的吧)的課程
https://www.coursera.org/course/neuralnets
篇外話(huà):假如你需要面向大數(shù)據(jù)的Python庫(kù),請(qǐng)?jiān)囋嘝ydoop和PyMongo。由于“大數(shù)據(jù)的學(xué)習(xí)路徑”本身就是一個(gè)完整的話(huà)題,因此,本文并未涉及。
來(lái)源:
1. http://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/
2. https://www.youtube.com/watch?v=CoxjADZHUQA【譯者簡(jiǎn)介】
姚佳靈:家庭主婦,對(duì)數(shù)據(jù)處理和數(shù)據(jù)分析很感興趣,正在學(xué)習(xí)Python,希望能和大家多交流。
康欣:博士,多年從事圖像及數(shù)據(jù)處理和分析、計(jì)算機(jī)視覺(jué)、模式識(shí)別、機(jī)器學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的技術(shù)研究和創(chuàng)新應(yīng)用,現(xiàn)為西門(mén)子中國(guó)研究院高級(jí)研究員。希望借此平臺(tái),與大數(shù)據(jù)分析愛(ài)好者以及專(zhuān)家學(xué)者交流、合作。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4319.html
摘要:用離散信一文清晰講解機(jī)器學(xué)習(xí)中梯度下降算法包括其變式算法無(wú)論是要解決現(xiàn)實(shí)生活中的難題,還是要?jiǎng)?chuàng)建一款新的軟件產(chǎn)品,我們最終的目標(biāo)都是使其達(dá)到最優(yōu)狀態(tài)。 提高駕駛技術(shù):用GAN去除(愛(ài)情)動(dòng)作片中的馬賽克和衣服 作為一名久經(jīng)片場(chǎng)的老司機(jī),早就想寫(xiě)一些探討駕駛技術(shù)的文章。這篇就介紹利用生成式對(duì)抗網(wǎng)絡(luò)(GAN)的兩個(gè)基本駕駛技能: 1) 去除(愛(ài)情)動(dòng)作片中的馬賽克 2) 給(愛(ài)情)動(dòng)作片中...
摘要:天真的幻想站不住腳以技術(shù)安身立命自從就讀軟件工程以來(lái)就曾是我一直追求的目標(biāo)我相信這也是很多軟件人的目標(biāo)只是參加業(yè)務(wù)開(kāi)發(fā)后的種種讓我覺(jué)得這個(gè)信條在大部分業(yè)務(wù)開(kāi)發(fā)中都只是一個(gè)天真的幻想打造技術(shù)專(zhuān)家不僅缺乏養(yǎng)成的環(huán)境也缺乏使用的機(jī)會(huì)拿自己來(lái)說(shuō)我所 天真的幻想站不住腳 以技術(shù)安身立命,自從就讀軟件工程以來(lái),就曾是我一直追求的目標(biāo),我相信這也是很多軟件人的目標(biāo);只是參加業(yè)務(wù)開(kāi)發(fā)后的種種讓我覺(jué)得這...
摘要:是你學(xué)習(xí)從入門(mén)到專(zhuān)家必備的學(xué)習(xí)路線(xiàn)和優(yōu)質(zhì)學(xué)習(xí)資源。的數(shù)學(xué)基礎(chǔ)最主要是高等數(shù)學(xué)線(xiàn)性代數(shù)概率論與數(shù)理統(tǒng)計(jì)三門(mén)課程,這三門(mén)課程是本科必修的。其作為機(jī)器學(xué)習(xí)的入門(mén)和進(jìn)階資料非常適合。書(shū)籍介紹深度學(xué)習(xí)通常又被稱(chēng)為花書(shū),深度學(xué)習(xí)領(lǐng)域最經(jīng)典的暢銷(xiāo)書(shū)。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導(dǎo)讀】本文由知名開(kāi)源平...
摘要:大家好,我是冰河有句話(huà)叫做投資啥都不如投資自己的回報(bào)率高。馬上就十一國(guó)慶假期了,給小伙伴們分享下,從小白程序員到大廠(chǎng)高級(jí)技術(shù)專(zhuān)家我看過(guò)哪些技術(shù)類(lèi)書(shū)籍。 大家好,我是...
閱讀 3379·2021-11-22 09:34
閱讀 2894·2021-10-09 09:43
閱讀 1464·2021-09-24 09:47
閱讀 2213·2019-08-30 12:53
閱讀 1013·2019-08-29 14:00
閱讀 3374·2019-08-29 13:17
閱讀 2279·2019-08-28 18:00
閱讀 1298·2019-08-26 12:00