{eval=Array;=+count(Array);}
這個問題思考了很久,作為過來人談一談,建議在看我這篇回答之前先去了解一下數(shù)據(jù)挖掘的概念和定義。
在學(xué)習(xí)數(shù)據(jù)挖掘之前你應(yīng)該明白幾點:
如果你閱讀了以上內(nèi)容覺得可以接受,那么繼續(xù)往下看。
學(xué)習(xí)一門技術(shù)要和行業(yè)靠攏,沒有行業(yè)背景的技術(shù)如空中樓閣。技術(shù)尤其是計算機領(lǐng)域的技術(shù)發(fā)展是寬泛且快速更替的(十年前做網(wǎng)頁設(shè)計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術(shù)細節(jié)。但是技術(shù)在結(jié)合行業(yè)之后就能夠獨當(dāng)一面了,一方面有利于抓住用戶痛點和剛性需求,另一方面能夠累計行業(yè)經(jīng)驗,使用互聯(lián)網(wǎng)思維跨界讓你更容易取得成功。不要在學(xué)習(xí)技術(shù)時想要面面俱到,這樣會失去你的核心競爭力。
(1).數(shù)據(jù)分析師
(2).數(shù)據(jù)挖掘工程師
(3).科學(xué)研究方向
真正從數(shù)據(jù)挖掘項目實踐的角度講,溝通能力對挖掘的興趣愛好是最重要的,有了愛好才可以愿意鉆研,有了不錯的溝通能力,才可以正確理解業(yè)務(wù)問題,才能正確把業(yè)務(wù)問題轉(zhuǎn)化成挖掘問題,才可以在相關(guān)不同專業(yè)人才之間清楚表達你的意圖和想法,取得他們的理解和支持。所以我認為溝通能力和興趣愛好是個人的數(shù)據(jù)挖掘的核心競爭力,是很難學(xué)到的;而其他的相關(guān)專業(yè)知識誰都可以學(xué),算不上個人發(fā)展的核心競爭力。
說到這里可能很多數(shù)據(jù)倉庫專家、程序員、統(tǒng)計師等等都要扔磚頭了,對不起,我沒有別的意思,你們的專業(yè)對于數(shù)據(jù)挖掘都很重要,大家本來就是一個整體的,但是作為多帶帶一個個體的人來說,精力有限,時間有限,不可能這些領(lǐng)域都能掌握,在這種情況下,選擇最重要的核心,我想應(yīng)該是數(shù)據(jù)挖掘技能和相關(guān)業(yè)務(wù)能力吧(從另外的一個極端的例子,我們可以看, 比如一個迷你型的挖掘項目,一個懂得市場營銷和數(shù)據(jù)挖掘技能的人應(yīng)該可以勝任。這其中他雖然不懂?dāng)?shù)據(jù)倉庫,但是簡單的Excel就足以勝任高達6萬個樣本的數(shù)據(jù)處理;他雖然不懂專業(yè)的展示展現(xiàn)技能,但是只要他自己看的懂就行了,這就無需什么展示展現(xiàn);前面說過,統(tǒng)計技能是應(yīng)該掌握的,這對個人的迷你項目很重要;他雖然不懂編程,但是專業(yè)挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業(yè)務(wù)能力的人就可以圓滿完成了,甚至在一個數(shù)據(jù)源中根據(jù)業(yè)務(wù)需求可以無窮無盡的挖掘不同的項目思路,試問就是這個迷你項目,單純的一個數(shù)據(jù)倉庫專家、單純的一個程序員、單純的一個展示展現(xiàn)技師、甚至單純的一個挖掘技術(shù)專家,都是無法勝任的)。這從另一個方面也說明了為什么溝通能力的重要,這些個完全不同的專業(yè)領(lǐng)域,想要有效有機地整合在一起進行數(shù)據(jù)挖掘項目實踐,你說沒有好的溝通能力行嗎?
數(shù)據(jù)挖掘能力只能在項目實踐的熔爐中提升、升華,所以跟著項目學(xué)挖掘是最有效的捷徑。國外學(xué)習(xí)挖掘的人都是一開始跟著老板做項目,剛開始不懂不要緊,越不懂越知道應(yīng)該學(xué)什么,才能學(xué)得越快越有效果。我不知道國內(nèi)的數(shù)據(jù)挖掘?qū)W生是怎樣學(xué)的,但是從網(wǎng)上的一些論壇看,很多都是紙上談兵,這樣很浪費時間,很沒有效率。
另外現(xiàn)在國內(nèi)關(guān)于數(shù)據(jù)挖掘的概念都很混亂,很多BI只是局限在報表的展示和簡單的統(tǒng)計分析,卻也號稱是數(shù)據(jù)挖掘;另一方面,國內(nèi)真正規(guī)模化實施數(shù)據(jù)挖掘的行業(yè)是屈指可數(shù)(銀行、保險公司、移動通訊),其他行業(yè)的應(yīng)用就只能算是小規(guī)模的,比如很多大學(xué)都有些相關(guān)的挖掘課題、挖掘項目,但都比較分散,而且都是處于摸索階段,但是我相信數(shù)據(jù)挖掘在中國一定是好的前景,因為這是歷史發(fā)展的必然。
人一能之,己十之;人十能之,己千之。果能此道矣,雖愚,必明;雖柔,必強。與君共勉。
作為有著兩三年數(shù)據(jù)科學(xué)從業(yè)經(jīng)驗的過來人,我想結(jié)合自己一些數(shù)據(jù)科學(xué)淺薄的經(jīng)驗來回答這個問題。
從零開始學(xué)習(xí)數(shù)據(jù)挖掘,首先需要明白數(shù)據(jù)挖掘是做什么的?
百度百科中的定義為:數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,并且數(shù)據(jù)挖掘橫跨多個領(lǐng)域,涵蓋了統(tǒng)計學(xué)、數(shù)學(xué)、機器學(xué)習(xí)和數(shù)據(jù)庫等,是一個交叉學(xué)科。
所以,學(xué)習(xí)數(shù)據(jù)挖掘需要學(xué)習(xí)多種知識。
如果是已畢業(yè)工作中的小伙伴,建議先從編程能力實現(xiàn)一些數(shù)據(jù)分析需求來入手。因為工作中可能沒有太大塊的學(xué)習(xí)時間,想在工作的同時學(xué)習(xí),就要有一定工程能力滿足老板的一些數(shù)據(jù)分析需求。適合數(shù)據(jù)挖掘的語言有編程語言python,以及偏統(tǒng)計的語言R,sas,數(shù)據(jù)采集語言sql等。python的優(yōu)點是工作中懂的開發(fā)人員比較多,比較好溝通,近年來也是很火的語言。推薦的書籍:《跟老齊學(xué)python》,《笨方法學(xué)python》,《利用Python進行數(shù)據(jù)分析》等,網(wǎng)上的課程:
https://github.com/jackfrued/Python-100-Days
等。關(guān)于R語言我的經(jīng)驗比較少,不好推薦。sas語言是金融機構(gòu)用得比較多,因為是閉源的,從信息安全角度看比較合適。推薦的書:《The Little sas book》、《深入解析SAS》等。sql語言相對比較簡單,可以在工作中學(xué)習(xí),就不作推薦了。剛才提到實現(xiàn)一些數(shù)據(jù)分析需求也能有助于數(shù)據(jù)挖掘,因為數(shù)據(jù)挖掘除了剛才提到是交叉學(xué)科外,為了能讓項目落地產(chǎn)生價值還需要學(xué)習(xí)我們的業(yè)務(wù),例如我們的數(shù)據(jù)挖掘是基于金融業(yè)務(wù)的或者電商業(yè)務(wù)的,那么就要學(xué)習(xí)金融業(yè)務(wù)或電商業(yè)務(wù)的相關(guān)知識。那么數(shù)據(jù)分析就是一個鍛煉業(yè)務(wù)敏感度的一個很好的方式。為了讓數(shù)據(jù)挖掘產(chǎn)生價值,業(yè)務(wù)經(jīng)驗很重要,這是很多從業(yè)人員比較容易忽略的一個點。
后面進階的話就必須需要數(shù)學(xué)基礎(chǔ)和機器學(xué)習(xí)算法了,因為很多的機器學(xué)習(xí)算法乃至深度學(xué)習(xí)都是以數(shù)學(xué)、統(tǒng)計學(xué)理論為基礎(chǔ)。這也是市場上招聘數(shù)據(jù)挖掘工程師、算法工程師、數(shù)據(jù)分析師比較青睞數(shù)學(xué)相關(guān)專業(yè)的人士原因。數(shù)學(xué)推薦書籍:《高等數(shù)學(xué)》,《高等代數(shù)》,《概率論與數(shù)理統(tǒng)計》等。算法推薦書籍:《統(tǒng)計學(xué)習(xí)方法》,周志華的《機器學(xué)習(xí)》
至于大數(shù)據(jù)方面知識的學(xué)習(xí)也是比較重要的,在公司發(fā)展到后期階段積累了比較大數(shù)據(jù)量的時候,也是要學(xué)一些大數(shù)據(jù)挖掘的框架如hadoop和spark等。所以最近也有新的一個崗位大數(shù)據(jù)算法工程師也是要求大數(shù)據(jù)方面的從業(yè)經(jīng)驗。
所以總的路線就是:編程語言=》數(shù)據(jù)分析實踐積累業(yè)務(wù)經(jīng)驗=〉數(shù)學(xué)基礎(chǔ)和機器學(xué)習(xí)算法=》大數(shù)據(jù)框架。
當(dāng)然每個人背景不一樣,所以學(xué)習(xí)路線都可能不同,但提到的這幾點是個人覺得比較重要的。有不同看法的大牛也歡迎來討論討論。
數(shù)據(jù)挖掘:What?Why?How?
這個問題思考了很久,作為過來人談一談,建議先看下以前的一些回答。
磨刀不誤砍柴工。在學(xué)習(xí)數(shù)據(jù)挖掘之前應(yīng)該明白幾點:
如果你閱讀了以上內(nèi)容覺得可以接受,那么繼續(xù)往下看。
學(xué)習(xí)一門技術(shù)要和行業(yè)靠攏,沒有行業(yè)背景的技術(shù)如空中樓閣。技術(shù)尤其是計算機領(lǐng)域的技術(shù)發(fā)展是寬泛且快速更替的(十年前做網(wǎng)頁設(shè)計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術(shù)細節(jié)。但是技術(shù)在結(jié)合行業(yè)之后就能夠獨當(dāng)一面了,一方面有利于抓住用戶痛點和剛性需求,另一方面能夠累計行業(yè)經(jīng)驗,使用互聯(lián)網(wǎng)思維跨界讓你更容易取得成功。不要在學(xué)習(xí)技術(shù)時想要面面俱到,這樣會失去你的核心競爭力。
一、目前國內(nèi)的數(shù)據(jù)挖掘人員工作領(lǐng)域大致可分為三類。
二、說說各工作領(lǐng)域需要掌握的技能。
(1).數(shù)據(jù)分析師
(2).數(shù)據(jù)挖掘工程師
(3).科學(xué)研究方向
三、以下是通信行業(yè)數(shù)據(jù)挖掘工程師的工作感受。
真正從數(shù)據(jù)挖掘項目實踐的角度講,溝通能力對挖掘的興趣愛好是最重要的,有了愛好才可以愿意鉆研,有了不錯的溝通能力,才可以正確理解業(yè)務(wù)問題,才能正確把業(yè)務(wù)問題轉(zhuǎn)化成挖掘問題,才可以在相關(guān)不同專業(yè)人才之間清楚表達你的意圖和想法,取得他們的理解和支持。所以我認為溝通能力和興趣愛好是個人的數(shù)據(jù)挖掘的核心競爭力,是很難學(xué)到的;而其他的相關(guān)專業(yè)知識誰都可以學(xué),算不上個人發(fā)展的核心競爭力。
說到這里可能很多數(shù)據(jù)倉庫專家、程序員、統(tǒng)計師等等都要扔磚頭了,對不起,我沒有別的意思,你們的專業(yè)對于數(shù)據(jù)挖掘都很重要,大家本來就是一個整體的,但是作為多帶帶一個個體的人來說,精力有限,時間有限,不可能這些領(lǐng)域都能掌握,在這種情況下,選擇最重要的核心,我想應(yīng)該是數(shù)據(jù)挖掘技能和相關(guān)業(yè)務(wù)能力吧(從另外的一個極端的例子,我們可以看, 比如一個迷你型的挖掘項目,一個懂得市場營銷和數(shù)據(jù)挖掘技能的人應(yīng)該可以勝任。這其中他雖然不懂?dāng)?shù)據(jù)倉庫,但是簡單的Excel就足以勝任高打6萬個樣本的數(shù)據(jù)處理;他雖然不懂專業(yè)的展示展現(xiàn)技能,但是只要他自己看的懂就行了,這就無需什么展示展現(xiàn);前面說過,統(tǒng)計技能是應(yīng)該掌握的,這對一個人的迷你項目很重要;他雖然不懂編程,但是專業(yè)挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業(yè)務(wù)能力的人就可以圓滿完成了,甚至在一個數(shù)據(jù)源中根據(jù)業(yè)務(wù)需求可以無窮無盡的挖掘不同的項目思路,試問就是這個迷你項目,單純的一個數(shù)據(jù)倉庫專家、單純的一個程序員、單純的一個展示展現(xiàn)技師、甚至單純的一個挖掘技術(shù)專家,都是無法勝任的)。這從另一個方面也說明了為什么溝通能力的重要,這些個完全不同的專業(yè)領(lǐng)域,想要有效有機地整合在一起進行數(shù)據(jù)挖掘項目實踐,你說沒有好的溝通能力行嗎?
數(shù)據(jù)挖掘能力只能在項目實踐的熔爐中提升、升華,所以跟著項目學(xué)挖掘是最有效的捷徑。國外學(xué)習(xí)挖掘的人都是一開始跟著老板做項目,剛開始不懂不要緊,越不懂越知道應(yīng)該學(xué)什么,才能學(xué)得越快越有效果。我不知道國內(nèi)的數(shù)據(jù)挖掘?qū)W生是怎樣學(xué)的,但是從網(wǎng)上的一些論壇看,很多都是紙上談兵,這樣很浪費時間,很沒有效率。
另外現(xiàn)在國內(nèi)關(guān)于數(shù)據(jù)挖掘的概念都很混亂,很多BI只是局限在報表的展示和簡單的統(tǒng)計分析,卻也號稱是數(shù)據(jù)挖掘;另一方面,國內(nèi)真正規(guī)?;瘜嵤?shù)據(jù)挖掘的行業(yè)是屈指可數(shù)(銀行、保險公司、移動通訊),其他行業(yè)的應(yīng)用就只能算是小規(guī)模的,比如很多大學(xué)都有些相關(guān)的挖掘課題、挖掘項目,但都比較分散,而且都是處于摸索階段,但是我相信數(shù)據(jù)挖掘在中國一定是好的前景,因為這是歷史發(fā)展的必然。
講到移動方面的實踐案例,如果你是來自移動的話,你一定知道國內(nèi)有家叫華院分析的公司(申明,我跟這家公司沒有任何關(guān)系,我只是站在數(shù)據(jù)挖掘者的角度分析過中國大多數(shù)的號稱數(shù)據(jù)挖掘服務(wù)公司,覺得華院還不錯,比很多徒有虛名的大公司來得更實際),他們的業(yè)務(wù)現(xiàn)在已經(jīng)覆蓋了絕大多數(shù)中國省級移動公司的分析挖掘項目,你上網(wǎng)搜索一下應(yīng)該可以找到一些詳細的資料吧。我對華院分析印象最深的一點就是2002年這個公司白手起家,自己不懂不要緊,一邊自學(xué)一邊開始拓展客戶,到現(xiàn)在在中國的移動通訊市場全面開花,的確佩服佩服呀。他們最開始都是用EXCEL處理數(shù)據(jù),用肉眼比較選擇比較不同的模型,你可以想象這其中的艱難吧。
至于移動通訊的具體的數(shù)據(jù)挖掘的應(yīng)用,那太多了,比如不同話費套餐的制訂、客戶流失模型、不同服務(wù)交叉銷售模型、不同客戶對優(yōu)惠的彈性分析、客戶群體細分模型、不同客戶生命周期模型、渠道選擇模型、惡意欺詐預(yù)警模型,太多了,記住,從客戶的需求出發(fā),從實踐中的問題出發(fā),移動中可以發(fā)現(xiàn)太多的挖掘項目。最后告訴你一個秘密,當(dāng)你數(shù)據(jù)挖掘能力提升到一定程度時,你會發(fā)現(xiàn)無論什么行業(yè),其實數(shù)據(jù)挖掘的應(yīng)用有大部分是重合的相似的,這樣你會覺得更輕松。
四、成為一名數(shù)據(jù)科學(xué)家需要掌握的技能圖。(原文:Data Science: How do I become a data scientist?)
人一能之,己十之;人十能之,己千之。果能此道矣,雖愚,必明;雖柔,必強。
與君共勉。
以上,祝各位挖掘到自己的快樂和金礦:)
0
回答0
回答0
回答0
回答0
回答0
回答10
回答0
回答0
回答10
回答