{eval=Array;=+count(Array);}
推薦的學習書單
1.《統(tǒng)計學習基礎(chǔ) 數(shù)據(jù)挖掘、推理與預測》
盡管應用的是統(tǒng)計學方法,但強調(diào)的是概念,而不是數(shù)學。《統(tǒng)計學習基礎(chǔ):數(shù)據(jù)挖掘、推理與預測》內(nèi)容廣泛,從有指導的學習(預測),到無指導的學習;從神經(jīng)網(wǎng)絡(luò)、支持向量機,到分類樹、提升等主題,應有盡有,許多例子還附以彩圖,是同類書籍中介紹最全面的。計算和信息技術(shù)的飛速發(fā)展帶來了醫(yī)學、生物學、財經(jīng)和營銷等諸多領(lǐng)域的海量數(shù)據(jù)。理解這些數(shù)據(jù)是一種挑戰(zhàn),這導致了統(tǒng)計學領(lǐng)域新工具的發(fā)展,并延伸到諸如數(shù)據(jù)挖掘、機器學習和生物信息學等新領(lǐng)域。
2.《模式分類》第二版
除了保留了第1版的關(guān)于統(tǒng)計模式識別和結(jié)構(gòu)模式識別的主要內(nèi)容以外,讀者將會發(fā)現(xiàn)新增了許多近25年來的新理論和新方法,其中包括神經(jīng)網(wǎng)絡(luò)、機器學習、數(shù)據(jù)挖掘、進化計算、不變量理論、隱馬爾可夫模型、統(tǒng)計學習理論和支持向量機等。
3.《推薦系統(tǒng)實踐》
過大量代碼和圖表全面系統(tǒng)地闡述了和推薦系統(tǒng)有關(guān)的理論基礎(chǔ),介紹了評價推薦系統(tǒng)優(yōu)劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試),總結(jié)了當今互聯(lián)網(wǎng)領(lǐng)域中各種和推薦有關(guān)的產(chǎn)品和服務。
4.《深入搜索引擎–海量信息的壓縮、索引和查詢》
理論和實踐并重,深入淺出地給出了海量信息數(shù)據(jù)處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在于不僅僅滿足信息檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。
5.《概率論與數(shù)理統(tǒng)計》
這本書不用過多介紹了吧,普遍大學里大一時期的教科書,只恨當年沒聽課啊,現(xiàn)在正在慢慢啃。
6.《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》
主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。
7.《Web數(shù)據(jù)挖掘》
信息檢索領(lǐng)域的書籍,該書深入講解了從大量非結(jié)構(gòu)化Web數(shù)據(jù)中提取和產(chǎn)生知識的技術(shù)。書中首先論述了Web的基礎(chǔ)(包括Web信息采集機制、Web標引機制以及基于關(guān)鍵字或基于相似性搜索機制),然后系統(tǒng)地描述了Web挖掘的基礎(chǔ)知識,著重介紹基于超文本的機器學習和數(shù)據(jù)挖掘方法,如聚類、協(xié)同過濾、監(jiān)督學習、半監(jiān)督學習,最后講述了這些基本原理在Web挖掘中的應用。《Web數(shù)據(jù)挖掘》為讀者提供了堅實的技術(shù)背景和最新的知識。
8.《數(shù)據(jù)之巔》
對大數(shù)據(jù)追根溯源,提出當前信息技術(shù)的發(fā)展,已經(jīng)讓中國獲得了后發(fā)優(yōu)勢,中國要在大數(shù)據(jù)時代的全球競爭中勝出,必須把大數(shù)據(jù)從科技符號提升成為文化符號,在全社會倡導數(shù)據(jù)文化。
9.《深入淺出統(tǒng)計學》
本書涵蓋的知識點包括:信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態(tài)分布、統(tǒng)計抽樣、置信區(qū)間的構(gòu)建、假設(shè)檢驗、卡方分布、相關(guān)與回歸等等,完整涵蓋AP考試范圍。
10.《矩陣分析》
本書從數(shù)學分析的角度論述矩陣分析的經(jīng)典方法和現(xiàn)代方法,取材新,有一定的深度,并給出在多元微積分、復分析、微分方程、量優(yōu)化、逼近理論中的許多重要應用。主要內(nèi)容包括:特征值、特征向量和相似性,酉等價和正規(guī)矩陣,標準形,Hermite矩陣和對稱矩陣,向量范數(shù)和矩陣范數(shù),特征值和估計和擾動,正定矩陣,非負矩陣。
11.《統(tǒng)計學習方法》
本書全面系統(tǒng)地介紹了統(tǒng)計學習的主要方法,特別是監(jiān)督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與最大熵模型、支持向量機、提升方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最后一章總結(jié)外,每章介紹一種方法。敘述從具體問題或?qū)嵗胧?,由淺入深,闡明思路,給出必要的數(shù)學推導,便于讀者掌握統(tǒng)計學習方法的實質(zhì),學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關(guān)研究,給出了少量習題,列出了主要參考文獻。
12.《機器學習導論》
對機器學習的定義和應用實例進行了介紹,涵蓋了監(jiān)督學習。貝葉斯決策理論。參數(shù)方法、多元方法、維度歸約、聚類、非參數(shù)方法、決策樹。線性判別式、多層感知器,局部模型、隱馬爾可夫模型。分類算法評估和比較,組合多學習器以及增強學習等。
《機器學習及其應用》:全書共分14章,內(nèi)容涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序?qū)W習、半監(jiān)督學習等技術(shù)和協(xié)同過濾、社區(qū)推薦、機器翻譯等應用,以及互聯(lián)網(wǎng)應用對機。
謝謝邀請!
大數(shù)據(jù)的基礎(chǔ)學科有三個,分別是數(shù)學、統(tǒng)計學和計算機學,所以學習大數(shù)據(jù)首先要具備一定的數(shù)學基礎(chǔ),包括高等數(shù)學、線性代數(shù)、概率論和離散數(shù)學,然后是基礎(chǔ)的統(tǒng)計學基礎(chǔ)和計算機基礎(chǔ)。
雖然大數(shù)據(jù)的崗位比較多,遍布數(shù)據(jù)的采集、整理、存儲、安全、分析、呈現(xiàn)等方面,但是比較核心的大數(shù)據(jù)崗位包括大數(shù)據(jù)平臺研發(fā)、大數(shù)據(jù)應用開發(fā)和大數(shù)據(jù)分析等,這些崗位雖然在知識結(jié)構(gòu)上有一定的區(qū)別,但是基本的大數(shù)據(jù)知識是一定要具備的,下面做一個介紹。
第一:算法設(shè)計。大數(shù)據(jù)的核心是數(shù)據(jù)價值化,數(shù)據(jù)分析則是數(shù)據(jù)價值化的重要途徑,而算法設(shè)計則是數(shù)據(jù)分析的核心,因此算法設(shè)計在大數(shù)據(jù)知識體系中具有重要的地位。算法設(shè)計的書籍比較多,推薦讀一下《算法導論》,這是一本比較經(jīng)典的算法設(shè)計類書籍。
第二:編程語言。算法設(shè)計之后就需要進行算法實現(xiàn),算法實現(xiàn)就需要掌握編程語言,能夠?qū)崿F(xiàn)算法的編程語言有很多,包括R、Python、Java等都可以,推薦系統(tǒng)學習一下Python語言,采用Python完成算法實現(xiàn)在目前的大數(shù)據(jù)和機器學習領(lǐng)域是一個比較普遍的選擇。
第三:大數(shù)據(jù)平臺。大數(shù)據(jù)平臺是大數(shù)據(jù)應用的基礎(chǔ),目前比較常見的大數(shù)據(jù)平臺包括Hadoop和Spark。Hadoop平臺已經(jīng)被業(yè)界使用多年,已經(jīng)形成了一個比較完善的生態(tài)體系,建議從Hadoop開始學起。
第四:機器學習。機器學習與大數(shù)據(jù)的關(guān)系越來越密切,目前在大數(shù)據(jù)分析領(lǐng)域經(jīng)常采用機器學習的方式。通過大數(shù)據(jù)進入機器學習領(lǐng)域,再全面進入人工智能領(lǐng)域也是目前一個比較常見的學習路線。
大數(shù)據(jù)的學習需要一個系統(tǒng)的過程,另外最好在學習的過程中能結(jié)合實際案例進行,這樣會有一個更好的效果。
作者簡介:中國科學院大學計算機專業(yè)研究生導師,從事IT行業(yè)多年,研究方向包括動態(tài)軟件體系結(jié)構(gòu)、大數(shù)據(jù)、人工智能相關(guān)領(lǐng)域,有多年的一線研發(fā)經(jīng)驗。
歡迎關(guān)注作者,歡迎咨詢計算機相關(guān)問題。
給大家推薦一份大數(shù)據(jù)書單
Flink是大數(shù)據(jù)處理領(lǐng)域最近冉冉升起的一顆新星,它可以基于Hadoop進行開發(fā)和使用,與Hadoop緊密結(jié)合。本書旨在幫助讀者從零開始快速掌握Flink的基本原理與核心功能,
并具有以下特點:
這是一本Flink入門級圖書,力求詳細而完整地描述Flink基礎(chǔ)理論與實際操作。
采用Flink 1.6版本寫作,案例豐富實用,做到學以致用。
細節(jié)與案例兼顧,深入淺出展現(xiàn)Flink技術(shù)精髓。
51CTO熱門網(wǎng)課配套教材,可與網(wǎng)課結(jié)合學習,快速提升大數(shù)據(jù)開發(fā)技能。
[美] 約西亞 L.卡爾森(Josiah,L.,Carlson) 著,黃健宏 譯
豆瓣評分8.0
李子驊 著
《Redis入門指南(第2版)》是一本Redis的入門指導書籍,以通俗易懂的方式介紹了Redis基礎(chǔ)與實踐方面的知識,包括歷史與特性、在開發(fā)和生產(chǎn)環(huán)境中部署運行Redis、數(shù)據(jù)類型與命令、使用Redis實現(xiàn)隊列、事務、復制、管道、持久化、優(yōu)化Redis存儲空間等內(nèi)容,并采用任務驅(qū)動的方式介紹了PHP、Ruby、Python和Node.js這4種語言的Redis客戶端庫的使用方法。
[美] 喬治·特魯希略(George Trujillo) 著,陳鵬,肖明興 譯
本書旨在幫助讀者了解和掌握不同虛擬化Hadoop選擇的優(yōu)缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章,主要內(nèi)容包括Hadoop平臺在企業(yè)轉(zhuǎn)型中扮演的重要角色、Hadoop基礎(chǔ)概念、YARN與HDFS、現(xiàn)代數(shù)據(jù)平臺、數(shù)據(jù)采集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎(chǔ)、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主服務器、虛擬化Hadoop工作節(jié)點、私有云中的Hadoop即服務、Hadoop安裝以及Hadoop Linux配置。
[美] Lars George 著,代志遠,劉佳,蔣杰 譯
Apache HBase項目管理委員會主席Michael Stack作序推薦。作者Lars George是HBase Committer,HBase文檔的主要貢獻者,Cloudera公司解決方案架構(gòu)師,主要為Hadoop和HBase提供技術(shù)支持、咨詢和培訓工作。這是一本介紹HBase內(nèi)部機制的書,是HBase開發(fā)指南。本書探討了如何通過使用與HBase高度集成的Hadoop將HBase的可伸縮性變得簡單;把大型數(shù)據(jù)集分布到相對廉價的商業(yè)服務器集群中;使用本地Java客戶端,或者通過提供了REST、Avro和Thrift應用編程接口的網(wǎng)關(guān)服務器來訪問HBase;了解HBase架構(gòu)的細節(jié),包括存儲格式、預寫日志、后臺進程等;在HBase中集成MapReduce框架;了解如何調(diào)節(jié)集群、設(shè)計模式、拷貝表、導入批量數(shù)據(jù)和刪除節(jié)點等。 本書適合使用HBase進行數(shù)據(jù)庫開發(fā)的高級數(shù)據(jù)庫研發(fā)人員閱讀。
想從零開始的人,就不要過于依賴大數(shù)據(jù)。理由,大數(shù)據(jù)會制約你的想象力,桎梏你的開發(fā)能力。大數(shù)據(jù)對從零開始的人來說,只可借鑒利用,絕不可重用。常規(guī)領(lǐng)域里的應用,那是另一說。哈哈。對吧?
第一階段:大數(shù)據(jù)基礎(chǔ)語言的學習
推薦書籍:
本書為我們帶來了共78條程序員必備的經(jīng)驗法則,針對你每天都會遇到的編程問題提出了有效、實用的解決方案。 書中的每一章都包含幾個"條目",以簡潔的形式呈現(xiàn),自成獨立的短文,它們提出了具體的建議,對于Java平臺精妙之處的獨到見解,以及優(yōu)秀的代碼范例。每個條目的綜合描述和解釋都闡明了應該怎么做,不應該怎么做,以及為什么。
第二階段: Linux&Hadoop生態(tài)體系Linux體系、Hadoop離線計算大綱、分布式數(shù)據(jù)庫Hbase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)遷移工具Sqoop、Flume分布式日志框架
推薦書籍:
在大數(shù)據(jù)的背景下,我很少看到關(guān)于數(shù)據(jù)建模,數(shù)據(jù)層,數(shù)據(jù)處理需求分析以及數(shù)據(jù)架構(gòu)和存儲實現(xiàn)問題。這本書卻提供了令人耳目一新的全面解決方案。
《Hadoop權(quán)威指南(中文版)》從Hadoop的緣起開始,由淺入深,結(jié)合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。
《Hive編程指南》是一本Apache Hive的編程指南,旨在介紹如何使用Hive的SQL方法HiveQL來匯總、查詢和分析存儲在Hadoop分布式文件系統(tǒng)上的大數(shù)據(jù)集合。
第三階段: 分布式計算推薦書籍:
《Spark 快速大數(shù)據(jù)分析》是一本為Spark 初學者準備的書,它沒有過多深入實現(xiàn)細節(jié),而是更多關(guān)注上層用戶的具體用法。不過,本書絕不僅僅限于Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
本書采用理論與大量實例相結(jié)合的方式幫助開發(fā)人員掌握使用Spark進行分析和實現(xiàn)機器學習算法。通過這些示例和Spark在各種企業(yè)級系統(tǒng)中的應用,幫助讀者解鎖Spark機器學習算法的復雜性,通過數(shù)據(jù)分析產(chǎn)生有價值的數(shù)據(jù)洞察力。
第四階段: 大數(shù)據(jù)項目實戰(zhàn)數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)應用
第五階段:大數(shù)據(jù)分析 —AI(人工智能)主要是講解Data Analyze數(shù)據(jù)分析基礎(chǔ)、數(shù)據(jù)可視化、sklearn中三類樸素貝葉斯算法以及python機器學習等提升個人能力的內(nèi)容!
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答9
回答