成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Coursera數(shù)據(jù)工程師董飛:硅谷大數(shù)據(jù)的過去與未來

sevi_stuo / 2449人閱讀

摘要:創(chuàng)新萌芽期望最頂點下調(diào)預(yù)期至低點回歸理想生產(chǎn)率平臺。而大數(shù)據(jù)已從頂峰滑落,和云計算接近谷底。對于迅速成長的中國市場,大公司也意味著大數(shù)據(jù)。三家對大數(shù)據(jù)的投入都是不惜余力的。

  

非商業(yè)轉(zhuǎn)載請注明作譯者、出處,并保留本文的原始鏈接:http://www.ituring.com.cn/article/177529

董飛,Coursera數(shù)據(jù)工程師。曾先后在創(chuàng)業(yè)公司酷迅,百度基礎(chǔ)架構(gòu)組,Amazon 云計算部門,LinkedIn擔任高級工程師,負責垂直搜索,百度云計算平臺研發(fā)和廣告系統(tǒng)的架構(gòu)。董飛本科畢業(yè)于南開大學(xué),碩士畢業(yè)于杜克大學(xué)計算機系。他在知乎上分享過多個引起強烈反響的問答,其中包括《哪些硅谷創(chuàng)業(yè)公司能給拜訪者留下深刻印象》、《美國大數(shù)據(jù)工程師面試攻略》、《Coursera 上有哪些課程值得推薦》等。

問:硅谷最火的高科技創(chuàng)業(yè)公司都有哪些?

在硅谷大家非常熱情地談創(chuàng)業(yè)談機會,我也通過自己的一些觀察和積累,看到了不少最近幾年涌現(xiàn)的熱門創(chuàng)業(yè)公司。這個是華爾街網(wǎng)站的全世界創(chuàng)業(yè)公司融資規(guī)模評選。它本來的標題是billion startup club,不到一年的時間,截至到2015年1月17日,現(xiàn)在的排名和規(guī)模已經(jīng)發(fā)生了很大的變化。

首先,估值在10 Billlon的達到了7家,而一年前一家都沒有。

第二、第一名是中國人家喻戶曉的小米。

第三、前20名中,絕大多數(shù)(8成在美國,在加州,在硅谷,在舊金山?。┍热鏤ber,Airbnb,Dropbox,Pinterest。

第四、里面也有不少相似的成功模式,比如Flipkart就是印度市場的淘寶,Uber與Airbnb都是共享經(jīng)濟的范疇。

所以大家還是可以在移動(Uber),大數(shù)據(jù)(Palantir),消費級互聯(lián)網(wǎng),通訊(Snapchat),支付(Square),O2O App里面尋找到大機會。這里面很多公司我都親自面試和感受過他們的環(huán)境。

問:有如此之多的高估值公司,是否意味著存在很大的泡沫?

我認為在硅谷這個充滿夢想的地方,投資人鼓勵創(chuàng)業(yè)者大膽去做,同樣也助長了泡沫。很多項目在幾個月的時間就會估值翻2、3倍,如Uber,Snapchat等等,我也驚訝于他們的巨額融資規(guī)模。

下面這張圖講的就是“新興技術(shù)炒作”周期,把各類技術(shù)按照技術(shù)成熟度和期望值分類,這是硅谷創(chuàng)業(yè)孵化器YCombinator的課程How to start a startup提到的?!皠?chuàng)新萌芽(Innovation Trigger)”、“期望最頂點(Peak ofInflated Expectation)”、“下調(diào)預(yù)期至低點(Trough of Disillusion)”、“回歸理想(Slope ofEnlightenment)”、“生產(chǎn)率平臺(Plateau of Productivity)”。越往左,技術(shù)約新潮,越處于概念階段;越往右,技術(shù)約成熟,越容易進入商業(yè)化應(yīng)用,發(fā)揮出提高生產(chǎn)率的效果。縱軸代表預(yù)期值,人們對于新技術(shù)通常會隨著認識的深入,預(yù)期不斷升溫,伴之以媒體炒作而到達頂峰;隨之因技術(shù)瓶頸或其他原因,預(yù)期逐漸冷卻至低點;但技術(shù)成熟后,期望又重新上升,重新積累用戶,然后就到了可持續(xù)增長的健康軌道上來。今年和去年的圖對比顯示,物聯(lián)網(wǎng)、自動駕駛汽車、消費級3D打印、自然語言問答等概念正在處于炒作的頂峰。而大數(shù)據(jù)已從頂峰滑落,NFC和云計算接近谷底。

問:你認為未來高科技創(chuàng)業(yè)的趨勢是什么?

我先提一部最近看過的電影《模仿游戲》(Imitation Game),這部影片講的是計算機邏輯的奠基者艾倫圖靈艱難的一生。他當年為破譯德軍密碼制作了圖靈機為二戰(zhàn)勝利做出卓越貢獻,挽回幾千萬人的生命,可在那個時代,他因為是同性戀而被判化學(xué)閹割,最后自殺結(jié)束了短暫的42歲生命。他的偉大貢獻之一就是在人工智能方面的開拓,他提出圖靈測試(Turing Test),測試某機器是否能表現(xiàn)出與人等價或無法區(qū)分的智能。在今天,人工智能已經(jīng)有了很大進步,從專家系統(tǒng)到基于統(tǒng)計的學(xué)習,從支持向量機到神經(jīng)網(wǎng)絡(luò)深度學(xué)習,每一步都帶領(lǐng)機器智能走向下一個階梯。

Google的資深科學(xué)家吳軍博士(《數(shù)學(xué)之美》,《浪潮之巔》作者),他提出當前技術(shù)發(fā)展三個趨勢:第一、云計算和和移動互聯(lián)網(wǎng),這是正在進行時;第二、機器智能,現(xiàn)在開始發(fā)生,但對社會的影響很多人還沒有意識到;第三、大數(shù)據(jù)和機器智能結(jié)合,這是未來時,一定會發(fā)生,有公司在做,但還沒有太形成規(guī)模。他認為未來機器會控制98%的人,而現(xiàn)在我們就要做個選擇,怎么成為剩下的2%? 李開復(fù)在2015年新年展望也提出未來五年物聯(lián)網(wǎng)將帶來龐大創(chuàng)業(yè)機會。

問:為什么大數(shù)據(jù)和機器智能結(jié)合的未來一定會到來?

其實在工業(yè)革命(1820年)之前,世界人均GDP在1800年前的兩三千年里基本沒有變化,而從1820年到2001年的180年里,世界人均GDP從原來的667美元增長到6049美元。由此足見,工業(yè)革命帶來的收入增長的確是翻天覆地的。但人類的進步并沒有停止或者穩(wěn)步增長,在發(fā)明了電力、電腦、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)之后,全球年GDP增長從萬分之5漲到了2%,信息也是在急劇增長。根據(jù)計算,最近兩年的信息量是之前30年的總和,最近10年的信息量遠超人類所有之前累計的信息量之和。在計算機時代,有個著名的摩爾定律,就是說同樣成本下,每隔18個月晶體管數(shù)量會翻倍,反過來同樣數(shù)量晶體管成本會減半,這個規(guī)律已經(jīng)很好地對應(yīng)了最近30年的發(fā)展,并且可以衍生到很多類似的領(lǐng)域,比如存儲、功耗、帶寬、像素等等。

作為20世紀最重要的數(shù)學(xué)家之一,現(xiàn)代計算機、博弈論和核武器等諸多領(lǐng)域的科學(xué)全才之一,馮?諾伊曼提出“技術(shù)”將會逼近人類歷史上的某種本質(zhì)的奇點,在那之后,全部人類行為都不可能以我們熟悉的面貌繼續(xù)存在。這就是著名的奇點理論。目前,信息量正在以越來越快的指數(shù)型速度增長,美國未來學(xué)家Ray Kurzweil稱人類能夠在2045年實現(xiàn)數(shù)字化永生,他自己也創(chuàng)辦了奇點大學(xué)。相信隨著信息技術(shù)、無線網(wǎng)、生物、物理等領(lǐng)域的指數(shù)級增長,人類將在2029年實現(xiàn)人工智能,人的壽命也將會在未來15年得到大幅延長。

問:國外值得關(guān)注的大數(shù)據(jù)公司都有哪些?國內(nèi)又有哪些?

大致可以把大數(shù)據(jù)公司分成基礎(chǔ)架構(gòu)類和應(yīng)用類,而底層都是會用到一些通用技術(shù),如Hadoop、Mahout、HBase、Cassandra等等;在分析領(lǐng)域,Cloudera、Hortonworks、MapR是Hadoop的三劍客;在運維領(lǐng)域,MongoDB、CouchBase都是NoSQL的代表;在服務(wù)領(lǐng)域,AWS和Google BigQuery劍拔弩張;在傳統(tǒng)數(shù)據(jù)庫,Oracle收購了MySQL,DB2是老牌銀行專用,而Teradata則做了多年數(shù)據(jù)倉庫。

Apps領(lǐng)域的大數(shù)據(jù)公司更多,比如社交消費領(lǐng)域的Google、 Amazon、Netflix、Twitter等等, 商業(yè)智能領(lǐng)域的SAP、GoodData,還有一些在廣告媒體領(lǐng)域,TURN、Rocketfuel,另外還有做智能運維的Sumo Logic等等。去年的新星 Databricks 伴隨著Spark的浪潮震撼了Hadoop的生態(tài)系統(tǒng)。

對于迅速成長的中國市場,大公司也意味著大數(shù)據(jù)。BAT三家對大數(shù)據(jù)的投入都是不惜余力的。我4年前在百度的時候,百度就提出框計算的概念,最近兩年成立了百度硅谷研究院,挖來Andrew Ng作為首席科學(xué)家,研究項目就是百度大腦,在語音、圖片識別技術(shù)上大幅提高精確度和召回率,最近還做了個無人自行車,非常有趣。騰訊作為最大的社交應(yīng)用對大數(shù)據(jù)也是情有獨鐘,他們自己研發(fā)了C++平臺的海量存儲系統(tǒng)。淘寶去年雙十一主戰(zhàn)場,2分鐘突破10億,交易額突破571億,背后有很多故事,當年在百度做Pyramid(按Google三輛馬車打造的金字塔三層分布式系統(tǒng))的有志之士,繼續(xù)在OceanBase創(chuàng)造神話。阿里云當年備受爭議,馬云也被懷疑是不是被王堅忽悠,最后經(jīng)歷了雙十一的洗禮證明了OceanBase和阿里云是靠譜的。小米的雷軍對大數(shù)據(jù)也寄托厚望,一方面這么多數(shù)據(jù)幾何級數(shù)增長,另一方面存儲帶寬都是巨大成本,沒價值就真破產(chǎn)了。

問:與大數(shù)據(jù)技術(shù)關(guān)系最緊密的就是云計算,您曾在Amazon 云計算部門工作過,能簡單介紹一下亞馬遜的AWS和Redshift框架嗎?

AWS總體上成熟度很高,有大量startup都是基于上面開發(fā),比如有名的Netflix,Pinterest,Coursera等。Amazon還在不斷創(chuàng)新,每年召開reInvent大會推廣新的云產(chǎn)品和分享成功案例。在這里面我隨便說幾個,S3是簡單面向?qū)ο蟮拇鎯?,DynamoDB是對關(guān)系型數(shù)據(jù)庫的補充,Glacier是對冷數(shù)據(jù)做歸檔處理,Elastic MapReduce直接對MapReduce做打包提供計算服務(wù),EC2就是基礎(chǔ)的虛擬主機,Data Pipeline 會提供圖形化界面直接串聯(lián)工作任務(wù)。

Redshift是一種大規(guī)模并行計算(massively parallel computer)架構(gòu),是非常方便的數(shù)據(jù)倉庫解決方案,它作為SQL接口跟各個云服務(wù)無縫連接。Redshift的最大特點就是快,在TB到PB級別有非常好的性能。我在工作中也是直接使用Redshift,它還支持不同的硬件平臺,如果想速度更快,可以使用SSD的,當然支持容量就小些。

問:Hadoop是現(xiàn)今最流行的大數(shù)據(jù)技術(shù),在它出現(xiàn)的當時,是什么造成了Hadoop的流行?當時Hadoop具有哪些設(shè)計上的優(yōu)勢?

要看Hadoop從哪里開始,就不得不提Google的先進性。在10多年前,Google發(fā)表了3篇論文論述分布式系統(tǒng)的做法,分別是GFS、MapReduce、BigTable。雖然都是很厲害的系統(tǒng),但沒人見過。在工業(yè)界很多人癢癢得就想按其思想去仿作。當時Apache Nutch Lucene的作者Doug Cutting也是其中之一。后來Doug他們被Yahoo收購,專門成立Team來投入研究,這就是Hadoop開始和大規(guī)模發(fā)展的地方。之后隨著Yahoo的衰落,牛人去了Facebook、 Google,也有的成立了Cloudera、Hortonworks等大數(shù)據(jù)公司,把Hadoop的實踐帶到各個硅谷公司。而Google還沒有停止,又出了新的三輛馬車,Pregel、Caffeine、Dremel,后來又有很多人步入后塵,開始了新一輪開源大戰(zhàn)。

為啥Hadoop就比較適合做大數(shù)據(jù)呢?首先擴展性很好,直接通過加節(jié)點就可以把系統(tǒng)能力提高。Hadoop有個重要思想就是移動計算而不是移動數(shù)據(jù),因為數(shù)據(jù)的移動會帶來很大的成本,需要網(wǎng)絡(luò)帶寬。其次,Hadoop提出的目標就是利用廉價的普通計算機(硬盤),這樣雖然可能不穩(wěn)定(磁盤壞的幾率),但通過系統(tǒng)級別上的容錯和冗余達到高可靠性。并且非常靈活,可以使用各種數(shù)據(jù),二進制、文檔型、記錄型,也可以使用各種形式,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化(所謂的schemaless),在按需計算上也是個技巧。

問:MapReduce模型有什么問題?

第一、需要寫很多底層的代碼,不夠高效。第二、所有的事情必須要轉(zhuǎn)化成兩個操作Map或Reduce,這本身就很奇怪,也不能解決所有的情況。

問:Spark從何而來?Spark相比于Hadoop MapReduce設(shè)計上有什么樣的優(yōu)勢?

其實Spark出現(xiàn)就是為了解決上面的問題。先說一些Spark的起源,它來自 2010年Berkeley AMPLab,發(fā)表在HotCloud上的Spark是一個從學(xué)術(shù)界到工業(yè)界的成功典范,也吸引了頂級VC Andreessen Horowitz的注資。在2013年,這些大牛(包括Berkeley系主任,MIT最年輕的助理教授)從Berkeley AMPLab出去成立了Databricks,引無數(shù)Hadoop大佬盡折腰。

Spark是用函數(shù)式語言Scala編寫的,Spark簡單說就是內(nèi)存計算(包含迭代式計算、DAG計算、流式計算 )框架。之前MapReduce因效率低下,經(jīng)常被大家詬病,而Spark的出現(xiàn)讓大家感覺很清新。 Reynod 作為Spark核心開發(fā)者,介紹說Spark性能超Hadoop百倍,算法實現(xiàn)僅有其1/10或1/100。在去年的Sort benchmark上,Spark用了23min跑完了100TB的排序,刷新了之前Hadoop保持的世界紀錄。

問:Linkedin都采用了哪些大數(shù)據(jù)開源技術(shù)?

在LinkedIn有很多數(shù)據(jù)產(chǎn)品,比如People you may like、Job you may be interested。你的用戶訪問來源,甚至你的career path都可以挖掘出來。Linkedin也大量用到了開源技術(shù),我這里就說一個最成功的Kafka。Kafka是一個分布式的消息隊列,可以用在tracking、機器內(nèi)部metrics、數(shù)據(jù)傳輸上。數(shù)據(jù)在前端后端會經(jīng)過不同的存儲或者平臺,每個平臺都有自己的格式,如果沒有一個unified log,會出現(xiàn)災(zāi)難型的O(m*n)的數(shù)據(jù)對接復(fù)雜度。如果你設(shè)定的格式一旦發(fā)生變化,也要修改所有相關(guān)的格式。所以這里提出的中間橋梁就是Kafka,大家約定用一個格式作為傳輸標準,然后在接受端可以任意定制你想要的數(shù)據(jù)源(topics),最后實現(xiàn)線性的O(m+n)復(fù)雜度。對應(yīng)的設(shè)計細節(jié),還是要參考設(shè)計文檔 ,這里面主要作者Jay Kreps、Rao Jun成立了Kafka作為獨立發(fā)展的公司。

Hadoop作為批處理的主力,大量應(yīng)用在各個產(chǎn)品線上。比如廣告組,我們一方面需要去做一些靈活的查詢,分析廣告主的匹配、廣告預(yù)測和實際效果,另外在報表生成方面也是用Hadoop作為支持。如果你想去面試LinkedIn 后端組,我建議應(yīng)該去把Hive、Pig、Azkaban(數(shù)據(jù)流的管理軟件)、Avro 數(shù)據(jù)定義格式、Kafka、Voldemort 都了解一下。LinkedIn有專門的開源社區(qū),也是在建設(shè)自己的技術(shù)品牌。

問:能談一談Coursera在大數(shù)據(jù)架構(gòu)方面和其他硅谷創(chuàng)業(yè)公司相比有什么特點?是什么原因和技術(shù)取向造成了這些特點?

首先我介紹一下Coursera。作為MOOC(大型開放式網(wǎng)絡(luò)課程)中的領(lǐng)頭羊,Coursera在2012年由Stanford大學(xué)的Andrew和Daphne兩名教授創(chuàng)立,目前160名員工,原Yale校長擔任CEO。Coursera的使命是universal access to world"s best education。很多人問我為什么加入,首先我非常認可公司的使命,我相信教育可以改變?nèi)松?,同樣我們也可以改變教育。能不能把技術(shù)跟教育結(jié)合起來,這是一個很有趣的話題,里面有很多東西可以結(jié)合。比如提供高可靠平臺支持大規(guī)模用戶在線并發(fā)訪問,利用數(shù)據(jù)挖掘分析學(xué)生行為做個性化課程學(xué)習并提高課程滿意度,通過機器學(xué)習識別作業(yè)、互相評判,用技術(shù)讓人們平等便捷的獲取教育服務(wù)。

Coursera作為創(chuàng)業(yè)公司,非常想保持敏捷和高效。從技術(shù)上來說,所有的技術(shù)都是基于AWS開發(fā)的,可以隨意啟動云端服務(wù)并做實驗。我們大致分成產(chǎn)品組,架構(gòu)組和數(shù)據(jù)分析組。因為公司比較新,所以沒有什么歷史遺留遷移的問題。大家大膽地使用Scala作為主要編程語言,采用Python作為腳本控制。比如產(chǎn)品組就是提供課程產(chǎn)品,里面大量使用Play Framework,JavaScript的backbone作為控制中樞。而架構(gòu)組主要是維護底層存儲、通用服務(wù)、性能和穩(wěn)定性。我所在的數(shù)據(jù)組由10多人構(gòu)成,一部分是對商業(yè)產(chǎn)品,核心增長指標做監(jiān)控、挖掘和改進。一部分是搭建數(shù)據(jù)倉庫完善跟各個部門的無縫數(shù)據(jù)流動,這里也用到了很多技術(shù)。例如使用Scalding編寫Hadoop MapReduce程序,也有人做AB testing框架、 推薦系統(tǒng),盡可能用最少人力做有影響力的事情。其實除了開源世界,我們也積極使用第三方的產(chǎn)品,比如我們用Sumo Logic做日志錯誤分析,用Redshift作為大數(shù)據(jù)分析平臺,用Slack做內(nèi)部通訊。而所有的這些就是想解放生產(chǎn)力,把重心放到用戶體驗、產(chǎn)品開發(fā)和迭代上去。

Coursera是一個有使命驅(qū)動的公司,大家不是為了追求技術(shù)的極致,而是為了服務(wù)好老師、同學(xué),解決他們的痛點,分享他們的成功。這點是跟其他技術(shù)公司最大的區(qū)別。從某個方面來說,現(xiàn)在我們還是處于早期積累階段,大規(guī)模計算時代還沒有來臨,我們只有積極學(xué)習、適應(yīng)變化才能保持創(chuàng)業(yè)公司的高速成長。

問:如果想從事大數(shù)據(jù)方面的工作,是否可以推薦一些有效的學(xué)習方法?有哪些推薦的書籍?

首先還是打好基礎(chǔ),Hadoop雖然火熱,但它的基礎(chǔ)原理都是書本上很多年的積累。像算法導(dǎo)論、Unix設(shè)計哲學(xué)、數(shù)據(jù)庫原理、深入理解計算機原理、Java設(shè)計模式,有一些重量級的書可以參考,Hadoop 最經(jīng)典的The Definitive Guide, 我在知乎上也有分享。

其次是選擇目標,如果你想做數(shù)據(jù)科學(xué)家,我可以推薦coursera上的data science課程,通俗易懂。學(xué)習Hive,Pig這些基本工具,如果做應(yīng)用層,主要是要熟悉Hadoop的一些工作流,包括一些基本調(diào)優(yōu)。如果是想做架構(gòu),除了要能搭建集群,要對各個基礎(chǔ)軟件服務(wù)很了解,還要理解計算機的瓶頸和負載管理以及Linux的一些性能工具。

最后,還是要多加練習。大數(shù)據(jù)本身就靠實踐,你可以先按API寫書上的例子,做到有能力調(diào)試成功。再下面就是多積累,當遇到相似的問題時能找到對應(yīng)的經(jīng)典模式。然后就是實際問題了,也許周邊誰也沒遇到過這樣的問題,你需要靈感和在網(wǎng)上問問題的技巧,然后根據(jù)實際情況作出最佳選擇。

更多精彩,加入圖靈訪談微信!

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/91472.html

相關(guān)文章

  • 專訪《硅谷百年史》作者:AI、基因編輯如何在未來10年重塑人類生命形態(tài)?

    摘要:皮埃羅指出,更神奇的是,基因編輯有可能重塑人類生育方式,讓無性繁殖變成可能。皮埃羅認為,這項實驗的意義非常重大。 《硅谷百年史》作者、硅谷人工智能研究院院長皮埃羅·斯加魯菲(Piero Scaruffi) 在其著作《人類2.0》中提出,人類發(fā)展將進入2.0 時代,人類歷史上幾千年來的生、老、病、死大問題,已正式被納入技術(shù)的解決范疇,接下來的科技革命將可能會重新定義人類。 showImg...

    KaltZK 評論0 收藏0
  • 【譯】盤點即將影響世界創(chuàng)新

    摘要:我們來聊聊可能很快就會影響世界的九大創(chuàng)新人工智能能夠獨立于人類主人而學(xué)習操作的人工智能,這看上去就像科幻小說。以色列公司建立了世界最大的海水淡化工廠,每天能生產(chǎn)立方米淡水。 本文轉(zhuǎn)載自:眾成翻譯譯者:文藺鏈接:http://www.zcfy.cc/article/830原文:https://medium.com/startup-grind/9-innovations-that-coul...

    tinyq 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<