成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

技術(shù)人攻略訪談四十|劉睿民:數(shù)據(jù)庫戰(zhàn)國時代,我不跟你們玩政治!

ispring / 506人閱讀

摘要:導(dǎo)語本期訪談對象劉睿民,柏睿數(shù)據(jù)科技。由于計程車司機接二連三游行抗議,法國政府已頒布法令禁用。技術(shù)人攻略為什么會從數(shù)據(jù)挖掘,轉(zhuǎn)向數(shù)據(jù)庫引擎研發(fā)后來發(fā)現(xiàn),所謂的數(shù)據(jù)挖掘在中國,很容易走偏。

文:Gracia (本文為原創(chuàng)內(nèi)容,部分或全文轉(zhuǎn)載均需經(jīng)過作者授權(quán),并保留完整的作者信息和技術(shù)人攻略介紹。)

導(dǎo)語:本期訪談對象劉睿民(Dowson Liu),柏睿數(shù)據(jù)科技CEO。和Dowson的會面約在早上10點,在望京SOHO 塔2,15層走廊的盡頭,我找到掛著柏睿銘牌的白色小門。門上著鎖,沒有朝向走廊的窗戶,看不見內(nèi)部陳設(shè)。為這次早到等候了足足二十分鐘后, Dowson準時出現(xiàn)。這是我第一次見到他,平頭、眼鏡、濃眉,說話略帶東北口音,語速不徐不緩。門后是一間帶落地窗的大辦公室,視野開闊。他解釋說,這間辦公室的主要用途是會客,負責(zé)業(yè)務(wù)的工程師約有20人,駐守在側(cè)邊的塔樓。核心研發(fā)團隊則分布在海外,或在干燥炎熱的內(nèi)華達沙漠,或在細雨紛飛的西雅圖,或在沿海季風(fēng)吹拂下的悉尼。

1995年入行,Dowson正好趕上行業(yè)信息化的黃金時期。在美國高度發(fā)達、自由競爭的IT市場歷練10年,曾師從圖靈獎獲得者Jim Grey,還在惠普實驗室從事過海量并行內(nèi)存數(shù)據(jù)庫開發(fā),根正苗紅,習(xí)得一身硬本事;回國后的10年,歷任華勝天成CTO、惠普大中華區(qū)數(shù)據(jù)挖掘總監(jiān)、SUN/ORACLE大中華區(qū)服務(wù)總裁,創(chuàng)造過一年翻22倍,近10億人民幣的銷售奇跡,bonus拿到手軟。

這位典型的海歸精英,手下已擁有3家公司,開一輛銀白色的路虎越野車。一切順風(fēng)順水,卻掩不住那顆愛冒險的心。剛到美國不久,Dowson就和印度人開起了咨詢公司,一年時間,簽下千萬大單,從南到北把業(yè)務(wù)跑了個遍;iPad上市之前,他自己手畫電路板,投錢做出20塊平板,一年時間燒掉500萬。從上次創(chuàng)業(yè)摔的跟頭中,他意識到:憑個人能力可以做出優(yōu)質(zhì)產(chǎn)品,卻難以帶動產(chǎn)業(yè)上下游的配合與發(fā)展,任何產(chǎn)業(yè)級的影響力都離不開長期的深厚積累。

在數(shù)據(jù)庫領(lǐng)域摸爬滾打20年,Dowson深知這一波大數(shù)據(jù)革命的顛覆性,點滴信息正匯集成財富創(chuàng)造的新系統(tǒng),大煙囪社會的權(quán)力結(jié)構(gòu),將進一步向超級信息符號組成的社會轉(zhuǎn)移。站在這場權(quán)力爭奪戰(zhàn)的邊緣,Dowson敏銳察覺到,過去鐵板一塊、巨頭扎堆的企業(yè)級市場已開始松動。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,無力承載海量數(shù)據(jù)的處理和分析。隨著新一輪窗口期開啟,數(shù)據(jù)庫領(lǐng)域進入戰(zhàn)國時代,各類列式架構(gòu)、內(nèi)存架構(gòu)、NoSQL、NewSQL等新型數(shù)據(jù)庫層出不窮、各領(lǐng)風(fēng)騷,動搖著舊有權(quán)利系統(tǒng)的支柱。

2013年9月,Dowson創(chuàng)立柏睿數(shù)據(jù),研發(fā)基于MPP架構(gòu)的海量內(nèi)存數(shù)據(jù)庫引擎。過往的人脈讓他得以組建陣容豪華、實力強大的海外團隊,并在過去半年里進展神速。他的目標是取代Oracle,做企業(yè)級市場數(shù)據(jù)處理的顛覆者。

在長達5個半小時的采訪過程中,Dowson對國內(nèi)基礎(chǔ)領(lǐng)域的淪陷痛心不已。從他父輩那代起,國家的產(chǎn)業(yè)導(dǎo)向就偏重于對模式的迷戀,而非技術(shù)和品質(zhì)上的精益求精。他母親曾親手拉出中國第一根單模光纖,但“高科技”光纖的質(zhì)量,最終卻受制于“低科技”的橡膠產(chǎn)業(yè)。這樣的荒誕故事仍在不斷上演,投射出當(dāng)下社會的事態(tài)與人心。在公眾知識分子許知遠眼里:整個中國都陷入了一種同質(zhì)化、低水平的競爭,人們有高度的競爭感,卻缺少真正的創(chuàng)造力。IT、互聯(lián)網(wǎng)也概莫能外,在漫天“互聯(lián)網(wǎng)思維”的紛擾下,Dowson堅持做著高技術(shù)含量的基礎(chǔ)研發(fā),這群理想豐沛,不被骨感現(xiàn)實所惑的人,會是未來中國創(chuàng)新的脊梁。

注:照片拍攝于2003年,科羅拉多海拔5000米的山頂。

技術(shù)人攻略:你從什么時候開始觀察到海量數(shù)據(jù)處理在企業(yè)級領(lǐng)域的趨勢?

  

2012年我離開Sun Microsystem/Oracle時,看到兩個趨勢,當(dāng)時OpenStack已經(jīng)誕生,企業(yè)級市場的云是必然趨勢。云產(chǎn)生之后,會引發(fā)第二個趨勢,企業(yè)的業(yè)務(wù)不斷向定制化APP轉(zhuǎn)移,大量數(shù)據(jù)從移動端收集上來,需要進行實時、動態(tài)的處理。

舉個例子,某家生產(chǎn)型企業(yè)客戶,擁有超過兩萬個小終端,分別提供給理貨員、快遞員、倉庫管理員和促銷員使用,這些不同角色通過APP掃碼、跟蹤,產(chǎn)生實時銷售數(shù)據(jù),快速反饋到下一個環(huán)節(jié)。和2C的業(yè)務(wù)環(huán)境相比,企業(yè)用戶對動態(tài)數(shù)據(jù)實時處理的迫切性更高,倒逼企業(yè)信息處理能力往上走。

傳統(tǒng)零售和物流企業(yè),受電商沖擊最大。淘寶已經(jīng)能利用數(shù)據(jù)做好生意了,零售企業(yè)要么被逼死,要么去適應(yīng)這個環(huán)境。同樣有危機感的,還有電信行業(yè),電信已成為管道,但所有的數(shù)據(jù)都要從管道里走,所以他們非常積極,想對自己平臺上產(chǎn)生的數(shù)據(jù)做分析,以期獲得更廣泛的利用。是否能抓住大數(shù)據(jù)的機會,對企業(yè)生死存亡至關(guān)重要。

硅谷這一波數(shù)據(jù)革命,對產(chǎn)業(yè)已經(jīng)造成了很大影響。全球各大租車公司,被Uber弄得快要翻船,這可是影響全球幾十萬人的事業(yè)。由于計程車司機接二連三游行抗議,法國政府已頒布法令禁用Uber。Uber成功的表象是互聯(lián)網(wǎng)的勝利,但真正原因是對數(shù)據(jù)的控制和優(yōu)化。這其實是一次權(quán)利的重新洗牌,掌握了數(shù)據(jù)就掌握了這一波產(chǎn)業(yè)革命的先機。

于是我開始做一些嘗試,對全國3萬家超市的零售詳細數(shù)據(jù)進行挖掘分析,客戶主要是P&G、可口可樂、聯(lián)合利華這樣的公司。過程中對比后發(fā)現(xiàn),由于淘寶產(chǎn)生的數(shù)據(jù)量遠大于零售ERP的結(jié)構(gòu)化數(shù)據(jù)。如果將ERP數(shù)據(jù)和網(wǎng)絡(luò)上的數(shù)據(jù)做結(jié)合,會大大擴展消費數(shù)據(jù)的外延。除消費習(xí)慣以外,用戶的情感分析,時空軌跡分析,都可以算出來。

技術(shù)人攻略:為什么會從數(shù)據(jù)挖掘,轉(zhuǎn)向數(shù)據(jù)庫引擎研發(fā)?

  

后來發(fā)現(xiàn),所謂的數(shù)據(jù)挖掘在中國,很容易走偏。機器剝奪了人的決策功能,這恰恰是許多玩政治的人不愿意看到的。我這人不愿意介入政治,過去管惠普大中華區(qū)數(shù)據(jù)倉庫業(yè)務(wù)那段時間,公司內(nèi)部幾個集團,因為純政治原因打架。業(yè)務(wù)做得再好,都仍被犧牲掉,很不喜歡這種失控的環(huán)境。我對自己的定位,就是一個技術(shù)人,在可以憑技術(shù)吃飯的情況下,干嘛要去玩政治?

我真正意識到應(yīng)該把未來事業(yè)方向,放在自己擅長的領(lǐng)域,還緣于曾經(jīng)摔過的一次大跤。2005年我花了599美金,從美國買了一個Toshiba e740掌上電腦,當(dāng)時特別喜歡,想著如果能把它做得薄、更大就好了。那會兒蘋果才出到iPhone2,我把它拆解之后,發(fā)現(xiàn)電路板并不復(fù)雜,部件也都能采購到。于是自己畫了個4層電路板,基于Ubuntu 8.5切割出一個系統(tǒng)。2010年初,花了40萬,去深圳加工出了20臺產(chǎn)品,厚度和后來的iPad差不多。出于成本考慮,產(chǎn)品采用了電阻屏,但我寫了一套算法,做出了和電容屏很接近的觸感。

當(dāng)年5月,蘋果iPad上市。我在這個領(lǐng)域玩了一年多,把自己的500萬花光后,發(fā)現(xiàn)不能這樣下去。技術(shù)我可以做得很好,但我想達到的目標,不是500萬能干完的,可能需要5個億,甚至50個億才能打通。有的事情并不是錢能玩出來的,而是需要產(chǎn)業(yè)經(jīng)驗和人脈的積累,需要產(chǎn)業(yè)鏈上下游的人和你配合,否則很難把整個事情玩透。

這塊業(yè)務(wù)我后來轉(zhuǎn)讓了中信21CN,他們把這套東西用在了藥店的工業(yè)掃碼終端上,現(xiàn)在這塊業(yè)務(wù)已經(jīng)到了阿里健康那兒。投進去的500萬就算是交了個學(xué)費,很貴,但也重新認識了一次自我。沒有人是萬能的,你只能干自己最擅長的事,我最擅長的事不是做平板,不是做數(shù)據(jù)挖掘這種應(yīng)用型的事情,而是做數(shù)據(jù)庫研發(fā)。

技術(shù)人攻略:數(shù)據(jù)庫引擎研發(fā)是基礎(chǔ)性技術(shù),你在這一領(lǐng)域有哪些積累?

  

我在數(shù)據(jù)庫領(lǐng)域做了差不多20年,從實施,到研發(fā),再到銷售等不同類型的工作都做過。2013年9月起,創(chuàng)辦柏睿數(shù)據(jù)庫,研發(fā)面向企業(yè)級IT市場的,海量并行內(nèi)存處理架構(gòu)的數(shù)據(jù)倉庫引擎。之所以能從事基礎(chǔ)研發(fā),和我原來在惠普的工作經(jīng)歷有密切關(guān)系。

我在惠普是三進三出。大學(xué)畢業(yè)后,我加入新加坡電信,做BSS/OSS大機開發(fā)。1997年底去了美國,做電信系統(tǒng)相關(guān)的IT改造。隨后加入Tandem,做Nonstop SQL商業(yè)數(shù)據(jù)庫的開發(fā),認識了我的導(dǎo)師Jim Gray,他憑借在數(shù)據(jù)庫方面的開創(chuàng)性貢獻獲得過圖靈獎。后來Tandem被康柏收購,康柏又被惠普收購,就這么第一次進了惠普。

第二次進惠普是在1999年,惠普實驗室接了一個沃爾瑪?shù)捻椖?,?jié)點數(shù)高達512個節(jié)點。在那里遇到我現(xiàn)在的導(dǎo)師Dave Cracknell,那真是是一個非常好的年代,每天睡到11點去辦公室,中午吃飯的時候,和導(dǎo)師交流遇到的問題,然后一直寫代碼到夜里2、3點。

惠普這家公司是錢多、任性,因為公司主業(yè)是硬件,對數(shù)據(jù)庫并不是很理解。Tandem的Nonstop SQL,幾乎可以等同于Teradata,但惠普沒有意識到它的重要性。直到2006年,Mark Hurd(Oracle現(xiàn)任CEO)執(zhí)掌惠普期間,重新拾起Nonstop SQL,把它變成Neoview這個新產(chǎn)品。導(dǎo)師讓我回去,一起重做這個東西,于是我第三次進了惠普。 回去后我負責(zé)HP Neoview數(shù)據(jù)倉庫在國內(nèi)的業(yè)務(wù)拓展,經(jīng)常硅谷、北京兩邊跑,把國內(nèi)市場的需求反饋給導(dǎo)師??上б荒甓嘁院螅琈ark Hurd離開惠普,這個產(chǎn)品又被砍掉。原來做這件事的小伙伴們,都不想輕易放棄。在柏睿,我能繼續(xù)和這群小伙伴一起,把未完成的夢想堅持下去。

整個研發(fā)團隊共有12人,完全用remote的方式協(xié)作,分布在美國、澳洲、英國和印度,不少都是我在惠普實驗室的同事。我的導(dǎo)師Dave Cracknell,在硅谷負責(zé)整個項目的管理。

海外12個人的研發(fā)團隊投入很大,但效率也很高。2013年初,我們的產(chǎn)品還類似于VoltDB,只能做兩張表的JOIN查詢。半年之內(nèi)迭代了9個版本,取得了突破性進展,已經(jīng)能支持至少32張表的復(fù)雜JOIN查詢。去年4月,SQL引擎的性能和SAP HANA還差得很遠,現(xiàn)在基本上和HANA站在同一個起跑線上。而且從整體的發(fā)展路徑上來看,會超越HANA。

技術(shù)人攻略:企業(yè)級市場對數(shù)據(jù)處理的需求,和互聯(lián)網(wǎng)公司有什么區(qū)別?你們的產(chǎn)品解決了大數(shù)據(jù)處理的哪些問題?

  

早在80年代,IBM已經(jīng)在大機上實現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)的處理,但需求量并不大?;ヂ?lián)網(wǎng)積累到一定量,非結(jié)構(gòu)數(shù)據(jù)大量產(chǎn)生,這種情況會帶來新需求。首先是解決海量數(shù)據(jù)的存儲,接下來是分析這些數(shù)據(jù),最后是解決數(shù)據(jù)分析實時性問題。

Hadoop只解決了數(shù)據(jù)的存儲,于是出來了MapReduce方法,可對數(shù)據(jù)做一定程度的分析。從數(shù)學(xué)上看,MapReduce屬于暴力拆解,用很多PC服務(wù)器,不斷循環(huán)迭代,非常野蠻。好比用炸藥把山炸掉,產(chǎn)生一堆數(shù)據(jù)的大碎石頭,最后還得整理這些石頭。這種方式導(dǎo)致MapReduce只能做ETL數(shù)據(jù)清洗,無法實現(xiàn)交互式的SQL查詢,因為整個處理過程中,數(shù)據(jù)和邏輯并沒有建立任何關(guān)聯(lián)。

從嚴格意義上來說,關(guān)系型數(shù)據(jù)庫依然是最強大的數(shù)據(jù)挖掘工具。只有把結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),先做數(shù)據(jù)清洗,變成有邏輯含義的結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù),放到數(shù)據(jù)庫里,才能做出符合數(shù)學(xué)范式的精確查詢。2014年8月,Google公開了基于海量并行處理架構(gòu)架構(gòu)(MPP),近實時數(shù)據(jù)挖掘倉庫Mesa的論文,也證明它最終要走回結(jié)構(gòu)化這條路。

企業(yè)級市場對數(shù)據(jù)處理的需求,和互聯(lián)網(wǎng)公司的處理方式并不完全一樣?;ヂ?lián)網(wǎng)提供快速的解決方法,不是成熟的產(chǎn)品。對于企業(yè)級用戶來說,沒有哪家能有阿里這樣的實力,雇兩萬programmer寫代碼。別說兩萬,200個人都不可能。

企業(yè)用戶要的并不是阿里所擁有的東西,而是想要一套完整的解決方案,裝上就能解決問題。比如處理4個T的數(shù)據(jù),兩分鐘以后見東西。只有一個Admin來管理這一套工具,頂多配10個人,絕對不可能搞一個大型的IT部門。因為企業(yè)用戶的主業(yè)還是造機器、做紡織、做電器。我們?yōu)槠髽I(yè)級市場提供一整套的解決方案,從文件系統(tǒng)開始,到預(yù)處理,再到最終的數(shù)據(jù)分析,而且可以幫他們快速在云上部署。

為實現(xiàn)數(shù)據(jù)處理的實時性,我們分了三步進行。首先是提升Hadoop文件系統(tǒng)的效率,MapReduce為了增加寫的效率,把數(shù)據(jù)都切碎了,這種邏輯和存儲分開的方式,導(dǎo)致讀的時候不知道數(shù)據(jù)存在哪兒。電信用戶一天的增量數(shù)據(jù)是10個T,在沒有索引的情況下,想找到客戶真正要的那片數(shù)據(jù),非常難。我們在HDFS上做了大量優(yōu)化,能把讀取文件的速度,從網(wǎng)絡(luò)訪問提升到相當(dāng)于讀取本地盤的速度。

接下來做了內(nèi)存數(shù)據(jù)網(wǎng)格這個產(chǎn)品,MapReduce太慢,跑下來4、5個小時,不能等那么長時間才做分析,那就必須在內(nèi)存中重寫。我們的實現(xiàn)方式很像挖煤礦,先做勘察,分辨出哪些是煤,哪些是石頭,每一層用不同的方式挖進去。具體的實現(xiàn)過程,是用HASH把數(shù)據(jù)分層,在幾秒鐘之內(nèi)起成千上萬個模板,每個模板對應(yīng)數(shù)據(jù)處理的不同粒度,相當(dāng)于尺寸不同的篩子,對數(shù)據(jù)做預(yù)處理。

第三步,經(jīng)過清洗之后,數(shù)據(jù)變成了結(jié)構(gòu)化和半結(jié)構(gòu)化形式,可以實現(xiàn)精確查詢。例如對100張表做聯(lián)合查詢,得出精確的查詢記錄。原來在性能上做不到的,我們采用MPP的海量并行內(nèi)存處理架構(gòu),可以在很短時間內(nèi),實現(xiàn)數(shù)據(jù)庫節(jié)點的橫向擴展。

技術(shù)人攻略:海量并行處理架構(gòu)有哪些優(yōu)勢?

  

商用數(shù)據(jù)庫的主流系統(tǒng)架構(gòu)有兩個流派,一種是對稱多處理器架構(gòu)(SMP),另一種是海量并行處理架構(gòu)(MPP)。SMP架構(gòu)的特點,在于共享系統(tǒng)的CPU、內(nèi)存和I/O資源,Oracle數(shù)據(jù)庫就是這一架構(gòu)的主要代表。該技術(shù)誕生于內(nèi)存昂貴時期,在數(shù)據(jù)量小于10T的情況下,可以應(yīng)對自如。這種架構(gòu)的局限性在于可擴展性差,多個CPU都通過內(nèi)存總線訪問同一內(nèi)存資源,隨著數(shù)據(jù)量增加,內(nèi)存訪問沖突將加劇,最終造成CPU性能的浪費。我們做過實驗,Exadata在50個存儲節(jié)點時性能還可以,一旦再上一個量級,就會遇到明顯的性能瓶頸。

海量并行處理架構(gòu)(MPP)可通過節(jié)點協(xié)同工作,并且每個節(jié)點都擁有獨立的內(nèi)存,是一種完全無共享的架構(gòu)方式,因而有很強的擴展能力。MPP的理論基礎(chǔ)在70年代已經(jīng)成熟,只不過當(dāng)時普遍不需要那么大數(shù)據(jù)量,所以僅在小范圍內(nèi)應(yīng)用。1999年我參與美國空軍的項目,就部署了1024個節(jié)點,雖然并不是基于云,但這條路已經(jīng)打通了。

采用MPP架構(gòu)最大的問題,在于節(jié)點之間的數(shù)據(jù)拷貝,可能會形成網(wǎng)絡(luò)風(fēng)暴。假設(shè)對300張表做JOIN聯(lián)合查詢,其中有30張表都大于1TB,其中1/10的數(shù)據(jù)要拷貝,那就是5、600個G的數(shù)據(jù)在網(wǎng)絡(luò)上跑。現(xiàn)在不少企業(yè)動輒上千個節(jié)點,每個節(jié)點里有幾十個T的數(shù)據(jù),網(wǎng)絡(luò)訪問的優(yōu)化非常關(guān)鍵。

我們采用了InfiniBand這種新型總線結(jié)構(gòu),以擺脫基于傳統(tǒng)PCI架構(gòu)的I/O性能瓶頸。這種服務(wù)器端的高性能互聯(lián)技術(shù),可大幅提升數(shù)據(jù)的移動速度,降低服務(wù)器和存儲系統(tǒng)之間的網(wǎng)絡(luò)開銷。InfiniBand有一種遠程直接內(nèi)存訪問技術(shù)(RDMA),允許直接對應(yīng)用程序內(nèi)存做讀取和寫入。過去內(nèi)存里的數(shù)據(jù)轉(zhuǎn)換,要經(jīng)過幾次System Call,在邏輯和電信號之間做多次轉(zhuǎn)換,才能切換用戶狀態(tài)和系統(tǒng)狀態(tài)。RDMA則不管數(shù)據(jù)存在哪一臺服務(wù)器,直接都是系統(tǒng)態(tài),只需要把電信號變一下就可以。

現(xiàn)在的架構(gòu)可在一分鐘內(nèi)開數(shù)十個節(jié)點。用Hadoop作性能測試,在同樣基于磁盤的情況下,運行速度可提升10倍。如果把數(shù)據(jù)load到內(nèi)存里重寫的MapReduce,速度能提升100倍。

技術(shù)人攻略:作為一家企業(yè)級領(lǐng)域的創(chuàng)業(yè)公司,如何與巨頭競爭?如何贏得市場?

  

數(shù)據(jù)庫領(lǐng)域正在窗口期,不少新機會正在涌現(xiàn)。IBM和HP守著自己的小機不放,但用戶已經(jīng)不要小機了,而且巨頭們也解決不了大數(shù)據(jù)的問題。結(jié)構(gòu)化數(shù)據(jù)原來占了99%,而現(xiàn)在卻只占1%,從趨勢上看,巨頭擅長的地盤一下子變成了一個小市場。我們的產(chǎn)品不僅能處理非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),而且在結(jié)構(gòu)化數(shù)據(jù)這塊,還能替代巨頭。

產(chǎn)業(yè)發(fā)展自有其周期,數(shù)據(jù)庫領(lǐng)域的老大Oracle已經(jīng)走到頭了。Oracle的核心技術(shù)誕生于30年前,并在90年代成熟。從90年代末到現(xiàn)在,Oracle并沒有修改過核心架構(gòu),只做了些外圍修繕,這種單節(jié)點共享內(nèi)存架構(gòu),無法支撐大數(shù)據(jù)時代快速擴展的需求。創(chuàng)始人拉里森本質(zhì)上是一個商人,把Oracle做成了一家應(yīng)用型公司,即使業(yè)務(wù)很賺錢,也沒有設(shè)立過Lab,做基礎(chǔ)性的研究。原來的生意一年賺9000億美金,新生意才只有900萬的情況下,要干掉老生意新起一攤,而且把基因也改過來,難度非常大。雖然Exadata里添加了全內(nèi)存選項,但只是增大了共享內(nèi)存的容量,架構(gòu)上并沒有做修改。估計5年之內(nèi),Oracle的架構(gòu)也不會改。拉里森已經(jīng)年過70,再過幾年就更沒有功夫管了。所以現(xiàn)在是替代Oracle的絕好機會節(jié)點。

國內(nèi)的企業(yè)級市場,現(xiàn)在光拼關(guān)系也不行了,數(shù)據(jù)量突然提升了1000倍,過去的IT架構(gòu),已無力支撐這種大容量的數(shù)據(jù)處理,所以技術(shù)成了硬門檻。這一波基于云和大數(shù)據(jù)的革命,會形成一個完全不同于以往的,非常開放的生態(tài)。原來企業(yè)級領(lǐng)域研發(fā)出一項技術(shù),必須依靠銷售去推。由于市場過于分散,照IBM這類老牌IT廠商,賣東西給客戶的成本太高。所以只有每個行業(yè)里Top3的客戶,最多到Top10,能購買得起昂貴的IT服務(wù)。

云服務(wù)普及后,技術(shù)可以在云上部署。從市場角度來看,由于長尾效應(yīng),原來買不起這些服務(wù)的中型客戶,可以按時、按需付費。這些中型企業(yè)也希望把原來行業(yè)的老大替代掉,所以他們有極大的意愿,去購買互聯(lián)網(wǎng)上的服務(wù)。

另一方面,客戶可以自己選擇云上的工具,我們這樣的小型服務(wù)提供商,和IBM等大公司能平起平坐。而且我們的東西天生是為云而做的,比他們還要先行一步,想把Oracle部署到云上,還做不到。總的來說,數(shù)據(jù)庫領(lǐng)域不僅沒有萎縮,而是產(chǎn)生了一個新市場,這個新市場可能比原來舊的市場還大。

技術(shù)人攻略:你觀察到我們國家在基礎(chǔ)領(lǐng)域有哪些問題?

  

我們國家一直以來對自己的定位,就是做應(yīng)用型產(chǎn)業(yè)。大家的手很巧,能把東西修得非常像,但材料卻不過關(guān),所以皮是好的,瓤是碎的。這就是為什么,老外做的航空發(fā)動機,能跑3000個小時,而我們的卻只能跑300個小時。

我母親是從事半導(dǎo)體激光器研發(fā)的科技工作者,早在1972年,她親手拉出了中國第一根單模光纖,獲得了國家科技進步一等獎。光纖的制作過程,需要在完全密閉的環(huán)境下,讓硅片氣象層積,直到慢慢變成硅柱。光纖的質(zhì)量,取決于這個密閉環(huán)境中的灰塵含量,究竟會進多少灰塵,取決于密封圈的質(zhì)量,密封圈是否牢靠,又取決于橡膠的質(zhì)量。但做橡膠這種基礎(chǔ)工業(yè)的人,不想精益求精,只滿足于做輪胎。到最后誰會想到,高科技光纖的壽命,會受限于橡膠的雜質(zhì)太多,而達不到應(yīng)有的質(zhì)量標準。

回國之后過了兩、三年,我才深刻認識到這個道理。2006年,我負責(zé)惠普大中華區(qū)的數(shù)據(jù)倉庫業(yè)務(wù),當(dāng)時希望把惠普實驗室Database的研發(fā)搬到中國,努力了一陣,發(fā)現(xiàn)根本是妄想。外企雖然紛紛在中國建立研發(fā)中心,但核心技術(shù)仍然在國外,只不過利用國內(nèi)便宜的人力成本,拿些邊邊角角技術(shù)活過來,做廠內(nèi)外包。

國家產(chǎn)業(yè)政策的制定者,天真地以為可以用市場換來技術(shù),到最后才發(fā)現(xiàn),這種交換根本不成立。技術(shù)是別人吃飯的東西,為什么會給你?某種意義上來說,這也關(guān)系到人家的飯碗。除非你自己造了一個飯碗,否則人家為什么會把飯碗交給你呢?

IT和汽車產(chǎn)業(yè)一樣,在過去十幾年遭遇了同樣的淪陷。什么叫自主可控的技術(shù)?要自己做的才可控,不是自己做就不可控,就這么簡單,永遠別想拿市場換技術(shù)??扇匀挥性S多人覺得自己是戰(zhàn)略家,從來沒上過一線,說得多、做得少。所以從頂層往下的產(chǎn)業(yè)設(shè)計,根本是個偽命題,必須從草根往上顛覆。

技術(shù)人攻略:國內(nèi)數(shù)據(jù)庫研發(fā)領(lǐng)域最大的問題是什么?

  

國內(nèi)在數(shù)據(jù)庫研發(fā)領(lǐng)域最大的問題,是在理論研究和人才培養(yǎng)上都缺乏積累。人大金倉做了十幾年,都沒有掌握這個產(chǎn)業(yè)鏈上最核心的技術(shù)。也沒有研究所或機構(gòu)在這個領(lǐng)域持續(xù)追蹤,等大數(shù)據(jù)真正來了之后,才發(fā)現(xiàn)理論上沒有準備好,只能談一些類似Hadoop怎么用,基于實踐和操作層面的東西。

國外這一行的發(fā)展相對成熟,各類的數(shù)據(jù)庫架構(gòu)設(shè)計,從70年代就已經(jīng)開始積累。加州理工、加州大學(xué)圣巴巴拉分校、威斯康辛大學(xué)等高校,有專門的科系研究數(shù)據(jù)庫,在知識上有傳承。

即使有這些積累,全球數(shù)據(jù)庫領(lǐng)域核心人才,在美國也不超過200人。對核心人才的定義,得是做過SQL解析器、執(zhí)行器、優(yōu)化器,以及文件系統(tǒng)這幾塊最有技術(shù)含量的東西。即使在Oracle、SAP、Sybase這樣的公司里,真正接觸到數(shù)據(jù)庫核心引擎設(shè)計的,也最多就是十來個人,更多人是圍繞核心去寫一些周邊的功能。

國產(chǎn)數(shù)據(jù)庫很多是把開源扒拉過來,在這基礎(chǔ)上改一改,但并不表示你理解了它的設(shè)計思想。歸根結(jié)底,數(shù)據(jù)庫核心人才的培養(yǎng)需要過程。從上層工具開發(fā),慢慢往底層深入,先做解析器,再做執(zhí)行器,最后做優(yōu)化器,是一個循序漸進的過程。表和表之間的JOIN,應(yīng)該走什么樣的執(zhí)行計劃,這中間的解析路徑、優(yōu)化路徑如何設(shè)計,低下文件系統(tǒng)的讀和寫應(yīng)該怎樣配合,需要10年,甚至20年的工程積累。

缺少了這些積累,也就只能做一些數(shù)據(jù)處理工作,底層開發(fā)根本輪不到你。類似于其它基礎(chǔ)領(lǐng)域,中國在數(shù)據(jù)庫技術(shù)上,仍然是一個使用者的角色。一些企業(yè)里的人,甚至連理論都沒搞清楚,就開始忽悠,比如把數(shù)據(jù)庫和數(shù)據(jù)處理混淆成同一個東西,整個市場被搞得很亂。

在這種混亂中,學(xué)生沒有可參考的東西,人才培養(yǎng)從根子上就出了問題。我在大學(xué)時,學(xué)數(shù)據(jù)庫理論的那本書,到現(xiàn)在仍在作為教材使用。幾周前我掏出來看了一下,寫得真太淺了。大家被忽悠得很想學(xué)Hadoop、Spark等應(yīng)用型的知識,可這些不過是風(fēng)潮,不是根本,很快就會過去。

技術(shù)人攻略:做這件事情對你個人的意義在哪里?

  

我入行比較早,94年讀大學(xué)時,就參與了全國第一張跨通存通兌綠卡的項目。做完以后,就去了新加坡,很遺憾沒碰上電信97田溯寧那波創(chuàng)業(yè)潮,也沒碰上第一次互聯(lián)網(wǎng)泡沫。不過反倒因為沒有碰那些潮流,我的精力一直集中在數(shù)據(jù)庫領(lǐng)域,從最早的大機、中型機、小機上的數(shù)據(jù)庫,做到基于PC,以及云的數(shù)據(jù)服務(wù)。

之前工作掙的錢,足以讓我安穩(wěn)退休,過上天天釣魚、曬太陽的生活。之所以做數(shù)據(jù)庫基礎(chǔ)層面的研發(fā),并不是為了錢。我天性愛玩,一定要有個東西讓我覺得好玩,要能越過障礙,夠到遠方的目標,才會玩得有刺激。

這一波大數(shù)據(jù)革命,是從量變積累到質(zhì)變的飛躍,我這輩子或許只能遇見一次。我希望能把以前所學(xué)到、所經(jīng)歷的這些東西,把MPP的架構(gòu),用到海量的數(shù)據(jù)分析里邊去。數(shù)據(jù)庫的產(chǎn)業(yè)鏈很長,有很多事情值得深入地去做,如果我能參與這次變革,順著這次浪潮玩上10年、15年,會非常有趣。

在行業(yè)里待了這么多年,我也看到有的事情不是錢能玩出來,需要經(jīng)驗上、人脈上各方面的積累,才能把這個東西玩透,否則就變成東打一榔頭,西打一耙子。只有拼性能的地方,摩爾定律才會生效,這是IT行業(yè)的實質(zhì)。不拼性能,就只能拼關(guān)系、拼政治,我不想玩那個。這個產(chǎn)業(yè)里門檻最高的是數(shù)據(jù)庫,不是應(yīng)用,我就想挑戰(zhàn)純粹的基礎(chǔ)技術(shù)領(lǐng)域,用性能超過對手,不需要拼政治。

我想和志同道合的人一起工作,雖說國內(nèi)的氛圍還是有點浮躁,但我對新一代程序員還很期待。他們成長的環(huán)境衣食無憂,不像我們70后,小時候還得自己拿著瓶子去打醬油。當(dāng)基本生活富足之后,大家就會有不同的精神取向??傆腥讼胱鲆恍┗A(chǔ)的、技術(shù)扎實的產(chǎn)品,你讓他苦哈哈在華為工作,桌子底下放一個帳篷,他不一定愿意干。

技術(shù)人攻略:你的興趣愛好是什么?

  

我天生熱愛冒險,喜歡去別人沒去過的地方,看世界上都在發(fā)生些什么事。在美國做技術(shù)咨詢那幾年,全國四處奔波,從最南邊的弗羅里達,到冬季氣溫到零下50度的北達科他州,還有路易斯安娜、阿肯色、明尼蘇達、印第安納,基本上你能想到的地方,我都去過。

一直到2001年,我到了科羅拉多州丹佛市旁邊的大學(xué)城Boulder。這座城市依山而建,有雪山,也有綠草,非常適合露營。喜歡滑雪的人,可以從頭年9月,一直滑到第二年6月。我非常喜歡這樣的環(huán)境,就把家安在了Boulder。

我喜歡穿山越嶺,常常一個人帶著帳篷,去科羅拉多大峽谷里待上個6、7天。在野外,狼、美洲豹時有出沒,什么情況都有可能會碰到,所以得學(xué)會如何野外生存。這個過程不僅帶來樂趣,還讓我領(lǐng)悟到很多道理,比如想避開這些猛獸,你首先得學(xué)會觀察風(fēng)向。

我還特別享受在山路上開車的感覺,峰回路轉(zhuǎn),總能看到新的風(fēng)景。許多人不敢在山里開車,朋友一起去山里玩的時候,都是我開車。我并不害怕懸崖,只要關(guān)心前方的路就好了。

我喜歡閱讀,一直到現(xiàn)在都還訂《讀書》這本雜志。最近經(jīng)濟類的書看得比較多,尤其是計量經(jīng)濟學(xué)。宏觀經(jīng)濟領(lǐng)域的問題很難預(yù)測,因為相關(guān)因素太多,但微觀經(jīng)濟是靠數(shù)據(jù)說話,所以相對很準確。我喜歡研究計量經(jīng)濟學(xué)里的各種模型,數(shù)字和數(shù)字之間,我感覺終究是有關(guān)聯(lián)的。只是因為工具所限,自己數(shù)學(xué)的基本功積累得不夠,暫時還沒做特別深入的研究。


作者介紹:

技術(shù)人攻略訪談是關(guān)于技術(shù)人生活和成長的系列訪問,由獨立媒體人Gracia創(chuàng)立和維護。報道內(nèi)容以“人”為核心,通過技術(shù)人的故事傳遞技術(shù)夢想;同時以小見大,見證技術(shù)的發(fā)展和行業(yè)的變遷。在這個前所未有的變革時代下,我們的眼光將投向有關(guān):創(chuàng)造力、好奇心、冒險精神,這樣一些長期被忽略的美好品質(zhì)上。相信通過這樣一群心懷夢想,并且正腳踏實地在改變世界的技術(shù)人,這些美好的東西將重新獲得珍視。

聯(lián)系方式 [email protected]
微博: @技術(shù)人攻略
訂閱:微信搜“技術(shù)人攻略”或“dev-levelup”

感謝SegmentFault提供博客專欄及推廣支持
感謝迅達云成提供云主機及技術(shù)支持
感謝七牛云存儲對“技術(shù)人攻略影像拍攝計劃”提供支持

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/17469.html

相關(guān)文章

  • 技術(shù)攻略訪談二十三:工具理性主義者黃允松

    摘要:導(dǎo)語本期采訪對象黃允松,青云創(chuàng)始人及。作為一個純粹的工具理性主義者,黃允松致力于打造優(yōu)良的工具,大幅降低的復(fù)雜性,讓一切變得更加平滑和簡單,這是他讓世界變得美好起來的方式。 showImg(http://segmentfault.com/img/bVbYfe);文:Gracia 攝影:周振邦(本文為原創(chuàng)內(nèi)容,部分或全文轉(zhuǎn)載均需經(jīng)過作者授權(quán),并保留完整的作者信息和技術(shù)人攻略介紹。) ...

    Andrman 評論0 收藏0
  • 技術(shù)攻略訪談三十五|小猴機器:征途路上,星辰大海

    摘要:導(dǎo)語本期訪談對象小猴機器人,清華人工智能專業(yè)博士在讀?;蛟S因為成長于廣袤的內(nèi)蒙,小猴身上帶著大山和草原一般的灑脫與樂觀,在他鐘愛的無人車上,印上了一個美好的我們的征途是星辰大海。技術(shù)人攻略除了規(guī)則挖掘,人工智能遇到的難題還 showImg(https://segmentfault.com/img/bVc1yA); 文:Gracia,攝影:周振邦 (本文為原創(chuàng)內(nèi)容,部分或全文轉(zhuǎn)載均需經(jīng)作...

    siberiawolf 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<