摘要:所以克拉姆卡創(chuàng)辦了洞察力數(shù)據(jù)科學(xué)公司來為博士們提供面向業(yè)界數(shù)據(jù)科學(xué)的職業(yè)培訓(xùn)。舊金山公司的數(shù)據(jù)實(shí)驗(yàn)室主管伊萊巴塞特建議,學(xué)習(xí)更符合業(yè)界胃口的編程工具如和語言。
伊萊·巴塞特(Eli Bressert)計(jì)劃把自己的學(xué)術(shù)生涯都放在針對恒星形成的研究上。他在英國埃克塞特大學(xué)(University of Exeter)獲得博士學(xué)位,又在澳洲悉尼附近完成了針對射電天文學(xué)的博士后研究。他發(fā)表論文的引用量正處在上升趨勢,他收到的科研合作和學(xué)術(shù)會(huì)儀的邀約也越來越多。他實(shí)在沒有理由離開天文學(xué)領(lǐng)域的研究。
但在2012年,學(xué)術(shù)就業(yè)市場的嚴(yán)峻形勢讓他有些緊張了。“我坐下來計(jì)算我的機(jī)會(huì),”他回憶道,“還有沒有機(jī)會(huì)找到一個(gè)好的研究機(jī)構(gòu),而且工作地點(diǎn)能讓家人也滿意的?”因?yàn)樗呀?jīng)為了他的博士后工作,帶著妻子和一歲的兒子跨越了1萬6千公里來到了澳洲,同一年,他和同事出版了一本關(guān)于科學(xué)編程的手冊。同時(shí)他還被一家創(chuàng)業(yè)公司聘為學(xué)術(shù)顧問,這家公司立足于開發(fā)幫助合作者合著論文的軟件。巴塞特喜歡創(chuàng)業(yè)公司的活力,因此當(dāng)他聽說在硅谷有支持科學(xué)家從事科技工作的助學(xué)金時(shí),他毫不猶豫地申請并被接納了。
他及家人再次搬家,這次搬到1萬2千公里外的加利福尼亞州的帕羅奧圖(Palo Alto)?,F(xiàn)在他是舊金山一家時(shí)尚創(chuàng)業(yè)公司Stitch Fix的數(shù)據(jù)實(shí)驗(yàn)室主管,負(fù)責(zé)設(shè)計(jì)幫助顧客挑選衣服的預(yù)測算法。他說他很熱愛這份評估計(jì)算方法的工作。因?yàn)橄鄬τ谝酝鶎W(xué)術(shù)界的經(jīng)歷而言,這份工作提供了更多的知識自由(intellectual freedom)和創(chuàng)造性。
巴塞特并不是個(gè)特例,他們公司雇傭了20名博士學(xué)位擁有者,專業(yè)涵蓋了從天文學(xué)、神經(jīng)學(xué)到電子學(xué)等各類學(xué)科。巴賽特的經(jīng)理埃里克·科爾森(Eric Colson)認(rèn)為,博士們較大的價(jià)值在于他們嚴(yán)謹(jǐn)?shù)乃季S。博士期間的訓(xùn)練意味著學(xué)習(xí)如何將問題形式化,驗(yàn)證想法并評估解決方案是否可行。尤其涉及到數(shù)據(jù)建模時(shí),這些特質(zhì)讓博士比大多數(shù)人更具有懷疑精神??茽柹f,“如果首次嘗試就特別完美,博士們的第一反應(yīng)會(huì)是情況太好而難以讓人信服。博士們有耐心和方法來將問題結(jié)構(gòu)化,而這是MBA們所沒有的。”在美國目前有大量年輕科學(xué)家離開學(xué)術(shù)泥沼而轉(zhuǎn)向業(yè)界的數(shù)據(jù)科學(xué)崗位,Stitch Fix的博士們只是其中的一小部分。
Make the leap
實(shí)現(xiàn)飛躍
數(shù)學(xué)和計(jì)算機(jī)科學(xué)家是數(shù)據(jù)科學(xué)領(lǐng)域的主要表現(xiàn)形式,但是計(jì)算的理解性和溝通的技巧性比科學(xué)專業(yè)本身更重要。想要轉(zhuǎn)換角色的青年學(xué)者們需要證明,他們可以從繁雜的數(shù)據(jù)中抽取出模式并且將該模式應(yīng)用于商業(yè)目標(biāo)環(huán)境。
有人在紐約和華盛頓特區(qū)開設(shè)了一門培訓(xùn)課程叫做“數(shù)據(jù)孵化器”(The Data Incubator),專門幫助研究生做從事數(shù)據(jù)科學(xué)工作的準(zhǔn)備。數(shù)據(jù)孵化器的聯(lián)合創(chuàng)始人邁克爾·李說:“需要特別記住的是,業(yè)界對于想法或見解不在意,他們在意的是具有可行性的分析。” 洞察力數(shù)據(jù)科學(xué)公司(Insight Data Science)在帕格阿爾托市(Palo Alto)也開設(shè)了一個(gè)類似的培訓(xùn)項(xiàng)目,其創(chuàng)立者杰克·克拉姆卡(Jake Klamka)說,學(xué)者們想抓住就業(yè)機(jī)會(huì)但卻不知道業(yè)界的情況。合格的應(yīng)征者可能會(huì)因?yàn)檎`用詞語而被視為沒什么本事,比如學(xué)術(shù)界喜歡用術(shù)語“研究”(study)但業(yè)界的行話是“實(shí)驗(yàn)”(experiment)或“A/B測試”(A/B test)。
學(xué)員在倫敦參加科學(xué)數(shù)據(jù)科學(xué)研討會(huì)
克拉姆卡發(fā)現(xiàn)闖入業(yè)界是件難事。他從加拿大多倫多大學(xué)粒子物理學(xué)博士課程中退學(xué)了,從2010年起就開始在自己的廚房中開發(fā)技術(shù)工具。盡管他有專業(yè)技能,但是他缺乏業(yè)界的知識?!拔乙呀?jīng)擁有99.5%的技能了,”他說,“但我需要指導(dǎo)和引導(dǎo)?!睔v經(jīng)了一年的挫折,隨后他去了硅谷。在那里,他遇到了將他引導(dǎo)到正確軌道上的軟件工程師和企業(yè)家。還有賴于來自于加州山景城的著名創(chuàng)業(yè)孵化器公司Y Combinator初創(chuàng)基金的部分支持,他終于創(chuàng)辦了自己的公司——Noteleaf。
克拉姆卡知道有很多物理圈的朋友也對轉(zhuǎn)向業(yè)界數(shù)據(jù)科學(xué)領(lǐng)域充滿興趣,但是依然在為了進(jìn)入業(yè)界而掙扎,就像他曾經(jīng)歷的那樣。同時(shí),還有技術(shù)社區(qū)的朋友在抱怨他們已經(jīng)提供了開放的職位但是沒人夠聰明來勝任。所以克拉姆卡創(chuàng)辦了“洞察力數(shù)據(jù)科學(xué)公司”來為博士們提供面向業(yè)界數(shù)據(jù)科學(xué)的職業(yè)培訓(xùn)。目前為止,所有完成7周培訓(xùn)項(xiàng)目的人都獲得了工作機(jī)會(huì)。
Box 1: Learn the ropes: Find the data-science course to suit you
學(xué)會(huì)訣竅:找到適合你的數(shù)據(jù)科學(xué)課程
很多計(jì)劃轉(zhuǎn)向業(yè)界的人會(huì)利用自己在研究所的時(shí)間來提升自己的技能并探尋自己的機(jī)會(huì)。舊金山Stitch Fix公司的數(shù)據(jù)實(shí)驗(yàn)室主管伊萊·巴塞特建議,學(xué)習(xí)更符合業(yè)界胃口的編程工具如Python和R語言。而要是需要提升軟件技巧,可以參加諸如“Data Carpentry”或“Software Carpentry”(非營利性的workshop培訓(xùn))等培訓(xùn)項(xiàng)目。這些培訓(xùn)一般只需要兩天時(shí)間,在全世界的校園都可以參加。
格倫·王(Glenn Wong)目前是位于馬薩諸塞州薩默維爾的網(wǎng)絡(luò)安全公司Recorded Future的副總裁。當(dāng)他還在馬薩諸塞州的劍橋讀哈佛大學(xué)的物理學(xué)博士時(shí)就參加了哈佛商學(xué)院的培訓(xùn)。這段經(jīng)歷隨后幫助他通過了管理咨詢公司的面試。
Joy Tharathorn Rimchala曾經(jīng)是劍橋麻省理工學(xué)院合成生物學(xué)的博士后,現(xiàn)在是加利福尼亞山景城的財(cái)務(wù)軟件公司Intuit的數(shù)據(jù)科學(xué)家。她曾經(jīng)一直在猶豫是否放棄學(xué)術(shù)生涯,直到她開始旁聽一門計(jì)算科學(xué)的課程才下定決心?!澳菚r(shí)我意識到,數(shù)據(jù)科學(xué)很酷,至少跟我的博士學(xué)位一樣酷。”她說道。
Rimchala和巴塞特都參加過加州帕洛阿爾托的洞察力數(shù)據(jù)科學(xué)公司的培訓(xùn)項(xiàng)目,并由此成功轉(zhuǎn)型進(jìn)入業(yè)界。(去年,一個(gè)平行培訓(xùn)項(xiàng)目在紐約推出;今年7月還會(huì)在波士頓再推出一個(gè)。)課程參與者們組成團(tuán)隊(duì)來開發(fā)數(shù)據(jù)驅(qū)動(dòng)的Web應(yīng)用程序,并與來自技術(shù)公司的數(shù)據(jù)科學(xué)家會(huì)面。這些課程還是免費(fèi)的:成本由科技公司負(fù)擔(dān),包括支付雇員工資。
類似的嘗試在倫敦也有,Science to Data Science公司為約85個(gè)學(xué)生提供5周的培訓(xùn),每人支付360英鎊(約合540美元)的食宿費(fèi)用。經(jīng)過一周半的課程學(xué)習(xí),學(xué)生們分成小組與來自當(dāng)?shù)毓镜膶?dǎo)師一起針對公司提供的數(shù)據(jù)構(gòu)建實(shí)用性工具。公司的聯(lián)合創(chuàng)始人,天文學(xué)博士基姆·尼爾森(Kim Nilsson)說,大部分學(xué)員結(jié)束去年9月份的初創(chuàng)培訓(xùn)后都回到他們原來的實(shí)驗(yàn)室,但是如今75%的學(xué)員已經(jīng)在業(yè)界從事數(shù)據(jù)科學(xué)工作了。
另外也有免費(fèi)的選擇,7個(gè)禮拜的數(shù)據(jù)孵化器課程,目前在紐約和華盛頓開課,2015年夏季將在舊金山開課。最后,12周的紐約數(shù)據(jù)科學(xué)研究院項(xiàng)目,將在今年落地,其成本為1萬6美元,包括工具使用課程,如R、Hadoop和Python等。所有這些項(xiàng)目的申請量都超過了可提供的數(shù)量。
Job descriptions
工作描述
數(shù)據(jù)科學(xué)家的工作差異性很大。一些需要繁瑣的“數(shù)據(jù)處理”(data munging),清洗數(shù)據(jù)并填補(bǔ)空缺,使數(shù)據(jù)集適宜于簡單的數(shù)據(jù)分析。有些數(shù)據(jù)科學(xué)家的角色是數(shù)據(jù)應(yīng)用顧問,由其他同事制作新的模型和方法。大公司如LinkedIn,谷歌和Facebook,它們擁有龐大的用戶庫和數(shù)據(jù)集,傾向于采用最精妙的數(shù)據(jù)建模技術(shù)。
格倫·王(Glenn Wong)是馬薩諸塞州薩默維爾市“記錄未來”公司(Recorded Future)的副總,他擁有物理學(xué)博士學(xué)位。公司業(yè)務(wù)專注于有效組織Web數(shù)據(jù)來幫助客戶抵御網(wǎng)絡(luò)攻擊。王說,要成為數(shù)據(jù)科學(xué)家的人需要發(fā)散地想下自己的興趣所在,及在哪里可以做自己感興趣的事。“我的意思并不是‘這一小段DNA與那一小段DNA如何交互’,”王解釋道,“‘我喜歡解決來自復(fù)雜二維世界的難題’,或者說‘我喜歡跟那些有瘋狂想法且沒有地位觀念的人在一起’。”
艾米·海尼根選擇將她的計(jì)算社會(huì)學(xué)博士課程暫時(shí)休學(xué),轉(zhuǎn)而加入加州舊金山的一家初創(chuàng)技術(shù)公司。公司業(yè)務(wù)是為早起創(chuàng)業(yè)者提供咨詢和評估。“我選擇讀博士的原因在于想解決有趣的問題,而現(xiàn)在我們正在做的也真是如此?!彼劦剿墓ぷ鲿r(shí)說。經(jīng)過從學(xué)術(shù)圈出來的幾年,現(xiàn)在也擁有了指導(dǎo)幾家初創(chuàng)公司的經(jīng)歷,海尼根認(rèn)為她在業(yè)界擁有更好的機(jī)會(huì)來構(gòu)建想法并付諸實(shí)施,因?yàn)楣静趴梢耘c那些產(chǎn)品使用者實(shí)現(xiàn)真正的溝通。
但是,為了商業(yè)目標(biāo)博士們不得不讓自己適應(yīng),拋棄那些過于較精確的(學(xué)術(shù))要求。一旦數(shù)據(jù)模型可以奏效,學(xué)者可能專注于系統(tǒng)優(yōu)化以改進(jìn)較精確性及極值量?!暗窃跇I(yè)界,你較好說,‘我如何將其軟件化?我如何確定這不會(huì)崩潰?’”海尼根說,”為了用戶真實(shí)需求,你不得不有始有終地完成這些工作,而這些在學(xué)術(shù)圈是沒必要花時(shí)間去做的?!?/p>
有些招聘經(jīng)理擔(dān)心,去完成一個(gè)逐漸較精確模型的欲望可能會(huì)將學(xué)者引入到?jīng)]有成果的泥沼中。約翰·貝克(John Baker),在馬薩諸塞州的波士頓創(chuàng)建了一家名為“Datakin”的數(shù)據(jù)咨詢公司。他舉了一個(gè)例子,曾經(jīng)有位天體物理學(xué)家被同事們稱為“暗物質(zhì)”,因?yàn)樗麑⒕Χ加糜谧非笸昝赖臄?shù)據(jù)模型以至于從來沒有完成過他的項(xiàng)目。
山景城的網(wǎng)絡(luò)公司LinkedIn數(shù)據(jù)安全首席科學(xué)家戴維·弗里曼(David Freeman)說,有這種傾向的人在面試中很可能被淘汰。在被要求描述自己的成就時(shí),最有希望的候選人應(yīng)更關(guān)注于他曾實(shí)現(xiàn)的代碼而不是他曾發(fā)表的論文。獨(dú)立開發(fā)組件或新人培訓(xùn)是適應(yīng)業(yè)界需求的另一個(gè)積極標(biāo)志。Baker說,“你能分辨出誰其實(shí)是學(xué)術(shù)型的和誰真正有做項(xiàng)目的潛力?!?/p>
威爾·庫克斯科(Will Cukierski)就是以這種方式獲得關(guān)注的。他在新澤西州新不倫瑞克的羅格斯大學(xué)獲得了他的博士學(xué)位。在那里他使用計(jì)算機(jī)識別癌癥組織中顯著的病理部分。但是到了晚上,他將時(shí)間用于參與流媒體供應(yīng)商N(yùn)etflix100萬元美金的挑戰(zhàn)競賽:誰能設(shè)計(jì)出較好的網(wǎng)站電影推薦算法。雖然他沒有贏得獎(jiǎng)金,但是他發(fā)現(xiàn)了一個(gè)bug并繼續(xù)利用業(yè)余時(shí)間在舊金山的數(shù)據(jù)科學(xué)公司Kaggle主辦的類似競賽中嘗試。在2012年,公司高管接觸了他——他們注意到了他提交的內(nèi)容并認(rèn)為他可以在他們的團(tuán)隊(duì)中占據(jù)一席之地。在拿到了博士學(xué)位之后一周,庫克斯科開始以數(shù)據(jù)科學(xué)家的身份工作了。
對許多博士來說,成功的關(guān)鍵在于要找到一個(gè)產(chǎn)品或服務(wù)能吸引他們的公司。塞巴斯蒂安·古鐵雷斯(Sebastian Gutierrez)是《工作中的數(shù)據(jù)科學(xué)家》一書的作者,他說,“你需要找到合適的人,他們知道自己真正關(guān)心的業(yè)務(wù),并且對工作保有足夠熱情,還要能滿足你相應(yīng)的季度預(yù)算和目標(biāo)?!?/p>
數(shù)據(jù)科學(xué)家的崗位開始出現(xiàn)在學(xué)術(shù)界(見 ‘Academic data drive’(學(xué)術(shù)數(shù)據(jù)驅(qū)動(dòng))),但許多人發(fā)現(xiàn)業(yè)界環(huán)境更具吸引力?!霸跇I(yè)界我可以用20%的時(shí)間達(dá)到80%的目標(biāo),而不是相反,”珊妮·奧芬(Shani Offen)說。她曾經(jīng)是紐約大學(xué)的神經(jīng)科學(xué)研究教授,現(xiàn)在則是位于紐約的問答網(wǎng)站“About.com”的數(shù)據(jù)科學(xué)家。湯米·蓋伊(Tommy Guy)是技術(shù)巨頭微軟公司在華盛頓州貝爾維尤(Bellevue)的數(shù)據(jù)科學(xué)家。他喜歡因給出正確見解而獲得獎(jiǎng)勵(lì)的感覺,而不用在意結(jié)論是積極的還是消極的。例如,他可以采用數(shù)據(jù)分析得出結(jié)論,一種新提出的功能可能不會(huì)得到用戶歡迎而力主公司放棄這一計(jì)劃。這樣,公司因?yàn)楸苊饫速M(fèi)大筆經(jīng)費(fèi)而給予他嘉獎(jiǎng)。他說,與之相反,在學(xué)術(shù)圈幾乎不會(huì)對消極結(jié)果給予獎(jiǎng)勵(lì)的。
Box 2: Academic data drive: Universities create data-science hubs
學(xué)術(shù)數(shù)據(jù)驅(qū)動(dòng):大學(xué)創(chuàng)造了數(shù)據(jù)科學(xué)中心
不只是業(yè)界,學(xué)術(shù)界也越來越需要數(shù)據(jù)科學(xué)家。去年一筆5千8百萬美元的預(yù)算被批準(zhǔn)用于彌補(bǔ)這方面的短缺。該預(yù)算支持在西雅圖的華盛頓大學(xué)、加利福尼亞大學(xué)、加利福尼亞大學(xué)伯克利分校(UCB)以及紐約大學(xué)建立數(shù)據(jù)科學(xué)中心。這些大學(xué)的數(shù)據(jù)科學(xué)中心同時(shí)還獲得了來自加利福尼亞帕洛阿爾托的戈登貝蒂摩爾基金會(huì)(Gordon and Betty Moore Foundation)【譯者注:該基金會(huì)由“摩爾定律”提出者戈登·摩爾創(chuàng)立】和來自紐約的斯隆基金會(huì)(Alfred P. Sloan Foundation)【譯者注:該基金會(huì)由通用集團(tuán)原董事長及總裁艾爾弗雷德·P·斯隆創(chuàng)立】的共同資助。其中,摩爾基金會(huì)的贈(zèng)款將用于資助研究人員開發(fā)和改進(jìn)數(shù)據(jù)處理工具。
來自UCB新設(shè)立的數(shù)據(jù)科學(xué)伯克利研究院的助理研究員卡西克·拉姆(Karthik Ram)是第一個(gè)受資助者。他的職業(yè)成就在于他對于開源代碼的貢獻(xiàn)和為數(shù)據(jù)更好的重用性而做出的努力,而不是論文發(fā)表和引用量那種針對終身教職(tenure-track posts)的傳統(tǒng)評價(jià)標(biāo)準(zhǔn)。
摩爾基金會(huì)經(jīng)理克里斯·門采爾(Chris Mentzel)將拉姆及其同事描述為在一個(gè)正在獲得動(dòng)量的領(lǐng)域中的先驅(qū)者?!拔覀冋趪L試為這樣的研究者創(chuàng)建一個(gè)家園?!?/p>
弗里曼喜歡LinkedIn的工作節(jié)奏。他回憶起自己在加利福尼亞斯坦福大學(xué)做博士后時(shí)從事很前沿的研究?!拔夷菚r(shí)在做的工作即使可行,實(shí)際上在20年內(nèi)也看不到結(jié)果。我那時(shí)就在尋找效果可以立竿見影的事情。”而沒有什么比不斷設(shè)置截止期限更讓人集中精力的了。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4311.html
摘要:如今在機(jī)器學(xué)習(xí)中突出的人工神經(jīng)網(wǎng)絡(luò)最初是受神經(jīng)科學(xué)的啟發(fā)。雖然此后神經(jīng)科學(xué)在機(jī)器學(xué)習(xí)繼續(xù)發(fā)揮作用,但許多主要的發(fā)展都是以有效優(yōu)化的數(shù)學(xué)為基礎(chǔ),而不是神經(jīng)科學(xué)的發(fā)現(xiàn)。 開始之前看一張有趣的圖 - 大腦遺傳地圖:Figure 0. The Genetic Geography of the Brain - Allen Brain Atlas成年人大腦結(jié)構(gòu)上的基因使用模式是高度定型和可再現(xiàn)的。 Fi...
摘要:第二次則是今年初,論文被深度學(xué)習(xí)盛會(huì)拒絕。表示遺憾乃至憤怒的人不在少數(shù)。他認(rèn)為,使從其他學(xué)術(shù)實(shí)驗(yàn)室中脫穎而出的,是它的跨領(lǐng)域文化。騰訊也在籌建人工智能實(shí)驗(yàn)室,近期消息就會(huì)正式公布。 牛津大學(xué)和 DeepMind 的研究人員合作,開發(fā)出一款能夠閱讀唇語的系統(tǒng),這個(gè)名叫 Watch, Attend and Spell(WAS)的軟件在實(shí)際表現(xiàn)中遠(yuǎn)遠(yuǎn)超越了人類專家的水平。研究人員使用計(jì)算機(jī)視覺和機(jī)...
閱讀 2667·2023-04-26 00:42
閱讀 2814·2021-09-24 10:34
閱讀 3826·2021-09-24 09:48
閱讀 4163·2021-09-03 10:28
閱讀 2584·2019-08-30 15:56
閱讀 2779·2019-08-30 15:55
閱讀 3271·2019-08-29 12:46
閱讀 2251·2019-08-28 17:52