成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

推你想看的,Twitter如何在信息流中大規(guī)模應(yīng)用深度學(xué)習(xí)

tinysun1234 / 1065人閱讀

摘要:在信息流排序方面,運(yùn)用了的深度學(xué)習(xí)模型,并在準(zhǔn)確度方面獲得了顯著的成果,促進(jìn)了用戶增長(zhǎng)和參與度的提升。大型的研究團(tuán)隊(duì)被組建起來(lái),很多野心勃勃的項(xiàng)目基于各種原因開(kāi)始使用深度學(xué)習(xí)。基于上述的各種原因,我們認(rèn)為深度學(xué)習(xí)是更好的方案。

不知道微博上多久沒(méi)有收到主動(dòng)推送的關(guān)心的親友消息了;廣告除外??梢?jiàn)信息流做好不是一件容易的事情。Twitter 在信息流排序方面,運(yùn)用了的深度學(xué)習(xí)模型,并在準(zhǔn)確度方面獲得了顯著的成果,促進(jìn)了用戶增長(zhǎng)和參與度的提升。更為重要的是這為我們打開(kāi)了一扇大門(mén),說(shuō)明我們可以使用由深度學(xué)習(xí)社區(qū)提供的各種新穎的技術(shù),讓基于機(jī)器學(xué)習(xí)的產(chǎn)品從這些技術(shù)中獲益??吹竭@篇文章之后,我們的社區(qū)編輯馬上申請(qǐng)了授權(quán),Twitter 的作者表示得很重視,要求翻譯后要讓他們懂 Mandarin 的工程師審校。

最后Twitter 工程師在我們專業(yè)的翻譯上,進(jìn)行了一字一句的審校,如下圖:

下面我們看看該文正文吧:)

這篇文章由來(lái)自 Twitter 的 Nicolas Koumchatzky 和 Anton Andryeyev 共同撰寫(xiě),最初發(fā)表在 Twitter 的博客上。以下內(nèi)容已經(jīng)獲得 Twitter 的翻譯授權(quán),并已通過(guò) Twitter 的審校,點(diǎn)擊閱讀原文可查看英文原文:Using Deep Learning at Scale in Twitter"s Timelines。

從我們開(kāi)始對(duì)信息流進(jìn)行改進(jìn)到現(xiàn)在已經(jīng)有一年多時(shí)間了,我們進(jìn)一步改進(jìn)了底層的算法,從而為用戶呈現(xiàn)具有更高相關(guān)度的內(nèi)容。

我們將會(huì)在這篇文章里介紹我們基于深度神經(jīng)網(wǎng)絡(luò)的信息流排序算法,以及由 Twitter 內(nèi)部 AI 團(tuán)隊(duì) Cortex 構(gòu)建的 AI 平臺(tái)和它提供的建模功能。簡(jiǎn)而言之,現(xiàn)在和未來(lái)的 Twitter 信息流將具有更高的相關(guān)度。這為我們打開(kāi)了一扇大門(mén),我們可以使用由深度學(xué)習(xí)社區(qū)提供的各種新穎的技術(shù),特別是在 NLP(自然語(yǔ)言處理)、對(duì)話理解和媒體領(lǐng)域。

我們?nèi)绾螌?duì)信息流進(jìn)行排序? ?

在引入排序算法之前,信息流的組成非常簡(jiǎn)單:收集所有由你的關(guān)注對(duì)象在你最后一次登錄 Twitter 之后發(fā)送的推文,再將它們按照時(shí)間倒序顯示出來(lái)。這個(gè)看起來(lái)很簡(jiǎn)單,但要為數(shù)以億計(jì)的 Twitter 用戶提供這種穩(wěn)定的體驗(yàn)對(duì)我們來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),它對(duì)我們的基礎(chǔ)設(shè)施和運(yùn)維能力提出了很高的要求。

在引入排序算法之后,信息流的組成變得更加豐富。在收集推文之后,我們使用相關(guān)度模型對(duì)它們打分。這個(gè)分?jǐn)?shù)是針對(duì)每個(gè)用戶對(duì)推文感興趣程度的預(yù)測(cè)。具有較高分?jǐn)?shù)的推文被展示在信息流的最上面,其他推文緊隨其后顯示。根據(jù)你的信息流中已有的推文數(shù)量以及從你最后一次登錄 Twitter 至今的時(shí)間長(zhǎng)短,我們還可能專門(mén)為你提供一個(gè)“你可能錯(cuò)過(guò)的推文”模塊。這個(gè)模塊只包含少量具有較高相關(guān)度的推文。這樣做的目的是希望你能夠先看到重要的推文,然后再進(jìn)一步查看按照時(shí)間排序的部分。

為了預(yù)測(cè)推文的相關(guān)度,我們的模型考慮到了以下幾個(gè)特征。

推文本身:鮮活度(recency)、是否包含媒體卡(圖像或視頻)、互動(dòng)情況(如轉(zhuǎn)發(fā)或點(diǎn)贊次數(shù))。

推文的作者:你過(guò)去與作者的互動(dòng)情況、你與作者之間關(guān)系的緊密程度、你與作者之間的關(guān)系是如何建立的。

你自己:你參與過(guò)互動(dòng)的推文、你使用 Twitter 的頻率和使用程度。我們使用的特征和各種特征之間的關(guān)系在不斷增長(zhǎng),我們的模型因此能夠識(shí)別出更為較精確的行為模式。

每次在你打開(kāi)手機(jī)或刷新信息流的時(shí)候,我們都會(huì)對(duì)推文進(jìn)行打分,以便確定哪些推文可以被展示在信息流的最上面。打分這一舉動(dòng)對(duì)我們的信息流服務(wù)基礎(chǔ)設(shè)施提出了很高的計(jì)算要求,因?yàn)槲覀儸F(xiàn)在每秒鐘要對(duì)數(shù)千條推文進(jìn)行打分。雖然更豐富的模型可以提高推文排序的質(zhì)量,但對(duì)于像 Twitter 這樣的實(shí)時(shí)社交公司來(lái)說(shuō),速度與質(zhì)量同樣重要。Twitter 獨(dú)特的挑戰(zhàn)在于如何為查看信息流的用戶進(jìn)行快速實(shí)時(shí)的打分,并且擁有足夠強(qiáng)大的模型來(lái)保證排序質(zhì)量以及后續(xù)的改進(jìn)。

選擇正確的方式來(lái)構(gòu)建和運(yùn)行預(yù)測(cè)模型深切影響著每一個(gè)用戶使用 Twitter 的體驗(yàn)。

信息流排序?qū)C(jī)器學(xué)習(xí)平臺(tái)的要求 ?

在上一個(gè)小節(jié)中,我們已經(jīng)得出這樣的結(jié)論:要在 Twitter 的生產(chǎn)環(huán)境運(yùn)行這些模型,它們必須滿足很多要求。

預(yù)測(cè)的質(zhì)量和速度

資源的利用率

可維護(hù)性

我們通過(guò)兩種方式來(lái)衡量模型的質(zhì)量。首先,在進(jìn)行模型訓(xùn)練過(guò)程中,我們使用定義明確的準(zhǔn)確率度量指標(biāo)。這些指標(biāo)可以告訴我們?nèi)蝿?wù)的執(zhí)行情況,并為相關(guān)度高的推文打較高的分?jǐn)?shù)。最終模型的準(zhǔn)確率雖然可以作為早期指標(biāo),但并不能可靠的預(yù)測(cè) Twitter 用戶會(huì)如何與推文互動(dòng)。

我們通過(guò)運(yùn)行 AB 測(cè)試和比較實(shí)驗(yàn)結(jié)果來(lái)衡量 Twitter 用戶的受影響程度。我們所使用的一系列度量指標(biāo)與 Twitter 的使用情況和受歡迎程度有關(guān)。例如,我們跟蹤每個(gè)用戶的參與次數(shù),或者他們?cè)?Twitter 上所花費(fèi)的時(shí)間。在結(jié)束一次 AB 測(cè)試后,我們不僅能判斷新模型是否能夠?yàn)橛脩魩?lái)更愉悅的體驗(yàn),還能衡量出模型改進(jìn)的程度。在像 Twitter 這么大規(guī)模的信息流排序系統(tǒng)里,模型的一個(gè)很小改進(jìn)就可以對(duì)用戶體驗(yàn)帶來(lái)重大的影響。

最后,即使我們能夠達(dá)到模型質(zhì)量和速度方面的要求,要啟用一個(gè)新模型還會(huì)受到一些其他的限制,這個(gè)與發(fā)布其他功能特性是一樣的。我們需要知道模型將會(huì)帶來(lái)什么樣的影響,并將它與這個(gè)模型可能增加的成本進(jìn)行對(duì)比,在兩者之間做出權(quán)衡。增加的成本可能來(lái)自硬件或者更復(fù)雜的運(yùn)維和支持。

除了預(yù)測(cè)模型之外,信息流對(duì)機(jī)器學(xué)習(xí)框架也提出了類似的要求。我們可以基于這些框架定義、訓(xùn)練、計(jì)算和運(yùn)行預(yù)測(cè)模型。我們著重關(guān)注以下幾個(gè)問(wèn)題。

大數(shù)據(jù)集的訓(xùn)練速度和伸縮性

對(duì)新技術(shù)的可擴(kuò)展性

易用的訓(xùn)練、調(diào)試、計(jì)算和部署的工具

在使用機(jī)器學(xué)習(xí)的開(kāi)始階段,選擇好的模型(不管它是如何生成的)是最重要的。畢竟,我們是想要驗(yàn)證預(yù)測(cè)模型的可行性。

不過(guò),隨著預(yù)測(cè)流水線的日漸成熟,機(jī)器學(xué)習(xí)框架的易用性、伸縮性和可擴(kuò)展性變得越來(lái)越重要。一個(gè)脆弱復(fù)雜且只能被少數(shù)幾個(gè)工程師理解或擴(kuò)展的框架是不會(huì)長(zhǎng)久的,就算它有性能方面的優(yōu)勢(shì)。隨著數(shù)據(jù)挖掘、特性工程和快速實(shí)驗(yàn)等方面工作的不斷深入,系統(tǒng)的核心工程特征變得越來(lái)越重要。一個(gè)穩(wěn)定靈活的框架可以帶來(lái)可重復(fù)的性能收益。AI 社區(qū)提供了大量的新算法和模型,一個(gè)支持深度學(xué)習(xí)和復(fù)雜圖的平臺(tái)正是我們利用這些新算法和模型的關(guān)鍵。

在信息流排序算法中引入深度學(xué)習(xí) ?

因?yàn)樵缙谠趫D像和語(yǔ)言理解方面的成果,深度學(xué)習(xí)成為很多科技公司必備的技術(shù)。大型的研究團(tuán)隊(duì)被組建起來(lái),很多野心勃勃的項(xiàng)目基于各種原因開(kāi)始使用深度學(xué)習(xí)。

直接的結(jié)果就是,很多新的模型被發(fā)明出來(lái),用于解決領(lǐng)域問(wèn)題。人類的大腦與算法之間的能力差距在縮小。這種繁榮和多樣化主要?dú)w因于深度學(xué)習(xí)固有的模塊化特性。深度學(xué)習(xí)模塊可以以任意的方式進(jìn)行組合(堆疊、連接,等等),然后形成計(jì)算圖。圖的參數(shù)可以通過(guò)學(xué)習(xí)獲得,一般使用反向傳播(back-propagation)或 mini batch 的隨機(jī)梯度下降(SGD)。

“低階”模塊可以是任何東西,只要它們能夠根據(jù)輸入數(shù)據(jù)計(jì)算出輸出數(shù)據(jù)和必要的梯度。實(shí)際上,這個(gè)領(lǐng)域最近的一些框架(torch-autograd、PyTorch、TensorFlow)針對(duì)基本的算符,甚至提供了全自動(dòng)的輸出和梯度計(jì)算,并讓框架自己生成計(jì)算圖。Torch-autograd 和 PyTorch 則更進(jìn)一步,它們支持動(dòng)態(tài)的計(jì)算圖,允許計(jì)算圖在不同的 mini batch 之間變化。

這些計(jì)算圖的吸引力,不僅源于它們非常強(qiáng)大的建模能力,還因?yàn)樗鼈兊挠?xùn)練具有可伸縮性。這些模型是基于數(shù)據(jù)的 mini batch 展開(kāi)學(xué)習(xí)的,因此總的數(shù)據(jù)集可以非常大。

回到推文排序的問(wèn)題。推文排序與大多數(shù)研究人員和深度學(xué)習(xí)算法專注的領(lǐng)域是不一樣的,因?yàn)?Twitter 的數(shù)據(jù)特征是稀疏的。因?yàn)楦鞣N原因,比如可用性和延遲方面的要求,并不能保證每一個(gè)特征都能被可靠的保留或記錄下來(lái)。

一般情況下,可以使用其他一些算法來(lái)解決這些問(wèn)題,比如決策樹(shù)、邏輯回歸、特征交叉和離散化。實(shí)際上,在一開(kāi)始我們?cè)谛畔⒘髋判蛏弦矐?yīng)用了這些技術(shù)。

基于上述的各種原因,我們認(rèn)為深度學(xué)習(xí)是更好的方案。不過(guò),為了能夠?qū)⑸疃葘W(xué)習(xí)應(yīng)用到生產(chǎn)環(huán)境,我們至少要確保它能夠?yàn)槲覀儙?lái)與傳統(tǒng)機(jī)器學(xué)習(xí)方法一樣或更好的結(jié)果,并且具備更快的建模和訓(xùn)練速度。

負(fù)責(zé) Twitter 深度學(xué)習(xí)平臺(tái)的團(tuán)隊(duì) Cortex 做出了以下的調(diào)整和改進(jìn)來(lái)滿足我們的要求。

新的模型架構(gòu)和訓(xùn)練方法:經(jīng)過(guò)一段時(shí)間的研究和探索,通過(guò)如下技術(shù)超越了之前的算法:

離散化:數(shù)據(jù)記錄間的稀疏特征值會(huì)有很大的不同。我們找到了一種方式,對(duì)輸入的稀疏特征進(jìn)行離散化,然后再讓它們進(jìn)入到深度學(xué)習(xí)網(wǎng)絡(luò)。

一個(gè)自定義的稀疏線性層:相比其他稀疏層,這個(gè)自定義的稀疏層具有兩個(gè)額外的特點(diǎn):它提供了在線的歸一化(online normalization)方法,可以防止梯度暴增,以及特征偏差(bias),用于區(qū)分特征的丟失和零值特征。

與校準(zhǔn)(calibration)層相關(guān)的取樣方法:當(dāng)用于訓(xùn)練的數(shù)據(jù)集包含了相近數(shù)量的正值樣本和負(fù)值樣本,深度學(xué)習(xí)網(wǎng)絡(luò)可以獲得更好的結(jié)果。不過(guò),如果是通過(guò)手動(dòng)來(lái)調(diào)整樣本數(shù)量,會(huì)導(dǎo)致非標(biāo)定的預(yù)測(cè)結(jié)果。所以,我們?cè)黾恿艘粋€(gè)自定義的等分校準(zhǔn)層進(jìn)行二次校準(zhǔn),讓輸出的結(jié)果更加準(zhǔn)確。

訓(xùn)練計(jì)劃:除了上述幾點(diǎn)之外,我們現(xiàn)在的模型訓(xùn)練過(guò)程包含了幾個(gè)步驟:離散器校準(zhǔn)、深度網(wǎng)絡(luò)訓(xùn)練、預(yù)測(cè)的等分校準(zhǔn)(isotonic calibration)和測(cè)試。得益于我們平臺(tái)的靈活性,我們可以很輕松地定義上述這些步驟,然后按順序執(zhí)行它們。

更好地實(shí)現(xiàn)和優(yōu)化模塊,以更小的延遲超越之前的算法。這些模塊很好地結(jié)合了批次、多線程和硬件資源來(lái)達(dá)到更低的延遲。

更好的平臺(tái)設(shè)計(jì):

模塊的訓(xùn)練和重用變得更加容易:簡(jiǎn)單易用的訓(xùn)練流程設(shè)計(jì)過(guò)程簡(jiǎn)化了任務(wù)的串行化和模型的建立。

自動(dòng)捆綁集群資源,支持更優(yōu)的交互:這些模型需要在 Twitter 的集群上重新進(jìn)行訓(xùn)練、探索和測(cè)試。平臺(tái)為用戶提供了一種簡(jiǎn)單的方式來(lái)完整這些工作。

通用的測(cè)試和服務(wù)工具:訓(xùn)練過(guò)的模型需要進(jìn)行大規(guī)模的實(shí)驗(yàn),需要在生產(chǎn)環(huán)境里進(jìn)行大量的測(cè)試,同時(shí)要求部署過(guò)程盡量簡(jiǎn)單?;旧希@些工作都可以通過(guò)一行命令來(lái)完成。

影響 ?

我們?cè)诖罱ㄒ粋€(gè)完整的深度學(xué)習(xí)平臺(tái)上所做的努力已經(jīng)初顯成效。在信息流排序方面,深度學(xué)習(xí)模型在準(zhǔn)確度方面獲得了顯著的成果。這些成果在模型的整個(gè)生命周期內(nèi)保持穩(wěn)定,從新特性的引入到擴(kuò)展模型用于預(yù)測(cè)新類型的參與度。這說(shuō)明深度學(xué)習(xí)是穩(wěn)定的,可以推廣使用。更重要的是,從度量指標(biāo)(如推文的參與度和花費(fèi)在 Twitter 上的時(shí)間)上看,在線體驗(yàn)也得到了顯著改進(jìn)。我們?cè)谥胺窒淼臉I(yè)績(jī)報(bào)告中已經(jīng)提到過(guò),的信息流促進(jìn)了用戶增長(zhǎng)和 Twitter 參與度的提升。

端到端的框架體驗(yàn)是影響深度學(xué)習(xí)的另一個(gè)重要方面。我們的終極目標(biāo)是構(gòu)建一個(gè)統(tǒng)一、靈活、快速的框架,簡(jiǎn)化深度學(xué)習(xí)技術(shù)和模塊的組裝以及機(jī)器學(xué)習(xí)技術(shù)的采用。這種靈活性為信息流排序任務(wù)的快速實(shí)驗(yàn)和獲得更高質(zhì)量的模型提供了良好的支持。

我們的愿景在進(jìn)一步顯化,越來(lái)越多的 Twitter 團(tuán)隊(duì)在他們的模型棧中使用了深度學(xué)習(xí)。

未來(lái) ?

將深度學(xué)習(xí)作為信息流排序最主要的建模組件已經(jīng)在生產(chǎn)環(huán)境為我們帶來(lái)了非常好的成效。不過(guò),更重要的是,Twitter 希望借此打開(kāi)一扇通向未來(lái)的大門(mén)。在機(jī)器學(xué)習(xí)領(lǐng)域,深度學(xué)習(xí)和 AI 相關(guān)的工作在這些年得到了空前的發(fā)展,出現(xiàn)了大量新的技術(shù)和算法。我們相信,讓基于機(jī)器學(xué)習(xí)的產(chǎn)品從這些技術(shù)中獲益是至關(guān)重要的。我們可以在原生支持深度學(xué)習(xí)的平臺(tái)上達(dá)成我們的目的。

從長(zhǎng)期來(lái)看,我們因此能夠更好地理解每一條推文和 Twitter 上的交互模式,從而實(shí)時(shí)地為用戶推薦具有更高相關(guān)度的推文。

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4550.html

相關(guān)文章

  • 吳恩達(dá)眼中的深度學(xué)習(xí)七雄

    摘要:的研究興趣涵蓋大多數(shù)深度學(xué)習(xí)主題,特別是生成模型以及機(jī)器學(xué)習(xí)的安全和隱私。與以及教授一起造就了年始的深度學(xué)習(xí)復(fù)興。目前他是僅存的幾個(gè)仍然全身心投入在學(xué)術(shù)界的深度學(xué)習(xí)教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學(xué)計(jì)算機(jī)視覺(jué)博士學(xué)位,讀博期間師從現(xiàn)任 Google AI 首席科學(xué)家李飛飛,研究卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理上的應(yīng)...

    MingjunYang 評(píng)論0 收藏0
  • 這里是純干貨!2018年深度學(xué)習(xí)的10個(gè)發(fā)展預(yù)測(cè)

    摘要:年深度學(xué)習(xí)取得的驚人突破將在年以一種非常有力的方式延續(xù)下去。整理了一份年深度學(xué)習(xí)的預(yù)測(cè)清單。谷歌將繼續(xù)以的開(kāi)發(fā)項(xiàng)目給世界帶來(lái)驚喜。深度學(xué)習(xí)發(fā)現(xiàn)了通用函數(shù)近似器。深度學(xué)習(xí)研究信息將減少年對(duì)于從事深度學(xué)習(xí)研究的人來(lái)說(shuō)已經(jīng)很困難了。 【網(wǎng)易智能訊1月4日消息】我有一種預(yù)感,2018年可能是一切都發(fā)生戲劇性變化的一年。2017年深度學(xué)習(xí)取得的驚人突破將在2018年以一種非常有力的方式延續(xù)下去。...

    zero 評(píng)論0 收藏0
  • 這里是純干貨!2018年深度學(xué)習(xí)的10個(gè)發(fā)展預(yù)測(cè)

    摘要:年深度學(xué)習(xí)取得的驚人突破將在年以一種非常有力的方式延續(xù)下去。整理了一份年深度學(xué)習(xí)的預(yù)測(cè)清單。谷歌將繼續(xù)以的開(kāi)發(fā)項(xiàng)目給世界帶來(lái)驚喜。深度學(xué)習(xí)發(fā)現(xiàn)了通用函數(shù)近似器。深度學(xué)習(xí)研究信息將減少年對(duì)于從事深度學(xué)習(xí)研究的人來(lái)說(shuō)已經(jīng)很困難了。 【網(wǎng)易智能訊1月4日消息】我有一種預(yù)感,2018年可能是一切都發(fā)生戲劇性變化的一年。2017年深度學(xué)習(xí)取得的驚人突破將在2018年以一種非常有力的方式延續(xù)下去。...

    miya 評(píng)論0 收藏0
  • 這里是純干貨!2018年深度學(xué)習(xí)的10個(gè)發(fā)展預(yù)測(cè)

    摘要:年深度學(xué)習(xí)取得的驚人突破將在年以一種非常有力的方式延續(xù)下去。整理了一份年深度學(xué)習(xí)的預(yù)測(cè)清單。谷歌將繼續(xù)以的開(kāi)發(fā)項(xiàng)目給世界帶來(lái)驚喜。深度學(xué)習(xí)發(fā)現(xiàn)了通用函數(shù)近似器。深度學(xué)習(xí)研究信息將減少年對(duì)于從事深度學(xué)習(xí)研究的人來(lái)說(shuō)已經(jīng)很困難了。 【網(wǎng)易智能訊1月4日消息】我有一種預(yù)感,2018年可能是一切都發(fā)生戲劇性變化的一年。2017年深度學(xué)習(xí)取得的驚人突破將在2018年以一種非常有力的方式延續(xù)下去。...

    hiyayiji 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<