摘要:年發(fā)表了基于和存儲(chǔ)的大規(guī)模實(shí)時(shí)推薦系統(tǒng)實(shí)現(xiàn)了一系列經(jīng)典推薦算法的實(shí)時(shí)版本實(shí)現(xiàn)了數(shù)種實(shí)時(shí)算法提高推薦精度廣泛應(yīng)用于業(yè)務(wù)有效提高騰訊采用使用原因,支持實(shí)時(shí)數(shù)據(jù)流式計(jì)算,良好的可擴(kuò)展性可容錯(cuò)性,采用簡(jiǎn)單編程模型。
1.實(shí)時(shí)推薦系統(tǒng)與相關(guān)工作 1.1 原因
實(shí)時(shí)計(jì)算能夠及時(shí)捕獲用戶短時(shí)興趣,同時(shí)能夠快速反饋分發(fā)當(dāng)前系統(tǒng)的用戶興趣內(nèi)容。大量實(shí)踐以及發(fā)表的文章都顯示了推薦系統(tǒng)實(shí)時(shí)化,對(duì)推薦精準(zhǔn)度的提升的有效性和必要性。
1.2 騰訊架構(gòu)與實(shí)現(xiàn)實(shí)時(shí)推薦相關(guān)工作非常多,騰訊和北大合作的兩篇SIGMOD文章是比較實(shí)際和詳細(xì)的實(shí)現(xiàn),采用的計(jì)算框架能夠支持大規(guī)模數(shù)據(jù)的實(shí)時(shí)推薦,以下將會(huì)分開(kāi)簡(jiǎn)述以下兩篇文章。
2015年Huang發(fā)表了基于Storm和KV存儲(chǔ)的大規(guī)模實(shí)時(shí)推薦系統(tǒng) (TencentRec: Real-time Stream Recommendation in Practice)
實(shí)現(xiàn)了一系列經(jīng)典推薦算法的實(shí)時(shí)版本
實(shí)現(xiàn)了數(shù)種實(shí)時(shí)算法提高推薦精度
廣泛應(yīng)用于業(yè)務(wù)有效提高
騰訊采用使用storm原因,支持實(shí)時(shí)數(shù)據(jù)流式計(jì)算,良好的可擴(kuò)展性、可容錯(cuò)性,采用簡(jiǎn)單編程模型。文章核心包括實(shí)時(shí)增量計(jì)算的ItemCF,以及用戶隱式反饋計(jì)算、實(shí)時(shí)剪枝算法、基于用戶畫(huà)像的數(shù)據(jù)稀疏性策略。應(yīng)用在多個(gè)業(yè)務(wù)上都有不同程度的提升,最明顯的是騰訊視頻的全局表現(xiàn)提升高達(dá)30%。
全文核心應(yīng)該是下圖六道公式,闡述騰訊如何具體實(shí)現(xiàn)的增量itemcf。
文章中的co-rating,其實(shí)就是我們常說(shuō)的user bias. 公式3和4解決了用戶隱式反饋問(wèn)題,細(xì)節(jié)的計(jì)算可以參考2016的文章,實(shí)際是一個(gè)log函數(shù)融合了用戶的瀏覽、點(diǎn)擊、分享、購(gòu)買等行為,轉(zhuǎn)化成rating.
corating.png
請(qǐng)注意公式4,由于他們定義了corating,實(shí)際是將相似度的增量計(jì)算從L2范數(shù)的計(jì)算轉(zhuǎn)化成了L1范數(shù)計(jì)算.(當(dāng)Rup取x的時(shí)候,y=1/x)。
可擴(kuò)展的增量計(jì)算
itemcf.png
initemcf.png
2016年騰訊視頻的推薦應(yīng)用(Real-time Video Recommendation Exploration)
實(shí)時(shí)處理、大規(guī)模數(shù)據(jù)下的準(zhǔn)確率和可擴(kuò)展性。
開(kāi)發(fā)了一個(gè)基于矩陣分解的大規(guī)模在線協(xié)同過(guò)濾算法,以及一系列的自適應(yīng)更新策略。
通過(guò)增加包括視頻類別、時(shí)間因素影響、用戶畫(huà)像剪枝以及訓(xùn)練等方法,提高實(shí)時(shí)TopN推薦的精度。
在我們看來(lái),全文核心在于實(shí)時(shí)計(jì)算的數(shù)據(jù)流轉(zhuǎn),如下圖所示:
tecvideo.png
基于storm的實(shí)時(shí)計(jì)![圖片上傳中...]
topo.png
糖豆的設(shè)計(jì)與實(shí)現(xiàn) 2.1 架構(gòu)
糖豆整體推薦框架,從離線,近線,在線三套計(jì)算流程組合而成。在線流程基于Spark Streaming框架實(shí)現(xiàn),部署在近線集群。 在線推薦框架實(shí)時(shí)根據(jù)用戶行為,生成實(shí)時(shí)推薦列表,從而滿足用戶瞬時(shí)興趣,提高推薦系統(tǒng)的推薦新鮮度。簡(jiǎn)單架構(gòu)圖如下:
糖豆實(shí)時(shí)架構(gòu).png
2.2 基于Spark Streaming的實(shí)現(xiàn) 2.2.1. 計(jì)算流程實(shí)時(shí)計(jì)算流程如下圖所示:
實(shí)時(shí)計(jì)算流程圖
分解步驟:
Spark Streaming 讀取Kafka,原始日志ETL
提取用戶隱式反饋,生成候選集tuple (uid,vid)
每天凌晨會(huì)將離線計(jì)算好的ItemCF模型結(jié)果集導(dǎo)入Redis。itemcf數(shù)據(jù)結(jié)構(gòu)是一個(gè)similarity vid list。
實(shí)時(shí)維護(hù)看過(guò)視頻set,對(duì)看過(guò)視頻的處理候選集tuple過(guò)濾該用戶看過(guò)的視頻
實(shí)時(shí)更新推薦過(guò)視頻set,候選集tuple過(guò)濾當(dāng)天已經(jīng)被推薦過(guò)的視頻
候選集寫入Redis推薦list
部署在集群Master節(jié)點(diǎn)的監(jiān)控腳本會(huì)每30s掃描一次實(shí)時(shí)計(jì)算代碼進(jìn)程,如果發(fā)現(xiàn)進(jìn)程被failed,會(huì)自動(dòng)拉起實(shí)時(shí)計(jì)算Spark Steaming進(jìn)程。如果進(jìn)程拉起失敗會(huì)觸發(fā)郵件、短信報(bào)警
2.3 收益根據(jù)我們的AB測(cè)試數(shù)據(jù)來(lái)看,整體CTR提升25%。用推薦系統(tǒng)的A版對(duì)比無(wú)推薦的B版,用戶觀看時(shí)長(zhǎng)提升47%。
recabdata.png
問(wèn)題與改進(jìn)
較多代碼邏輯集中在Redis。目前Redis無(wú)災(zāi)備措施,同時(shí)IO和負(fù)載也會(huì)出現(xiàn)Peak。
Spark Streaming 目前實(shí)時(shí)級(jí)別在分鐘級(jí)。需要升級(jí)成storm的秒、毫秒級(jí)別。
需要用戶點(diǎn)擊等行為才會(huì)生產(chǎn)數(shù)據(jù),容易召回不足。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41958.html
摘要:快杰云主機(jī)搭建??旖茉浦鳈C(jī),搭載選用第二代處理器,主頻,領(lǐng)先的制程工藝帶來(lái)顯著的性能提升,使之打破總體性價(jià)比世界記錄。因此,糖豆與神策數(shù)據(jù)此次最終共同選擇了快杰服務(wù)器。在涼風(fēng)習(xí)習(xí)的夜晚里,璀璨的燈火映照下,隨處都能碰到翩翩起舞的人群,這就是廣場(chǎng)舞,在這嘹亮、節(jié)奏鮮明的歌聲里有一款大媽們熱愛(ài)的APP—-?糖豆APP。 ?一、挑戰(zhàn) 在發(fā)展之初,多家企業(yè)看好廣場(chǎng)舞這個(gè)賽道,而糖豆創(chuàng)業(yè)初...
摘要:摘要敏捷大數(shù)據(jù)智能化的主要目標(biāo)就是,結(jié)合敏捷大數(shù)據(jù)實(shí)施理念,研發(fā)靈活的輕量化的智能模型,并在敏捷大數(shù)據(jù)平臺(tái)上對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)智能化處理,最終實(shí)現(xiàn)一站式的大數(shù)據(jù)智能分析實(shí)踐。因此,實(shí)時(shí)數(shù)據(jù)處理已成為未來(lái)大數(shù)據(jù)技術(shù)發(fā)展的主要方向。 摘要:敏捷大數(shù)據(jù)智能化的主要目標(biāo)就是,結(jié)合敏捷大數(shù)據(jù)實(shí)施理念,研發(fā)靈活的、輕量化的智能模型,并在敏捷大數(shù)據(jù)平臺(tái)上對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)智能化處理,最終實(shí)現(xiàn)一站式的大數(shù)...
摘要:演講中,王志勇代表螞蟻金服首次向公眾介紹了螞蟻金服智能推薦引擎,分享了螞蟻金服利用人工智能和大數(shù)據(jù)能力在推薦引擎上沉淀的大量經(jīng)驗(yàn),并介紹了結(jié)合螞蟻?zhàn)陨韮?yōu)勢(shì)打造的能夠靈活適配各種業(yè)務(wù)場(chǎng)景的智能推薦引擎解決方案及其能力和優(yōu)勢(shì)。 摘要:以數(shù)字金融新原力(The New Force of Digital Finance)為主題,螞蟻金服ATEC城市峰會(huì)于2019年1月4日上海如期舉辦。金融智能...
摘要:美圖的推薦流程分為如下三個(gè)階段召回階段推薦的本質(zhì)是給不同的用戶提供不同的內(nèi)容排序。美圖的用戶數(shù)量逐步增長(zhǎng),而每個(gè)用戶的興趣點(diǎn)隨著場(chǎng)景時(shí)間也在同步發(fā)生變化。 互聯(lián)網(wǎng)技術(shù)將我們帶入了信息爆炸的時(shí)代,面對(duì)海量的信息,一方面用戶難以迅速發(fā)現(xiàn)自己感興趣的信息,另一方面長(zhǎng)尾信息得不到曝光。為了解決這些問(wèn)題,個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生。美圖擁有海量用戶的同時(shí)積累了海量圖片與視頻,通過(guò)推薦系統(tǒng)有效建立了用...
閱讀 2452·2019-08-30 15:52
閱讀 2248·2019-08-30 12:51
閱讀 2844·2019-08-29 18:41
閱讀 2827·2019-08-29 17:04
閱讀 823·2019-08-29 15:11
閱讀 1739·2019-08-28 18:02
閱讀 3612·2019-08-26 10:22
閱讀 2518·2019-08-26 10:12