今天這篇文章,主要是用來給大家解答一個問題,就是關(guān)于怎么用Python去實現(xiàn)一個功能,需要用到的算法是MostPopular算法,具體給大家詳細的解答下。
推薦系統(tǒng)MostPopular算法的Python實現(xiàn)
MostPopular算法的是指對每個用戶都選擇出當前流行度最高的Top-K個物品進行推薦,在推薦的時候,需要去除用戶原先就瀏覽過的項目。
算法代碼如下
#MostPop defMostPopular(pop_dict,I,K): ''' pop_dic:流行度字典,存儲了每個item:pop_value的鍵值對。 I:用戶可以選擇的Item空間(需去除已經(jīng)看過的item) K:Top-K值,推薦出K個item給用戶 ''' pop_dict_sort=sorted(pop_dict.items(),key=lambdakv:(kv[1],kv[0]),reverse=True) foreach_iteminpop_dict_sort: ifeach_item[0]notinI: pop_dict_sort.remove(each_item) return[i[0]foriinpop_dict_sort[:K]]
在ML-1M數(shù)據(jù)集上的測試結(jié)果(100個用戶)
Precision:0.05399999999999998
Recall:0.0659683173313864
HR:0.08
NDCG:0.2668352016595219
ARP:25.750500000000002
推薦系統(tǒng)的幾種常用算法總結(jié)
之前也做過一些關(guān)于推薦系統(tǒng)的項目,下面就來系統(tǒng)的總結(jié)一下。
一、什么是推薦系統(tǒng)?
引用百度百科的一段解釋就是:“利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程。個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品?!?/p>
在這個數(shù)據(jù)過載的時代,信息的消費者需要從海量的信息中找到自己所需要的信息,信息的生產(chǎn)者要讓自己生產(chǎn)的信息在海量的信息中脫穎而出,這時推薦系統(tǒng)就應(yīng)運而生了。對用戶而言,推薦系統(tǒng)不需要用戶提供明確的目標;對物品而言,推薦系統(tǒng)解決了2/8現(xiàn)象的問題(也叫長尾效應(yīng)),讓小眾的物品可以展示到需要它們的用戶面前。
二、推薦系統(tǒng)要解決的問題?
1、幫助用戶找到想要的物品如:書籍、電影等
2、可以降低信息過載
3、有利于提高站點的點擊率/轉(zhuǎn)化率
4、有利于對用戶進行深入了解,為用戶提供個性化服務(wù)
三、推薦系統(tǒng)的發(fā)展趨勢?
推薦系統(tǒng)的研究大致可以分為三個階段,第一階段是基于傳統(tǒng)的服務(wù),第二階段是基于目前的社交網(wǎng)絡(luò)的服務(wù),第三階段是即將到來的物聯(lián)網(wǎng)。
這其中產(chǎn)生了很多基礎(chǔ)和重要的算法,例如協(xié)同過濾(包括基于用戶的和基于物品的)、基于內(nèi)容的推薦算法、混合式的推薦算法、基于統(tǒng)計理論的推薦算法、基于社交網(wǎng)絡(luò)信息(關(guān)注、被關(guān)注、信任、知名度、信譽度等)的過濾推薦算法、群體推薦算法、基于位置的推薦算法。
其中基于鄰域的協(xié)同過濾推薦算法是推薦系統(tǒng)中最基礎(chǔ)、最核心、最重要的算法,該算法不僅在學(xué)術(shù)界得到較為深入的研究,而且在業(yè)界也得到非常廣泛的應(yīng)用,基于鄰域的算法主要分為兩大類,一類是基于用戶的協(xié)同過濾算法,另一類是基于物品的協(xié)同過濾算法,除此之外,基于內(nèi)容的推薦算法應(yīng)用也非常廣泛等等,因此下文將對涉及推薦系統(tǒng)的常用算法進行詳細介紹。
1、基于流行度的推薦算法
2、基于協(xié)同過濾的推薦算法(UserCF與ItemCF)
3、基于內(nèi)容的推薦算法
4、基于模型的推薦算法
5、基于混合式的推薦算法
四、基于流行度的推薦算法
基于流行度的算法非常簡單粗暴,類似于各大新聞、微博熱榜等,根據(jù)PV、UV、日均PV或分享率等數(shù)據(jù)來按某種熱度排序來推薦給用戶。
注:獨立訪客(UV)、訪問次數(shù)(VV)兩個指標有什么區(qū)別?
?、僭L問次數(shù)(VV):記錄1天內(nèi)所有訪客訪問了該網(wǎng)站多少次,相同的訪客有可能多次訪問該網(wǎng)站,且訪問的次數(shù)累加。
②獨立訪客(UV):記錄1天內(nèi)所有訪客訪問了該網(wǎng)站多少次,雖然相同訪客能多次訪問網(wǎng)站,但只計算為1個獨立訪客。
?、跴V訪問量(PageView):即頁面訪問量,每打開一次頁面或者刷新一次頁面,PV值+1。
1、優(yōu)點:該算法簡單,適用于剛注冊的新用戶
2、缺點:無法針對用戶提供個性化的推薦
3、改進:基于該算法可做一些優(yōu)化,例如加入用戶分群的流行度進行排序,通過把熱榜上的體育內(nèi)容優(yōu)先推薦給體育迷,把政要熱文推給熱愛談?wù)撜蔚挠脩簟?/p>
五、基于用戶的協(xié)同過濾推薦算法
當目標用戶需要推薦時,可以先通過興趣、愛好或行為習(xí)慣找到與他相似的其他用戶,然后把那些與目標用戶相似的用戶喜歡的并且目標用戶沒有瀏覽過的物品推薦給目標用戶。
1、基于用戶的CF原理如下:
?、俜治龈鱾€用戶對物品的評價,通過瀏覽記錄、購買記錄等得到用戶的隱性評分;
?、诟鶕?jù)用戶對物品的隱性評分計算得到所有用戶之間的相似度;
?、圻x出與目標用戶最相似的K個用戶;
④將這K個用戶隱性評分最高并且目標用戶又沒有瀏覽過的物品推薦給目標用戶。
2、優(yōu)點:
?、倩谟脩舻膮f(xié)同過濾推薦算法是給目標用戶推薦那些和他有共同興趣的用戶喜歡的物品,所以該算法推薦較為社會化,即推薦的物品是與用戶興趣一致的那個群體中的熱門物品;
?、谶m于物品比用戶多、物品時效性較強的情形,否則計算慢;
③能實現(xiàn)跨領(lǐng)域、驚喜度高的結(jié)果。
3、缺點:
?、僭诤芏鄷r候,很多用戶兩兩之間的共同評分僅有幾個,也即用戶之間的重合度并不高,同時僅有的共同打了分的物品,往往是一些很常見的物品,如票房大片、生活必需品;
?、谟脩糁g的距離可能變得很快,這種離線算法難以瞬間更新推薦結(jié)果;
③推薦結(jié)果的個性化較弱、較寬泛。
4、改進:
?、賰蓚€用戶對流行物品的有相似興趣,絲毫不能說明他們有相似的興趣,此時要增加懲罰力度;
?、谌绻麅蓚€用戶同時喜歡了相同的物品,那么可以給這兩個用戶更高的相似度;
?、墼诿枋鲟従佑脩舻钠脮r,給其最近喜歡的物品較高權(quán)重;
?、馨杨愃频赜蛴脩舻男袨樽鳛橥扑]的主要依據(jù)。
六、基于物品的協(xié)同過濾推薦算法
當一個用戶需要個性化推薦時,舉個例子由于我之前購買過許嵩的《夢游計》這張專輯,所以會給我推薦《青年晚報》,因為很多其他用戶都同時購買了許嵩的這兩張專輯。
1、基于物品的CF原理如下:
?、俜治龈鱾€用戶對物品的瀏覽記錄;
?、谝罁?jù)瀏覽記錄分析得出所有物品之間的相似度;
?、蹖τ谀繕擞脩粼u價高的物品,找出與之相似度最高的K個物品;
?、軐⑦@K個物品中目標用戶沒有瀏覽過的物品推薦給目標用戶
2、優(yōu)點:
?、倩谖锲返膮f(xié)同過濾推薦算法則是為目標用戶推薦那些和他之前喜歡的物品類似的物品,所以基于物品的協(xié)同過濾推薦算法的推薦較為個性,因為推薦的物品一般都滿足目標用戶的獨特興趣。
?、谖锲分g的距離可能是根據(jù)成百上千萬的用戶的隱性評分計算得出,往往能在一段時間內(nèi)保持穩(wěn)定。因此,這種算法可以預(yù)先計算距離,其在線部分能更快地生產(chǎn)推薦列表。
③應(yīng)用最廣泛,尤其以電商行業(yè)為典型。
?、苓m于用戶多、物品少的情形,否則計算慢
?、萃扑]精度高,更具個性化
?、迌A向于推薦同類商品
3、缺點:
?、俨煌I(lǐng)域的最熱門物品之間經(jīng)常具有較高的相似度。比如,基于本算法,我們可能會給喜歡聽許嵩歌曲的同學(xué)推薦汪峰的歌曲,也就是推薦不同領(lǐng)域的暢銷作品,這樣的推薦結(jié)果可能并不是我們想要的。
②在物品冷啟動、數(shù)據(jù)稀疏時效果不佳
?、弁扑]的多樣性不足,形成信息閉環(huán)
4、改進:
?、偃绻菬衢T物品,很多人都喜歡,就會接近1,就會造成很多物品都和熱門物品相似,此時要增加懲罰力度;
?、诨钴S用戶對物品相似度的貢獻小于不活躍的用戶;
③同一個用戶在間隔很短的時間內(nèi)喜歡的兩件商品之間,可以給予更高的相似度;
?、茉诿枋瞿繕擞脩羝脮r,給其最近喜歡的商品較高權(quán)重;
⑤同一個用戶在同一個地域內(nèi)喜歡的兩件商品之間,可以給予更高的相似度。
七、基于內(nèi)容的推薦算法
協(xié)同過濾算法僅僅通過了解用戶與物品之間的關(guān)系進行推薦,而根本不會考慮到物品本身的屬性,而基于內(nèi)容的算法會考慮到物品本身的屬性。
根據(jù)用戶之前對物品的歷史行為,如用戶購買過什么物品、對什么物品收藏過、評分過等等,然后再根據(jù)計算與這些物品相似的物品,并把它們推薦給用戶。例如某用戶之前購買過許嵩的《尋寶游戲》,這可以說明該用戶可能是一個嵩鼠,這時就可以給該用戶推薦一些許嵩的其他專輯或著作。
1、基于內(nèi)容的推薦算法的原理如下:
?、龠x取一些具有代表性的特征來表示每個物品
?、谑褂糜脩舻臍v史行為數(shù)據(jù)分析物品的這些特征,從而學(xué)習(xí)出用戶的喜好特征或興趣,也即構(gòu)建用戶畫像
?、弁ㄟ^比較上一步得到的用戶畫像和待推薦物品的畫像(由待推薦物品的特征構(gòu)成),將具有相關(guān)性最大的前K個物品中目標用戶沒有瀏覽過的物品推薦給目標用戶
2、優(yōu)點:
?、偈亲钪庇^的算法
?、诔=柚谋鞠嗨贫扔嬎?/p>
?、酆芎玫亟鉀Q冷啟動問題,并且也不會囿于熱度的限制
3、缺點:
①容易受限于對文本、圖像、音視頻的內(nèi)容進行描述的詳細程度
?、谶^度專業(yè)化(over-specialisation),導(dǎo)致一直推薦給用戶內(nèi)容密切關(guān)聯(lián)的item,而失去了推薦內(nèi)容的多樣性。
?、壑黝}過于集中,驚喜度不足
八、基于模型的推薦算法
基于模型的推薦算法會涉及到一些機器學(xué)習(xí)的方法,如邏輯回歸、樸素貝葉斯分類器等?;谀P偷乃惴ㄓ捎诳焖?、準確,適用于實時性比較高的業(yè)務(wù)如新聞、廣告等,而若是需要這種算法達到更好的效果,則需要人工干預(yù)反復(fù)的進行屬性的組合和篩選,也就是常說的FeatureEngineering。而由于新聞的時效性,系統(tǒng)也需要反復(fù)更新線上的數(shù)學(xué)模型,以適應(yīng)變化。
九、基于混合式的推薦算法
現(xiàn)實應(yīng)用中,其實很少有直接用某種算法來做推薦的系統(tǒng)。在一些大的網(wǎng)站如Netflix,就是融合了數(shù)十種算法的推薦系統(tǒng)。我們可以通過給不同算法的結(jié)果加權(quán)重來綜合結(jié)果,或者是在不同的計算環(huán)節(jié)中運用不同的算法來混合,達到更貼合自己業(yè)務(wù)的目的。
十、推薦結(jié)果列表處理
1、當推薦算法計算得出推薦結(jié)果列表之后,我們往往還需要對結(jié)果進行處理。比如當推薦的內(nèi)容里包含敏感詞匯、涉及用戶隱私的內(nèi)容等等,就需要系統(tǒng)將其篩除;
2、若多次推薦后用戶依然對某個物品毫無興趣,就需要將這個物品降低權(quán)重,調(diào)整排序;
3、有時系統(tǒng)還要考慮話題多樣性的問題,同樣要在不同話題中篩選內(nèi)容。
十一、推薦結(jié)果評估
當一個推薦算法設(shè)計完成后,一般需要用查準率(precision),查全率(recall),點擊率(CTR)、轉(zhuǎn)化率(CVR)、停留時間等指標進行評價。
查準率(precision):推薦給用戶且用戶喜歡的物品在推薦列表中的比重
查全率(recall):推薦給用戶且用戶喜歡的物品在用戶列表中的比重
點擊率(CTR):實際點擊了的物品/推薦列表中所有的物品
轉(zhuǎn)化率(CVR):購買了的物品/實際點擊了的物品
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/127653.html
摘要:上一篇文章指南下一篇文章為在集合上執(zhí)行基本的聚合任務(wù)提供了一些命令。也可以給傳遞一個查詢文檔,會計算查詢結(jié)果的數(shù)量對分頁顯示來說總數(shù)非常必要共個,目前顯示個。使用時必須指定集合和鍵。指定要進行分組的集合。 上一篇文章:MongoDB指南---17、MapReduce下一篇文章: MongoDB為在集合上執(zhí)行基本的聚合任務(wù)提供了一些命令。這些命令在聚合框架出現(xiàn)之前就已經(jīng)存在了,現(xiàn)在(大多...
摘要:上一篇文章指南下一篇文章為在集合上執(zhí)行基本的聚合任務(wù)提供了一些命令。也可以給傳遞一個查詢文檔,會計算查詢結(jié)果的數(shù)量對分頁顯示來說總數(shù)非常必要共個,目前顯示個。使用時必須指定集合和鍵。指定要進行分組的集合。 上一篇文章:MongoDB指南---17、MapReduce下一篇文章: MongoDB為在集合上執(zhí)行基本的聚合任務(wù)提供了一些命令。這些命令在聚合框架出現(xiàn)之前就已經(jīng)存在了,現(xiàn)在(大多...
摘要:其他語言數(shù)據(jù)結(jié)構(gòu)跟算法一樣是在開始寫代碼的時候用得很少,都有著包裝好的現(xiàn)成東西供你使用,但同樣是面試和崗位上升會用得到,我就不說數(shù)據(jù)結(jié)構(gòu)對代碼有多少好處,請記住一句話能夠?qū)崿F(xiàn)個功能和能夠最優(yōu)地實現(xiàn)個功能,是完全不同級別的要求。 ...
摘要:大家好,我是一行今天給大家聊聊一行在讀研里最成功的投資,那必然是鍵盤邊上的每一本技術(shù)書啦畢竟股票基金這種投資即使賺了錢,過段時間就得還回去,非常的神奇但是讀過的每一本技術(shù)書籍,都內(nèi)化在手指上了,只要給個鍵盤,就能給它實 ...
閱讀 928·2023-01-14 11:38
閱讀 902·2023-01-14 11:04
閱讀 759·2023-01-14 10:48
閱讀 2065·2023-01-14 10:34
閱讀 968·2023-01-14 10:24
閱讀 844·2023-01-14 10:18
閱讀 512·2023-01-14 10:09
閱讀 591·2023-01-14 10:02