用python寫一個簡單的推薦系統(tǒng)

William_Sang 發(fā)布于2019-07-25 10:26 / 3243人閱讀

摘要：前言在上篇文章豆瓣電影，電視劇實戰(zhàn)中提及到，我和室友們產(chǎn)生了劇荒，萌生出要做一個個人用的推薦系統(tǒng)，解決劇荒的問題的想法，經(jīng)過一輪的死纏爛打，這個個人推薦系統(tǒng)終于成型了。

前言

在上篇文章豆瓣電影，電視劇DM實戰(zhàn)中提及到，我和室友們產(chǎn)生了劇荒，萌生出要做一個個人用的推薦系統(tǒng)，解決劇荒的問題的想法，經(jīng)過一輪的死纏爛打，這個個人推薦系統(tǒng)終于成型了。

今天來分享一下心得，對此感興趣的朋友可以自己對著寫一個。

傳統(tǒng)推薦系統(tǒng)算法

首先介紹一下傳統(tǒng)的推薦系統(tǒng)方法，之所以叫它傳統(tǒng)，是因為大部分學習資料上都是用這一個方法。

我們來假設(shè)有這么一個矩陣(用python的列表表示):

  [# A B C D E
    [2,0,0,4,4], #1
    [5,5,5,3,3], #2
    [2,4,2,1,2]  #3
    ......
  ]

矩陣的行代表用戶，列表示物品，其交點表示用戶對該物品的評分。

假設(shè)現(xiàn)在用戶1需要選商品，推薦系統(tǒng)則假設(shè)其會選擇并未選擇過的商品，因此，系統(tǒng)會在第一行中尋找評分為0的物品，顯然會找到B和C。這時，該怎么知道是推薦B還是C呢？(假設(shè)用戶只需推薦一個),這時則需要計算B、C和用戶以前選擇過的物品(已評分)的相似度。

僅僅算出相似度還不夠，因為你不能判斷這到底是好的那一部分相似還是壞的部分相似。所以這時，我們需要引入用戶的評分作為相似度計算的權(quán)重，評分X相似度得到最后的得分（該得分會一直累加，則B的推薦得分會是B與A，D，E的相似得分的累加和）。這樣一來，評分低物品的最后得分自然就低，評分高的物品自然得分就高，這時問題就簡化成排序問題了。

顯然，上述問題的核心在于如何計算相似度。

這里給出計算相似度的兩種方法：

歐式距離法
以B和A的相似度為例：
similar = 1/sqrt((0-2)^2 + (5-5)^2 + (4-2)^2 ……) 最后B與A的相似得分還得乘上評分，score = similar * 2

余弦相似度
$$costheta=frac{A cdot B}{||A||||B||}$$
AB為兩列向量，||A||表示A的2范數(shù)
特別注意一點的是，cos的取值是-1~1,我們需要將其歸一化，即把范圍弄成在0~1上。于是相似度計算公司變成0.5 + 0.5*cos

少用戶推薦系統(tǒng)的創(chuàng)新

在上述的內(nèi)容中，我們可以發(fā)現(xiàn)傳統(tǒng)的方法有一個特出的問題，傳統(tǒng)的算法需要大量的用戶評分，即矩陣的行數(shù)需要較多才能得出的結(jié)果才值得參考。這一個需求咋看起來是沒什么問題，也符合我們的邏輯，唯有數(shù)據(jù)量足夠，我們才能找到較為準確的規(guī)律嘛。

但回到我的需求上來說，這可是一個明顯的缺點，在前言我說明的需求上說過這是一個給宿舍甚至是個人使用的推薦系統(tǒng)。

也就是說:

我們無法提供大量數(shù)據(jù)。

我們很懶，我們最可能是告訴系統(tǒng)我從它的推薦中采納了哪一部的電影，而不會去評分，我們可能告訴它質(zhì)量是否可以接受，但不會像豆瓣用戶那樣給出0~10的準確分數(shù)。

因此，傳統(tǒng)的推薦算法有很多不適合我需求的地方，但是看問題要看本質(zhì)。無非就是根據(jù)用戶的特性，或者根據(jù)商品特性，進行與訓練好的模型進行相似性比較。抓住這些特點，我做了少少的"創(chuàng)新"

不基于用戶的評分作相似度，而是用商品的label做標準
現(xiàn)在很多商品尤其是音樂或者電影，都會具有自己的label，比如說喜劇，懸疑，其次還有主演，導演等可以作為其特征。電商平臺上也有諸如商品種類衣服,女鞋，包包,等，而某些物品，例如衣服，那么衣服的品牌，size，都可以作為用戶的一個選擇的特征。

用戶模型是動態(tài)更新的
這一點不難理解，如果一個用戶長期使用使用該系統(tǒng)，那么他的選擇中很可能已經(jīng)覆蓋了大量的label，這時基于label的推薦系統(tǒng)則很難區(qū)分該用戶的喜好。這時我們有兩個解決方法。第一個是允許用戶自定義label，比如SF就可以自定義問題或文章的標簽，這樣增大了label的多樣性。當然，這個解決方案只能算一個緩解的方案，要想徹底解決，我覺得需要給特征選定有效期。
增加有效期后，用戶的選擇可以反應出一個時間段內(nèi)的需求。假設(shè)這樣一個場景，一名用戶準備去旅游了，他可能會大量瀏覽旅游用品的出售頁面，例如一次性牙膏等，這時，就可以向該用戶推薦出售旅行用品的網(wǎng)站了。而超過了特征的有效期，例如一周，這時用戶已經(jīng)旅游回來，因為特征已經(jīng)無效，推薦系統(tǒng)不再推薦旅游用品（這樣用戶不會覺得莫名其妙。個人經(jīng)歷，現(xiàn)在某些網(wǎng)站就往往會出現(xiàn)明顯已經(jīng)超過我感興趣時限的推薦），而是開始重新收集用戶新一周瀏覽的特征，動態(tài)構(gòu)建用戶模型，推薦用戶下一階段他可能需要的物品

實現(xiàn)上述想法，在python中，我們可以這么做,實現(xiàn)如下字典

record = {
    "labelName":(weight,time),
    "labelName2":(weight,time)
    ……
}

#labelName是標簽名稱，在該標簽下有一個元組，元組的第一個字段是這個標簽的權(quán)重。
#權(quán)重越大，表示用戶越喜歡這個標簽。
#第二個字段是創(chuàng)建該標簽的起始時間

在實現(xiàn)推薦時，則較為容易實現(xiàn)，給定testList。這時需要:

創(chuàng)建名res的空字典

遍歷testList，每一個對象命名為t

遍歷t具有的label，根據(jù)label從record上獲取信息。

同時獲取當前時間time2，如果time2-time超出了規(guī)定時限，則該標簽的信息無效，忽略該label，同時刪除record里面的對應的字段。

若該標簽有效，則t的得分加1，并將t的下標index作為key假如到一個res中

遍歷完成后，對res字典按value排序

最后，可以根據(jù)需要對排序結(jié)果進行訪問。比如只獲取最高的前5名。

這樣，一個適合少用戶的推薦系統(tǒng)就弄出來啦~

現(xiàn)在正在宿舍投入運行，至于效果如何可能要一段時間才知道了

后話

github 地址

說明一下，github上只是提供了一個實現(xiàn)了上述改進后思路的類recommend.py，并不是一個成型的推薦系統(tǒng)，你可以下載后，根據(jù)這個類進行二次開發(fā)，比如:

利用flask框架包裝成一個web應用

結(jié)合該類并利用SMTP協(xié)議，弄一個自動往郵箱發(fā)信息的腳本，推薦的電影信息

將類實例化，弄出簡單的命令行應用

遲下我會上傳一個使用falsk封裝的一個簡單的webserver去github,可以通過web API請求，返回json格式的電影信息。

如有錯誤，望指正。

GPU云服務器云服務器用c語言寫的管理系統(tǒng) 用c語言寫簡單計算器用html寫一個秒表用php寫一個日志

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/37958.html

發(fā)表評論

登陸后可評論

0條評論

William_Sang

男|高級講師

我要關(guān)注我要私信

TA的文章

openpose

閱讀 3124·2023-04-25 15:44
再次認識 vertical-align

閱讀 1890·2019-08-30 13:11
自定義占位文本(placeholder)的樣式

閱讀 2855·2019-08-30 11:11
小程序rich-text對富文本支持方案

閱讀 3076·2019-08-29 17:21
360前端星學習筆記-深入css(2)

閱讀 1323·2019-08-29 15:38
【譯】怎樣創(chuàng)建定制表單組件

閱讀 966·2019-08-29 12:49
「CSS3 」3D效果 & 透視

閱讀 1812·2019-08-28 18:19
重讀《學習JavaScript數(shù)據(jù)結(jié)構(gòu)與算法-第三版》- 第3章數(shù)組（二）

閱讀 3237·2019-08-26 14:01

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

用python寫一個簡單的推薦系統(tǒng)

相關(guān)文章

Python - 收藏集 - 掘金

**假裝Python高手，把類這樣改，真刺激！**

Python

python中#!/usr/bin/python與#!/usr/bin/env python的區(qū)別

發(fā)表評論

0條評論

William_Sang

男|高級講師

TA的文章

openpose

再次認識 vertical-align

自定義占位文本(placeholder)的樣式

小程序rich-text對富文本支持方案

360前端星學習筆記-深入css(2)

【譯】怎樣創(chuàng)建定制表單組件

「CSS3 」3D效果 & 透視

重讀《學習JavaScript數(shù)據(jù)結(jié)構(gòu)與算法-第三版》- 第3章數(shù)組（二）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

用python寫一個簡單的推薦系統(tǒng)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！