成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí),快速掌握聚類算法和關(guān)聯(lián)分析

Anchorer / 3438人閱讀

摘要:摘要前文數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)入門實(shí)戰(zhàn)與大家分享了分類算法,在本文中將為大家介紹聚類算法和關(guān)聯(lián)分析問題。比如,聚類算法可以實(shí)現(xiàn)公司客戶價(jià)值自動(dòng)劃分,網(wǎng)頁自動(dòng)歸類等。

摘要:前文數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)入門實(shí)戰(zhàn)與大家分享了分類算法,在本文中將為大家介紹聚類算法和關(guān)聯(lián)分析問題。分類算法與聚類到底有何區(qū)別?聚類方法應(yīng)在怎樣的場(chǎng)景下使用?如何使用關(guān)聯(lián)分析算法解決個(gè)性化推薦問題?本文就為大家揭曉答案。

本次直播視頻精彩回顧,戳這里!

演講嘉賓簡(jiǎn)介:
韋瑋,企業(yè)家,資深I(lǐng)T領(lǐng)域?qū)<?講師/作家,暢銷書《精通Python網(wǎng)絡(luò)爬蟲》作者,阿里云社區(qū)技術(shù)專家。

以下內(nèi)容根據(jù)演講嘉賓視頻分享以及PPT整理而成。

本文將圍繞一下幾個(gè)方面進(jìn)行介紹:

聚類問題應(yīng)用場(chǎng)景介紹

K-Means算法介紹與實(shí)現(xiàn)

使用K-Means算法對(duì)公司客戶價(jià)值進(jìn)行自動(dòng)劃分案例實(shí)戰(zhàn)

關(guān)聯(lián)分析問題應(yīng)用場(chǎng)景介紹

Apriori算法介紹

FP-Growth算法介紹

使用關(guān)聯(lián)分析算法解決個(gè)性化推薦問題

作業(yè)練習(xí):使用關(guān)聯(lián)分析算法解決超市商品貨品擺放調(diào)整問題

一. 聚類問題應(yīng)用場(chǎng)景介紹

聚類問題主要用于解決沒有明確分類映射關(guān)系的物品歸類問題,即無監(jiān)督學(xué)習(xí)。分類算法必須需要訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)包含物品的特征和類別(label, 也可以被稱作標(biāo)簽),這相當(dāng)于對(duì)這些數(shù)據(jù)建立了映射規(guī)則,這種映射規(guī)則可以通過機(jī)器學(xué)習(xí)相應(yīng)的算法來建立,當(dāng)需要對(duì)新的數(shù)據(jù)進(jìn)行分類時(shí),就可以直接調(diào)用模型,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的處理來實(shí)現(xiàn)分類。那么當(dāng)沒有歷史數(shù)據(jù)的時(shí)候要對(duì)現(xiàn)存的物品進(jìn)行歸類,就需要使用聚類算法解決。比如,聚類算法可以實(shí)現(xiàn)公司客戶價(jià)值自動(dòng)劃分,網(wǎng)頁自動(dòng)歸類等。

二. K-Means算法介紹與實(shí)現(xiàn)

K-Means算法是一種經(jīng)典的聚類算法,也稱作K均值聚類算法,先為大家介紹K-Means算法的原理。
假設(shè)建立一個(gè)坐標(biāo)系,這個(gè)坐標(biāo)系的橫坐標(biāo)是價(jià)格,縱坐標(biāo)是評(píng)論。然后根據(jù)每個(gè)物品的這兩項(xiàng)特征將物品放置在該坐標(biāo)系中,那么如何將這些物品劃分為k類,此處k為自定義。例如,可以定義k為2,即將所有物品劃分為兩類。首先,隨機(jī)選擇兩類的中心點(diǎn)AB,這兩個(gè)點(diǎn)稱為聚類中心。初始的聚類中心是隨機(jī)選擇,很大概率上并不是真正的類中心,因此這兩點(diǎn)會(huì)在后續(xù)的聚類過程中不斷調(diào)整,直至趨于真正的聚類中心。其次,分別計(jì)算各個(gè)物品距兩個(gè)聚類中心AB的距離,將其劃分至距離較近的聚類中心點(diǎn)一類。例如,點(diǎn)1距A的距離小于點(diǎn)1距B的距離,因此將點(diǎn)1劃分至A類。如此,初步將所有點(diǎn)劃分為兩類,接著需要對(duì)每類的聚類中心進(jìn)行調(diào)整。這個(gè)階段,需要對(duì)每一類計(jì)算重心位置,將這類的聚類中心移動(dòng)到該重心位置,得到兩類的新聚類中心A’ B’。然后再一次計(jì)算各個(gè)物品距兩個(gè)新的聚類中心A’ B’的距離,進(jìn)行距離比較,得到新的聚類結(jié)果。按照這樣的方法不斷迭代,不斷的向正確結(jié)果靠攏,最終聚類過程會(huì)收斂,得到的聚類中心不再變化,便已經(jīng)得到最終的聚類結(jié)果,也就是將物品分成了兩類。
按照上述過程,K-Means的步驟大致如下:1. 初始化聚類中心(隨機(jī)選擇);2. 計(jì)算樣本點(diǎn)到各聚類中心的距離;3. 將樣本點(diǎn)歸為距離較近的聚類中心一類;4. 移動(dòng)聚類中心到類別的重心位置,調(diào)整聚類中心; 5. 重復(fù)234步驟,直到聚類中心不再改變。

那么K-Means算法如何實(shí)現(xiàn)?在Python中實(shí)現(xiàn)K-Means算法其實(shí)是相對(duì)容易的,首先需要導(dǎo)入K-Means模型,導(dǎo)入模型后可以設(shè)置聚類的個(gè)數(shù),然后直接使用fit_predict來實(shí)現(xiàn)聚類過程,具體代碼如下:

from sklearn.cluster import KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)

接下來就使用K-Means算法來解決公司客戶價(jià)值自動(dòng)劃分的問題。

三. 使用K-Means算法對(duì)公司客戶價(jià)值進(jìn)行自動(dòng)劃分案例實(shí)戰(zhàn)

開始聚類時(shí),公司的客戶只是具有某些特征,沒有具體的分類標(biāo)準(zhǔn)。那么可以直接根據(jù)特征進(jìn)行聚類,得出聚類結(jié)果后再分析研究這些類別的真實(shí)含義。
假設(shè)初始時(shí)存在部分客戶的數(shù)據(jù)如下,包含客戶年齡,平均每次消費(fèi)金額,平均消費(fèi)周期等數(shù)據(jù)。

現(xiàn)需要對(duì)上述客戶進(jìn)行聚類,以幫助公司快速區(qū)別出普通客戶,VIP客戶和超級(jí)VIP客戶。在有其他歷史數(shù)據(jù)的情況下,可以將這些用戶的特征和客戶類型建立起映射關(guān)系,通過機(jī)器學(xué)習(xí)訓(xùn)練便可以得到未知的客戶類型。但在沒有歷史數(shù)據(jù)的情況下,這就是典型的聚類問題。具體代碼如下:

#通過聚類分析客戶價(jià)值
import pandas as pda
import numpy as npy
import matplotlib.pylab as pyl
fname="D:我的教學(xué)Python阿里云系列直播第4次直播代碼company.csv"
dataf=pda.read_csv(fname,encoding="gbk")
x=dataf.as_matrix()
from sklearn.cluster import KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
#年齡-消費(fèi)金額圖,消費(fèi)時(shí)間-消費(fèi)金額圖,年齡-消費(fèi)時(shí)間圖
for i in range(0,len(y)):
    if(y[i]==0):
        print(str(i)+"大眾客戶")
        pyl.subplot(2,3,1)
        #年齡-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")
        pyl.subplot(2,3,2)
        #消費(fèi)時(shí)間-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")
        pyl.subplot(2,3,3)
        #年齡-消費(fèi)時(shí)間圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"*r")
    elif(y[i]==1):
        print(str(i)+"超級(jí)VIP客戶")
        pyl.subplot(2,3,1)
        #年齡-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")
        pyl.subplot(2,3,2)
        #消費(fèi)時(shí)間-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")
        pyl.subplot(2,3,3)
        #年齡-消費(fèi)時(shí)間圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"sy")
    elif(y[i]==2):
        print(str(i)+"VIP客戶")
        pyl.subplot(2,3,1)
        #年齡-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"pb")
        pyl.subplot(2,3,2)
        #消費(fèi)時(shí)間-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"pb")
        pyl.subplot(2,3,3)
        #年齡-消費(fèi)時(shí)間圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"pb")
pyl.show()

首先加載客戶數(shù)據(jù)文件 company.csv,從中讀取客戶數(shù)據(jù),然后導(dǎo)入K-Means模型,這里設(shè)置聚類成3類,然后將聚類結(jié)果通過圖像來分析,但當(dāng)聚類有多個(gè)特征值時(shí),繪圖分析會(huì)有一定的難度。例如在本例中有3個(gè)特征值,在作圖時(shí)就需要將特征值兩兩組合,對(duì)年齡-消費(fèi)金額圖、消費(fèi)周期-消費(fèi)金額圖、年齡-消費(fèi)周期分別進(jìn)行分析。在作圖之前,可以將毫無關(guān)聯(lián)的特征值組合刪除,例如這里可以將年齡-消費(fèi)周期圖剔除。若無法判斷,也可以全部繪制再根據(jù)圖像分析。在繪圖時(shí),將預(yù)測(cè)出的類別作為客戶分類標(biāo)準(zhǔn),例如如果某兩個(gè)客戶被分到標(biāo)簽為0這一類,此時(shí)并不了解預(yù)測(cè)出的標(biāo)簽0類有何實(shí)際意義,但可以認(rèn)為這兩個(gè)客戶是一類。接下來在每個(gè)類別中分別繪制上述三種圖像,這里將同一類別中的圖像采用一種顏色以作區(qū)分。做出圖像結(jié)果如下:

得出圖像后,因?yàn)榉植茧s亂的圖像表明這兩個(gè)特征值之間是沒有實(shí)際關(guān)聯(lián)的,可以將其篩去,留下層次分明的圖像分析。觀察圖像可以發(fā)現(xiàn)年齡-消費(fèi)周期圖非常雜亂,和上述猜想相同,可以刪去。而年齡-消費(fèi)金額圖中,藍(lán)色點(diǎn)客戶顯示年齡相對(duì)較小,消費(fèi)金額也較少,偏向于普通用戶,紅色點(diǎn)客戶年齡不定,但消費(fèi)金額普遍較高,偏向于VIP客戶,而綠色點(diǎn)客戶年齡較大,消費(fèi)非常高,屬于超級(jí)VIP客戶。如果圖一中的類別分析可靠,那么可以將這些類別應(yīng)用于圖二中繼續(xù)驗(yàn)證。在圖二消費(fèi)周期-消費(fèi)金額圖中,藍(lán)色點(diǎn)客戶消費(fèi)周期不定,消費(fèi)金額不高,符合普通客戶的特征,紅色點(diǎn)客戶消費(fèi)周期偏短,消費(fèi)金額中等,屬于VIP客戶,而綠色點(diǎn)客戶消費(fèi)周期短,消費(fèi)金額高,符合超級(jí)VIP客戶的特征。分析得出用戶類別后,便可以對(duì)所有公司客戶進(jìn)行自動(dòng)劃分,基于劃分的結(jié)果,可以為超級(jí)VIP客戶提供一些福利,如生日祝福等,加強(qiáng)營(yíng)銷的粘性。

四. 關(guān)聯(lián)分析問題應(yīng)用場(chǎng)景介紹

關(guān)聯(lián)分析是一種用于分析物體之間關(guān)聯(lián)程度的一種方式,關(guān)聯(lián)分析常見的應(yīng)用場(chǎng)景有:分析物品之間的關(guān)聯(lián)程度、個(gè)性化推薦、超市貨品擺放調(diào)整等。例如在超市貨品擺放時(shí),可以根據(jù)用戶購(gòu)買商品時(shí)的記錄,計(jì)算商品之間的關(guān)聯(lián)程度,將關(guān)聯(lián)程度高的商品擺放在一起。接下來為大家介紹兩種關(guān)聯(lián)分析算法。

五. Apriori算法介紹

Apriori算法是一種基礎(chǔ)的關(guān)聯(lián)分析算法,但效率較低,不建議用于商業(yè)場(chǎng)景。Apriori算法的原理如下:

假設(shè)如今有一批商品的購(gòu)買記錄,ABCDE分別代表不同的商品,每一行代表某一用戶的商品購(gòu)買記錄。首先對(duì)各商品進(jìn)行依次掃描,例如商品A在所有4條商品記錄中出現(xiàn)3次,那么商品A的支持度即為3/4,計(jì)算出的支持度表明了該產(chǎn)品在所有購(gòu)買記錄中出現(xiàn)的概率大小,顯然概率越大,支持度越高。同理,計(jì)算出BCDE的支持度分別為3/4、3/4、3/4、1/4。接下來需要設(shè)置閾值來篩選出關(guān)聯(lián)度較高的商品數(shù)據(jù),這里假設(shè)取1/2,那么就先將E篩除,留下商品ABCD,此時(shí)便產(chǎn)生頻繁一項(xiàng)集{{A},{B},{C},{D}}。然后將頻繁一項(xiàng)集中的集合兩兩組合,得到候選項(xiàng)集{{AB},{AC},{AD},{BC},{BD},{CD}},計(jì)算每個(gè)項(xiàng)集的支持度。例如項(xiàng)集AB在所有4條商品記錄中出現(xiàn)2次,那么AB的支持度即為2/4。同理得出AC,AD,BC,BD,CD的支持度分別為3/4,2/4,2/4,2/4,3/4,2/4。在閾值為1/2的情況下只留下AC和BD。如此便可以繼續(xù)生成候選集ABCD,支持度為2/4,可以篩去。得到AC和BD的關(guān)聯(lián)程度最高,這意味著,如果某一客戶購(gòu)買了商品A,那么給該客戶推薦商品C成功率更大,類似的,如果客戶購(gòu)買了商品B,那么商品D可能也更受該用戶青睞。
Apriori算法為什么效率較低呢?從上述過程可以看到每一次計(jì)算候選集的支持度時(shí)都需要返回至歷史記錄中進(jìn)行掃描,因此處理復(fù)雜,耗時(shí)嚴(yán)重。

六. FP-Growth算法介紹

相比Apriori算法,F(xiàn)P-Growth算法是一種效率比較高的關(guān)聯(lián)分析算法,更適用于商業(yè)應(yīng)用。下面為大家介紹FP-Growth算法的原理。
假設(shè)仍然取上述例子,ABCDE分別代表不同的商品,現(xiàn)在有如圖所示的產(chǎn)品購(gòu)買歷史記錄,每一行代表某一用戶的商品購(gòu)買記錄,現(xiàn)在來分析各商品間的關(guān)聯(lián)關(guān)系。

首先仍然需要進(jìn)行第一次掃描,得到商品ABCDE出現(xiàn)的次數(shù),也就是支持度,分別為5,3,5,7,2。然后篩除支持度較小的商品,這里篩除商品E。接下來按次數(shù)大小進(jìn)行排序創(chuàng)建項(xiàng)頭表(此處項(xiàng)頭表中的順序也可以為DCAB),為創(chuàng)建FP樹做準(zhǔn)備。在FP樹中,公用元素要盡量多,以加快后續(xù)查找時(shí)的檢索速度。FP樹的根節(jié)點(diǎn)可以設(shè)置為null,將項(xiàng)頭表中的數(shù)據(jù)按照順序添加至FP樹中。

接下來只需要再遍歷一次購(gòu)買記錄,將所有記錄插入到初始的FP樹中即可。但在插入之前,需要將每一條記錄按照項(xiàng)頭表中的大小順序進(jìn)行重排。例如第一條記錄ABCD,改為DACB或者DCAB(根據(jù)初始的項(xiàng)頭表而定),第四條記錄BCD,改為DCB。歷史記錄排序完成后,將每一條記錄從根節(jié)點(diǎn)開始插入至樹中。例如,第一條記錄DACB,與初始FP樹公用,因此不用插入。第二條記錄AC,同樣從根節(jié)點(diǎn)開始,第一個(gè)節(jié)點(diǎn)和初始根節(jié)點(diǎn)不共用,因此建立新的節(jié)點(diǎn),插入記錄AC,且出現(xiàn)次數(shù)都為1。第三條記錄DCB,第一個(gè)節(jié)點(diǎn)D是可以公用的,后續(xù)節(jié)點(diǎn)CB不共用,因此在節(jié)點(diǎn)D下建立新節(jié)點(diǎn)CB,此時(shí)CB的次數(shù)也都為1。第七條記錄DC插入時(shí),已經(jīng)有公用的節(jié)點(diǎn)了,就直接將除初始節(jié)點(diǎn)之外的其他節(jié)點(diǎn)支持度加1即可,這里D的支持度不變,C的支持度從1變成2。那么這里只需要進(jìn)行一次掃描,就可以將所有歷史記錄插入到建立的FP樹中。FP樹建立完成后便可以進(jìn)行頻繁項(xiàng)集的挖掘。

在頻繁項(xiàng)集挖掘時(shí),要按照項(xiàng)頭表中支持度從小到大的順序進(jìn)行,如此越向后挖掘,公用節(jié)點(diǎn)越多。因此首先對(duì)B點(diǎn)進(jìn)行挖掘,找出所有以B節(jié)點(diǎn)結(jié)尾的分支,將這些分支組成的樹取出,找出其中的父節(jié)點(diǎn)D,A,C,刪除支持度較小的C,得到B的條件模式基D:3和A:2。將B與條件模式基中的節(jié)點(diǎn)進(jìn)行組合,得到頻繁項(xiàng)集{DB},{AB},{DAB},取每個(gè)項(xiàng)集中支持度較小的條件模式基支持度作為該項(xiàng)集的支持度,如DB的支持度取D的支持度3,AB的支持度取A的支持度2,,DAB的支持度取A的支持度2。

同理,對(duì)C進(jìn)行挖掘,取出含節(jié)點(diǎn)C的部分樹,得到C的條件模式基為D:4和A:2。以及頻繁項(xiàng)集為{DC}4,{AC}2,{DAC}2。

以及對(duì)A進(jìn)行挖掘得到的條件模式基為D:4,頻繁項(xiàng)集為{DA}4。支持度最高的D點(diǎn)不需要進(jìn)行挖掘。
最后將所有頻繁項(xiàng)集合并,得到最終各點(diǎn)的頻繁項(xiàng)集{DC}4, {DA}4, {DB}3, {AC}2, {DAC}2, {AB}2, {DAB}2。如此便可判斷出D與C和A的關(guān)聯(lián)度最高,和B關(guān)聯(lián)度也較高。若用戶購(gòu)買了商品D,可以向其推薦商品C和A,或者商品B。
在FP-Growth算法中,只需要進(jìn)行兩次掃描便可完成關(guān)聯(lián)度分析,所以相比Apriori算法性能更佳。

七. 使用關(guān)聯(lián)分析算法解決個(gè)性化推薦問題

先用Apriori算法來解決一個(gè)課程的個(gè)性化推薦問題。假設(shè)現(xiàn)在有如下所示相關(guān)數(shù)據(jù),每一行代表每一位客戶購(gòu)買的書籍信息,需要分析出課程之間的關(guān)聯(lián)性,將關(guān)聯(lián)度較高的課程推薦給相關(guān)的用戶使購(gòu)買轉(zhuǎn)化率最高。

首先使用Apriori算法來解決這個(gè)推薦問題。在實(shí)現(xiàn)過程中,值得注意的是需要將輸入數(shù)據(jù)進(jìn)行轉(zhuǎn)化,將課程記錄轉(zhuǎn)化為矩陣形式,如下圖所示,具體應(yīng)用代碼如下:

from apriori import *
import pandas as pda
filename="D:/Python35/data/lesson_buy.xls"
dframe=pda.read_excel(filename,header=None)
change=lambda x:pda.Series(1,index=x[pda.notnull(x)])
mapok=map(change,dframe.as_matrix())
data=pda.DataFrame(list(mapok)).fillna(0)
#設(shè)置置信度閾值和支持度閾值
surpport=0.2
cfd=0.3
print(find_rule(data,surpport,cfd))

得到關(guān)聯(lián)結(jié)果如下,其中support為支持度,confidence為置信度。在本例中,若客戶購(gòu)買機(jī)器學(xué)習(xí),那么便有較大的概率會(huì)購(gòu)買Python爬蟲,這具有一定的實(shí)際意義。Apriori算法的實(shí)現(xiàn)代碼在網(wǎng)上有開源資源,若有需要可自行閱讀。

現(xiàn)在使用FP-Growth算法解決超市貨品的推薦問題。假設(shè)現(xiàn)在有如下所示相關(guān)二維列表數(shù)據(jù),分析這些商品間的關(guān)聯(lián)度。
具體實(shí)現(xiàn)代碼來源于github,此處也附上:

import FP_Grow_tree
sample=[
    ["milk","eggs","bread","chips"],
    ["eggs","popcorn","chips","beer"],
    ["eggs","bread","chips"],
    ["milk","eggs","bread","popcorn","chips","beer"],
    ["milk","bread","beer"],
    ["eggs","bread","beer"],
    ["milk","bread","chips"],
    ["milk","eggs","bread","butter","chips"],
    ["milk","eggs","butter","chips"]
]
sample1=[
    [u"牛奶",u"雞蛋",u"面包",u"薯片"],
    [u"雞蛋",u"爆米花",u"薯片",u"啤酒"],
    [u"雞蛋",u"面包",u"薯片"],
    [u"牛奶",u"雞蛋",u"面包",u"爆米花",u"薯片",u"啤酒"],
    [u"牛奶",u"面包",u"啤酒"],
    [u"雞蛋",u"面包",u"啤酒"],
    [u"牛奶",u"面包",u"薯片"],
    [u"牛奶",u"雞蛋",u"面包",u"黃油",u"薯片"],
    [u"牛奶",u"雞蛋",u"黃油",u"薯片"]
]
#print(sample1)
##參數(shù)說明 sample為事務(wù)數(shù)據(jù)集 []為遞歸過程中的基,support為最小支持度
support=3
ff=FP_Grow_tree.FP_Grow_tree(sample1,[],support)
##打印頻繁集
ff.printfrequent()

關(guān)聯(lián)結(jié)果如下所示。類似的,這種關(guān)聯(lián)度分析可以使用于超市商品的貨架擺放等問題,增加用戶的購(gòu)買轉(zhuǎn)化率。

八. 作業(yè)練習(xí):使用關(guān)聯(lián)分析算法解決超市商品貨品擺放調(diào)整問題
假如有一個(gè)超市的商品購(gòu)買記錄數(shù)據(jù)集,需要分析各商品之間的關(guān)聯(lián)程度以調(diào)整貨品擺放。數(shù)據(jù)集格式如下所示,ListNoPosIDCashierID為不同用戶的購(gòu)買記錄ID,各商品下F表示未購(gòu)買,T表示購(gòu)買。請(qǐng)分別使用Apriori算法和FP-Growth算法實(shí)現(xiàn)關(guān)聯(lián)分析,并比較兩種算法的耗時(shí)。這里也提供一份一位同學(xué)所寫的優(yōu)秀作業(yè)代碼供大家參考,具體數(shù)據(jù)集和參考代碼點(diǎn)擊閱讀原文下載。

詳情請(qǐng)閱讀原文

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41647.html

相關(guān)文章

  • ApacheCN 人工智能知識(shí)樹 v1.0

    摘要:貢獻(xiàn)者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長(zhǎng)時(shí)間,如果你一本書一本書看的話,的確要用很長(zhǎng)時(shí)間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識(shí)點(diǎn)合并,手動(dòng)整理了這個(gè)知識(shí)樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...

    劉厚水 評(píng)論0 收藏0
  • Python數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)技術(shù)入門實(shí)戰(zhàn)

    摘要:在本次課程中,著重講解的是傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)及各種算法?;貧w對(duì)連續(xù)型數(shù)據(jù)進(jìn)行預(yù)測(cè)趨勢(shì)預(yù)測(cè)等除了分類之外,數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)技術(shù)還有一個(gè)非常經(jīng)典的場(chǎng)景回歸。 摘要: 什么是數(shù)據(jù)挖掘?什么是機(jī)器學(xué)習(xí)?又如何進(jìn)行Python數(shù)據(jù)預(yù)處理?本文將帶領(lǐng)大家一同了解數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),通過淘寶商品案例進(jìn)行數(shù)據(jù)預(yù)處理實(shí)戰(zhàn),通過鳶尾花案例介紹各種分類算法。 課程主講簡(jiǎn)介:韋瑋,企業(yè)家,資深I(lǐng)T領(lǐng)...

    ephererid 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

Anchorer

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<