Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)，快速掌握聚類算法和關(guān)聯(lián)分析

Anchorer 發(fā)布于2019-07-30 16:22 / 3438人閱讀

摘要：摘要前文數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)入門實(shí)戰(zhàn)與大家分享了分類算法，在本文中將為大家介紹聚類算法和關(guān)聯(lián)分析問題。比如，聚類算法可以實(shí)現(xiàn)公司客戶價(jià)值自動(dòng)劃分，網(wǎng)頁自動(dòng)歸類等。

摘要：前文數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)入門實(shí)戰(zhàn)與大家分享了分類算法，在本文中將為大家介紹聚類算法和關(guān)聯(lián)分析問題。分類算法與聚類到底有何區(qū)別？聚類方法應(yīng)在怎樣的場(chǎng)景下使用？如何使用關(guān)聯(lián)分析算法解決個(gè)性化推薦問題？本文就為大家揭曉答案。

本次直播視頻精彩回顧，戳這里！

演講嘉賓簡(jiǎn)介：
韋瑋，企業(yè)家，資深I(lǐng)T領(lǐng)域?qū)＜?講師/作家，暢銷書《精通Python網(wǎng)絡(luò)爬蟲》作者，阿里云社區(qū)技術(shù)專家。

以下內(nèi)容根據(jù)演講嘉賓視頻分享以及PPT整理而成。

本文將圍繞一下幾個(gè)方面進(jìn)行介紹：

聚類問題應(yīng)用場(chǎng)景介紹

K-Means算法介紹與實(shí)現(xiàn)

使用K-Means算法對(duì)公司客戶價(jià)值進(jìn)行自動(dòng)劃分案例實(shí)戰(zhàn)

關(guān)聯(lián)分析問題應(yīng)用場(chǎng)景介紹

Apriori算法介紹

FP-Growth算法介紹

使用關(guān)聯(lián)分析算法解決個(gè)性化推薦問題

作業(yè)練習(xí)：使用關(guān)聯(lián)分析算法解決超市商品貨品擺放調(diào)整問題

一．聚類問題應(yīng)用場(chǎng)景介紹

聚類問題主要用于解決沒有明確分類映射關(guān)系的物品歸類問題，即無監(jiān)督學(xué)習(xí)。分類算法必須需要訓(xùn)練數(shù)據(jù)，訓(xùn)練數(shù)據(jù)包含物品的特征和類別（label, 也可以被稱作標(biāo)簽），這相當(dāng)于對(duì)這些數(shù)據(jù)建立了映射規(guī)則，這種映射規(guī)則可以通過機(jī)器學(xué)習(xí)相應(yīng)的算法來建立，當(dāng)需要對(duì)新的數(shù)據(jù)進(jìn)行分類時(shí)，就可以直接調(diào)用模型，對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的處理來實(shí)現(xiàn)分類。那么當(dāng)沒有歷史數(shù)據(jù)的時(shí)候要對(duì)現(xiàn)存的物品進(jìn)行歸類，就需要使用聚類算法解決。比如，聚類算法可以實(shí)現(xiàn)公司客戶價(jià)值自動(dòng)劃分，網(wǎng)頁自動(dòng)歸類等。

二． K-Means算法介紹與實(shí)現(xiàn)

K-Means算法是一種經(jīng)典的聚類算法，也稱作K均值聚類算法，先為大家介紹K-Means算法的原理。
假設(shè)建立一個(gè)坐標(biāo)系，這個(gè)坐標(biāo)系的橫坐標(biāo)是價(jià)格，縱坐標(biāo)是評(píng)論。然后根據(jù)每個(gè)物品的這兩項(xiàng)特征將物品放置在該坐標(biāo)系中，那么如何將這些物品劃分為k類，此處k為自定義。例如，可以定義k為2，即將所有物品劃分為兩類。首先，隨機(jī)選擇兩類的中心點(diǎn)AB，這兩個(gè)點(diǎn)稱為聚類中心。初始的聚類中心是隨機(jī)選擇，很大概率上并不是真正的類中心，因此這兩點(diǎn)會(huì)在后續(xù)的聚類過程中不斷調(diào)整，直至趨于真正的聚類中心。其次，分別計(jì)算各個(gè)物品距兩個(gè)聚類中心AB的距離，將其劃分至距離較近的聚類中心點(diǎn)一類。例如，點(diǎn)1距A的距離小于點(diǎn)1距B的距離，因此將點(diǎn)1劃分至A類。如此，初步將所有點(diǎn)劃分為兩類，接著需要對(duì)每類的聚類中心進(jìn)行調(diào)整。這個(gè)階段，需要對(duì)每一類計(jì)算重心位置，將這類的聚類中心移動(dòng)到該重心位置，得到兩類的新聚類中心A’ B’。然后再一次計(jì)算各個(gè)物品距兩個(gè)新的聚類中心A’ B’的距離，進(jìn)行距離比較，得到新的聚類結(jié)果。按照這樣的方法不斷迭代，不斷的向正確結(jié)果靠攏，最終聚類過程會(huì)收斂，得到的聚類中心不再變化，便已經(jīng)得到最終的聚類結(jié)果，也就是將物品分成了兩類。
按照上述過程，K-Means的步驟大致如下：1. 初始化聚類中心（隨機(jī)選擇）；2. 計(jì)算樣本點(diǎn)到各聚類中心的距離；3. 將樣本點(diǎn)歸為距離較近的聚類中心一類；4. 移動(dòng)聚類中心到類別的重心位置，調(diào)整聚類中心； 5. 重復(fù)234步驟，直到聚類中心不再改變。

那么K-Means算法如何實(shí)現(xiàn)？在Python中實(shí)現(xiàn)K-Means算法其實(shí)是相對(duì)容易的，首先需要導(dǎo)入K-Means模型，導(dǎo)入模型后可以設(shè)置聚類的個(gè)數(shù)，然后直接使用fit_predict來實(shí)現(xiàn)聚類過程，具體代碼如下：

from sklearn.cluster import KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)

接下來就使用K-Means算法來解決公司客戶價(jià)值自動(dòng)劃分的問題。

三．使用K-Means算法對(duì)公司客戶價(jià)值進(jìn)行自動(dòng)劃分案例實(shí)戰(zhàn)

開始聚類時(shí)，公司的客戶只是具有某些特征，沒有具體的分類標(biāo)準(zhǔn)。那么可以直接根據(jù)特征進(jìn)行聚類，得出聚類結(jié)果后再分析研究這些類別的真實(shí)含義。
假設(shè)初始時(shí)存在部分客戶的數(shù)據(jù)如下，包含客戶年齡，平均每次消費(fèi)金額，平均消費(fèi)周期等數(shù)據(jù)。

現(xiàn)需要對(duì)上述客戶進(jìn)行聚類，以幫助公司快速區(qū)別出普通客戶，VIP客戶和超級(jí)VIP客戶。在有其他歷史數(shù)據(jù)的情況下，可以將這些用戶的特征和客戶類型建立起映射關(guān)系，通過機(jī)器學(xué)習(xí)訓(xùn)練便可以得到未知的客戶類型。但在沒有歷史數(shù)據(jù)的情況下，這就是典型的聚類問題。具體代碼如下：

#通過聚類分析客戶價(jià)值
import pandas as pda
import numpy as npy
import matplotlib.pylab as pyl
fname="D:我的教學(xué)Python阿里云系列直播第4次直播代碼company.csv"
dataf=pda.read_csv(fname,encoding="gbk")
x=dataf.as_matrix()
from sklearn.cluster import KMeans
kms=KMeans(n_clusters=3)
y=kms.fit_predict(x)
print(y)
#年齡-消費(fèi)金額圖，消費(fèi)時(shí)間-消費(fèi)金額圖，年齡-消費(fèi)時(shí)間圖
for i in range(0,len(y)):
    if(y[i]==0):
        print(str(i)+"大眾客戶")
        pyl.subplot(2,3,1)
        #年齡-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")
        pyl.subplot(2,3,2)
        #消費(fèi)時(shí)間-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"*r")
        pyl.subplot(2,3,3)
        #年齡-消費(fèi)時(shí)間圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"*r")
    elif(y[i]==1):
        print(str(i)+"超級(jí)VIP客戶")
        pyl.subplot(2,3,1)
        #年齡-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")
        pyl.subplot(2,3,2)
        #消費(fèi)時(shí)間-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"sy")
        pyl.subplot(2,3,3)
        #年齡-消費(fèi)時(shí)間圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"sy")
    elif(y[i]==2):
        print(str(i)+"VIP客戶")
        pyl.subplot(2,3,1)
        #年齡-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"pb")
        pyl.subplot(2,3,2)
        #消費(fèi)時(shí)間-消費(fèi)金額圖
        pyl.plot(dataf.iloc[i:i+1,2:3].as_matrix(),dataf.iloc[i:i+1,1:2].as_matrix(),"pb")
        pyl.subplot(2,3,3)
        #年齡-消費(fèi)時(shí)間圖
        pyl.plot(dataf.iloc[i:i+1,0:1].as_matrix(),dataf.iloc[i:i+1,2:3].as_matrix(),"pb")
pyl.show()

首先加載客戶數(shù)據(jù)文件 company.csv，從中讀取客戶數(shù)據(jù)，然后導(dǎo)入K-Means模型，這里設(shè)置聚類成3類，然后將聚類結(jié)果通過圖像來分析，但當(dāng)聚類有多個(gè)特征值時(shí)，繪圖分析會(huì)有一定的難度。例如在本例中有3個(gè)特征值，在作圖時(shí)就需要將特征值兩兩組合，對(duì)年齡-消費(fèi)金額圖、消費(fèi)周期-消費(fèi)金額圖、年齡-消費(fèi)周期分別進(jìn)行分析。在作圖之前，可以將毫無關(guān)聯(lián)的特征值組合刪除，例如這里可以將年齡-消費(fèi)周期圖剔除。若無法判斷，也可以全部繪制再根據(jù)圖像分析。在繪圖時(shí)，將預(yù)測(cè)出的類別作為客戶分類標(biāo)準(zhǔn)，例如如果某兩個(gè)客戶被分到標(biāo)簽為0這一類，此時(shí)并不了解預(yù)測(cè)出的標(biāo)簽0類有何實(shí)際意義，但可以認(rèn)為這兩個(gè)客戶是一類。接下來在每個(gè)類別中分別繪制上述三種圖像，這里將同一類別中的圖像采用一種顏色以作區(qū)分。做出圖像結(jié)果如下：

得出圖像后，因?yàn)榉植茧s亂的圖像表明這兩個(gè)特征值之間是沒有實(shí)際關(guān)聯(lián)的，可以將其篩去，留下層次分明的圖像分析。觀察圖像可以發(fā)現(xiàn)年齡-消費(fèi)周期圖非常雜亂，和上述猜想相同，可以刪去。而年齡-消費(fèi)金額圖中，藍(lán)色點(diǎn)客戶顯示年齡相對(duì)較小，消費(fèi)金額也較少，偏向于普通用戶，紅色點(diǎn)客戶年齡不定，但消費(fèi)金額普遍較高，偏向于VIP客戶，而綠色點(diǎn)客戶年齡較大，消費(fèi)非常高，屬于超級(jí)VIP客戶。如果圖一中的類別分析可靠，那么可以將這些類別應(yīng)用于圖二中繼續(xù)驗(yàn)證。在圖二消費(fèi)周期-消費(fèi)金額圖中，藍(lán)色點(diǎn)客戶消費(fèi)周期不定，消費(fèi)金額不高，符合普通客戶的特征，紅色點(diǎn)客戶消費(fèi)周期偏短，消費(fèi)金額中等，屬于VIP客戶，而綠色點(diǎn)客戶消費(fèi)周期短，消費(fèi)金額高，符合超級(jí)VIP客戶的特征。分析得出用戶類別后，便可以對(duì)所有公司客戶進(jìn)行自動(dòng)劃分，基于劃分的結(jié)果，可以為超級(jí)VIP客戶提供一些福利，如生日祝福等，加強(qiáng)營(yíng)銷的粘性。

四．關(guān)聯(lián)分析問題應(yīng)用場(chǎng)景介紹

關(guān)聯(lián)分析是一種用于分析物體之間關(guān)聯(lián)程度的一種方式，關(guān)聯(lián)分析常見的應(yīng)用場(chǎng)景有：分析物品之間的關(guān)聯(lián)程度、個(gè)性化推薦、超市貨品擺放調(diào)整等。例如在超市貨品擺放時(shí)，可以根據(jù)用戶購(gòu)買商品時(shí)的記錄，計(jì)算商品之間的關(guān)聯(lián)程度，將關(guān)聯(lián)程度高的商品擺放在一起。接下來為大家介紹兩種關(guān)聯(lián)分析算法。

五． Apriori算法介紹

Apriori算法是一種基礎(chǔ)的關(guān)聯(lián)分析算法，但效率較低，不建議用于商業(yè)場(chǎng)景。Apriori算法的原理如下：

假設(shè)如今有一批商品的購(gòu)買記錄，ABCDE分別代表不同的商品，每一行代表某一用戶的商品購(gòu)買記錄。首先對(duì)各商品進(jìn)行依次掃描，例如商品A在所有4條商品記錄中出現(xiàn)3次，那么商品A的支持度即為3/4，計(jì)算出的支持度表明了該產(chǎn)品在所有購(gòu)買記錄中出現(xiàn)的概率大小，顯然概率越大，支持度越高。同理，計(jì)算出BCDE的支持度分別為3/4、3/4、3/4、1/4。接下來需要設(shè)置閾值來篩選出關(guān)聯(lián)度較高的商品數(shù)據(jù)，這里假設(shè)取1/2，那么就先將E篩除，留下商品ABCD，此時(shí)便產(chǎn)生頻繁一項(xiàng)集{{A},{B},{C},{D}}。然后將頻繁一項(xiàng)集中的集合兩兩組合，得到候選項(xiàng)集{{AB},{AC},{AD},{BC},{BD},{CD}}，計(jì)算每個(gè)項(xiàng)集的支持度。例如項(xiàng)集AB在所有4條商品記錄中出現(xiàn)2次，那么AB的支持度即為2/4。同理得出AC,AD,BC,BD,CD的支持度分別為3/4,2/4,2/4,2/4,3/4,2/4。在閾值為1/2的情況下只留下AC和BD。如此便可以繼續(xù)生成候選集ABCD，支持度為2/4，可以篩去。得到AC和BD的關(guān)聯(lián)程度最高，這意味著，如果某一客戶購(gòu)買了商品A，那么給該客戶推薦商品C成功率更大，類似的，如果客戶購(gòu)買了商品B，那么商品D可能也更受該用戶青睞。
Apriori算法為什么效率較低呢？從上述過程可以看到每一次計(jì)算候選集的支持度時(shí)都需要返回至歷史記錄中進(jìn)行掃描，因此處理復(fù)雜，耗時(shí)嚴(yán)重。

六． FP-Growth算法介紹

相比Apriori算法，F(xiàn)P-Growth算法是一種效率比較高的關(guān)聯(lián)分析算法，更適用于商業(yè)應(yīng)用。下面為大家介紹FP-Growth算法的原理。
假設(shè)仍然取上述例子，ABCDE分別代表不同的商品，現(xiàn)在有如圖所示的產(chǎn)品購(gòu)買歷史記錄，每一行代表某一用戶的商品購(gòu)買記錄，現(xiàn)在來分析各商品間的關(guān)聯(lián)關(guān)系。

首先仍然需要進(jìn)行第一次掃描，得到商品ABCDE出現(xiàn)的次數(shù)，也就是支持度，分別為5,3,5,7,2。然后篩除支持度較小的商品，這里篩除商品E。接下來按次數(shù)大小進(jìn)行排序創(chuàng)建項(xiàng)頭表（此處項(xiàng)頭表中的順序也可以為DCAB），為創(chuàng)建FP樹做準(zhǔn)備。在FP樹中，公用元素要盡量多，以加快后續(xù)查找時(shí)的檢索速度。FP樹的根節(jié)點(diǎn)可以設(shè)置為null，將項(xiàng)頭表中的數(shù)據(jù)按照順序添加至FP樹中。

接下來只需要再遍歷一次購(gòu)買記錄，將所有記錄插入到初始的FP樹中即可。但在插入之前，需要將每一條記錄按照項(xiàng)頭表中的大小順序進(jìn)行重排。例如第一條記錄ABCD，改為DACB或者DCAB（根據(jù)初始的項(xiàng)頭表而定），第四條記錄BCD，改為DCB。歷史記錄排序完成后，將每一條記錄從根節(jié)點(diǎn)開始插入至樹中。例如，第一條記錄DACB，與初始FP樹公用，因此不用插入。第二條記錄AC，同樣從根節(jié)點(diǎn)開始，第一個(gè)節(jié)點(diǎn)和初始根節(jié)點(diǎn)不共用，因此建立新的節(jié)點(diǎn)，插入記錄AC，且出現(xiàn)次數(shù)都為1。第三條記錄DCB，第一個(gè)節(jié)點(diǎn)D是可以公用的，后續(xù)節(jié)點(diǎn)CB不共用，因此在節(jié)點(diǎn)D下建立新節(jié)點(diǎn)CB，此時(shí)CB的次數(shù)也都為1。第七條記錄DC插入時(shí)，已經(jīng)有公用的節(jié)點(diǎn)了，就直接將除初始節(jié)點(diǎn)之外的其他節(jié)點(diǎn)支持度加1即可，這里D的支持度不變，C的支持度從1變成2。那么這里只需要進(jìn)行一次掃描，就可以將所有歷史記錄插入到建立的FP樹中。FP樹建立完成后便可以進(jìn)行頻繁項(xiàng)集的挖掘。

在頻繁項(xiàng)集挖掘時(shí)，要按照項(xiàng)頭表中支持度從小到大的順序進(jìn)行，如此越向后挖掘，公用節(jié)點(diǎn)越多。因此首先對(duì)B點(diǎn)進(jìn)行挖掘，找出所有以B節(jié)點(diǎn)結(jié)尾的分支，將這些分支組成的樹取出，找出其中的父節(jié)點(diǎn)D,A,C，刪除支持度較小的C，得到B的條件模式基D:3和A:2。將B與條件模式基中的節(jié)點(diǎn)進(jìn)行組合，得到頻繁項(xiàng)集{DB},{AB},{DAB}，取每個(gè)項(xiàng)集中支持度較小的條件模式基支持度作為該項(xiàng)集的支持度，如DB的支持度取D的支持度3，AB的支持度取A的支持度2,，DAB的支持度取A的支持度2。

同理，對(duì)C進(jìn)行挖掘，取出含節(jié)點(diǎn)C的部分樹，得到C的條件模式基為D:4和A:2。以及頻繁項(xiàng)集為{DC}4,{AC}2,{DAC}2。

以及對(duì)A進(jìn)行挖掘得到的條件模式基為D:4，頻繁項(xiàng)集為{DA}4。支持度最高的D點(diǎn)不需要進(jìn)行挖掘。
最后將所有頻繁項(xiàng)集合并，得到最終各點(diǎn)的頻繁項(xiàng)集{DC}4, {DA}4, {DB}3, {AC}2, {DAC}2, {AB}2, {DAB}2。如此便可判斷出D與C和A的關(guān)聯(lián)度最高，和B關(guān)聯(lián)度也較高。若用戶購(gòu)買了商品D，可以向其推薦商品C和A，或者商品B。
在FP-Growth算法中，只需要進(jìn)行兩次掃描便可完成關(guān)聯(lián)度分析，所以相比Apriori算法性能更佳。

七．使用關(guān)聯(lián)分析算法解決個(gè)性化推薦問題

先用Apriori算法來解決一個(gè)課程的個(gè)性化推薦問題。假設(shè)現(xiàn)在有如下所示相關(guān)數(shù)據(jù)，每一行代表每一位客戶購(gòu)買的書籍信息，需要分析出課程之間的關(guān)聯(lián)性，將關(guān)聯(lián)度較高的課程推薦給相關(guān)的用戶使購(gòu)買轉(zhuǎn)化率最高。

首先使用Apriori算法來解決這個(gè)推薦問題。在實(shí)現(xiàn)過程中，值得注意的是需要將輸入數(shù)據(jù)進(jìn)行轉(zhuǎn)化，將課程記錄轉(zhuǎn)化為矩陣形式，如下圖所示，具體應(yīng)用代碼如下：

from apriori import *
import pandas as pda
filename="D:/Python35/data/lesson_buy.xls"
dframe=pda.read_excel(filename,header=None)
change=lambda x:pda.Series(1,index=x[pda.notnull(x)])
mapok=map(change,dframe.as_matrix())
data=pda.DataFrame(list(mapok)).fillna(0)
#設(shè)置置信度閾值和支持度閾值
surpport=0.2
cfd=0.3
print(find_rule(data,surpport,cfd))

得到關(guān)聯(lián)結(jié)果如下，其中support為支持度，confidence為置信度。在本例中，若客戶購(gòu)買機(jī)器學(xué)習(xí)，那么便有較大的概率會(huì)購(gòu)買Python爬蟲，這具有一定的實(shí)際意義。Apriori算法的實(shí)現(xiàn)代碼在網(wǎng)上有開源資源，若有需要可自行閱讀。

現(xiàn)在使用FP-Growth算法解決超市貨品的推薦問題。假設(shè)現(xiàn)在有如下所示相關(guān)二維列表數(shù)據(jù)，分析這些商品間的關(guān)聯(lián)度。
具體實(shí)現(xiàn)代碼來源于github，此處也附上：

import FP_Grow_tree
sample=[
    ["milk","eggs","bread","chips"],
    ["eggs","popcorn","chips","beer"],
    ["eggs","bread","chips"],
    ["milk","eggs","bread","popcorn","chips","beer"],
    ["milk","bread","beer"],
    ["eggs","bread","beer"],
    ["milk","bread","chips"],
    ["milk","eggs","bread","butter","chips"],
    ["milk","eggs","butter","chips"]
]
sample1=[
    [u"牛奶",u"雞蛋",u"面包",u"薯片"],
    [u"雞蛋",u"爆米花",u"薯片",u"啤酒"],
    [u"雞蛋",u"面包",u"薯片"],
    [u"牛奶",u"雞蛋",u"面包",u"爆米花",u"薯片",u"啤酒"],
    [u"牛奶",u"面包",u"啤酒"],
    [u"雞蛋",u"面包",u"啤酒"],
    [u"牛奶",u"面包",u"薯片"],
    [u"牛奶",u"雞蛋",u"面包",u"黃油",u"薯片"],
    [u"牛奶",u"雞蛋",u"黃油",u"薯片"]
]
#print(sample1)
##參數(shù)說明 sample為事務(wù)數(shù)據(jù)集 []為遞歸過程中的基,support為最小支持度
support=3
ff=FP_Grow_tree.FP_Grow_tree(sample1,[],support)
##打印頻繁集
ff.printfrequent()

關(guān)聯(lián)結(jié)果如下所示。類似的，這種關(guān)聯(lián)度分析可以使用于超市商品的貨架擺放等問題，增加用戶的購(gòu)買轉(zhuǎn)化率。

八．作業(yè)練習(xí)：使用關(guān)聯(lián)分析算法解決超市商品貨品擺放調(diào)整問題
假如有一個(gè)超市的商品購(gòu)買記錄數(shù)據(jù)集，需要分析各商品之間的關(guān)聯(lián)程度以調(diào)整貨品擺放。數(shù)據(jù)集格式如下所示，ListNoPosIDCashierID為不同用戶的購(gòu)買記錄ID，各商品下F表示未購(gòu)買，T表示購(gòu)買。請(qǐng)分別使用Apriori算法和FP-Growth算法實(shí)現(xiàn)關(guān)聯(lián)分析，并比較兩種算法的耗時(shí)。這里也提供一份一位同學(xué)所寫的優(yōu)秀作業(yè)代碼供大家參考，具體數(shù)據(jù)集和參考代碼點(diǎn)擊閱讀原文下載。

詳情請(qǐng)閱讀原文

云服務(wù)器 GPU云服務(wù)器數(shù)據(jù)分析與機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)和算法 python聚類算法機(jī)器學(xué)習(xí)需要掌握的技術(shù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/41647.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Anchorer

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

實(shí)用的 CSS — 貝塞爾曲線(cubic-bezier)

閱讀 1682·2019-08-30 12:51
2018年底前端面試總結(jié)

閱讀 670·2019-08-29 17:30
初識(shí)css層疊上下文

閱讀 3707·2019-08-29 15:17
CSS用法的一些總結(jié)

閱讀 862·2019-08-28 18:10
UCloud云主機(jī)更新CentOS系統(tǒng)

閱讀 1373·2019-08-26 17:08
數(shù)組

閱讀 2184·2019-08-26 12:16
react native搭建運(yùn)行環(huán)境(一)

閱讀 3446·2019-08-26 11:47
擁有一款屬于自己的小程序之入門-天氣小程序

閱讀 3510·2019-08-23 16:18

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)，快速掌握聚類算法和關(guān)聯(lián)分析

相關(guān)文章

ApacheCN 人工智能知識(shí)樹 v1.0

*Python**數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)*技術(shù)入門實(shí)戰(zhàn)

發(fā)表評(píng)論

0條評(píng)論

Anchorer

男|高級(jí)講師

TA的文章

實(shí)用的 CSS — 貝塞爾曲線(cubic-bezier)

2018年底前端面試總結(jié)

初識(shí)css層疊上下文

CSS用法的一些總結(jié)

UCloud云主機(jī)更新CentOS系統(tǒng)

數(shù)組

react native搭建運(yùn)行環(huán)境(一)

擁有一款屬于自己的小程序之入門-天氣小程序

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)，快速掌握聚類算法和關(guān)聯(lián)分析

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！