機(jī)器學(xué)習(xí)(六)-基于KNN分類算法的自動(dòng)劃分電影的題材類型實(shí)現(xiàn)

MkkHou 發(fā)布于2019-07-31 10:18 / 3437人閱讀

摘要：算法及工作原理近鄰算法采用測(cè)量不同特征值之間的距離方法進(jìn)行分類。最后選擇個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類作為新數(shù)據(jù)的分類。

1 分類算法引言

眾所周知,電影可以按照題材分類,然而題材本身是如何定義的?由誰(shuí)來(lái)判定某部電影屬于哪個(gè)題材?也就是說(shuō)同一題材的電影具有哪些公共特征?這些都是在進(jìn)行電影分類時(shí)必須要考慮的問(wèn)題。

動(dòng)作片中也會(huì)存在接吻鏡頭,愛(ài)情片中也會(huì)存在打斗場(chǎng)景,我們不能單純依靠是否存在打斗或者親吻來(lái)判斷影片的類型。

愛(ài)情片中的親吻鏡頭更多,動(dòng)作片中的打斗場(chǎng)景也更頻繁,基于此類場(chǎng)景在某部電影中出現(xiàn)的次數(shù)可以用來(lái)進(jìn)行電影分類。

那么如何基于電影中出現(xiàn)的親吻、打斗出現(xiàn)的次數(shù),使用k-近鄰算法構(gòu)造程序,自動(dòng)劃分電影的題材類型。

2 KNN算法及工作原理

k-近鄰(KNN)算法采用測(cè)量不同特征值之間的距離方法進(jìn)行分類。

存在一個(gè)樣本數(shù)據(jù)集合,也稱作訓(xùn)練樣本集,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽,即我們知道樣本集中每一數(shù)據(jù)與所屬分類的對(duì)應(yīng)關(guān)系。

輸入沒(méi)有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽。

一般來(lái)說(shuō),我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似的數(shù)據(jù),通常k是不大于20的整數(shù)。最后,選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類。

3 KNN的第一個(gè)實(shí)例:電影的分類 3.1 項(xiàng)目介紹

動(dòng)作，愛(ài)情，喜劇，災(zāi)難…???

使用打斗和接吻鏡頭數(shù)分類電影

每部電影的打斗鏡頭數(shù)、接吻鏡頭數(shù)以及電影評(píng)估類型

已知電影與未知電影的距離

得到了距離后，選擇前k個(gè)電影來(lái)判斷未知電影的類型

3.2 如何求距離？------歐氏距離公式

二維空間

多維空間

3.3 k-近鄰算法的一般流程

(1) 收集數(shù)據(jù):可以使用任何方法。
(2) 準(zhǔn)備數(shù)據(jù):距離計(jì)算所需要的數(shù)值,最好是結(jié)構(gòu)化的數(shù)據(jù)格式。
(3) 分析數(shù)據(jù):可以使用任何方法。
(4) 訓(xùn)練算法:此步驟不適用于k-近鄰算法。
(5) 測(cè)試算法:計(jì)算錯(cuò)誤率。
(6) 使用算法:首先需要輸入樣本數(shù)據(jù)和結(jié)構(gòu)化的輸出結(jié)果,然后運(yùn)行k-近鄰算法判定輸
入數(shù)據(jù)分別屬于哪個(gè)分類,最后應(yīng)用對(duì)計(jì)算出的分類執(zhí)行后續(xù)的處理。

3.4 數(shù)據(jù)準(zhǔn)備:使用 Python 導(dǎo)入數(shù)據(jù)

import numpy as np
def createDataSet():
    """創(chuàng)建數(shù)據(jù)集"""
    # 每組數(shù)據(jù)包含打斗數(shù)和接吻數(shù)；
    group = np.array([[3, 104], [2, 100], [1, 81], [101, 10], [99, 5], [98, 2]])
    # 每組數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽類型；
    labels = ["Roman", "Roman", "Roman", "Action", "Action", "Action"]
    return group, labels

3.5 實(shí)施 KNN 算法

對(duì)未知類別屬性的數(shù)據(jù)集中的每個(gè)點(diǎn)依次執(zhí)行以下操作:
(1) 計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離;
(2) 按照距離遞增次序排序;
(3) 選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn);
(4) 確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率;
(5) 返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類。

def classify(inx, dataSet, labels, k):
    """
    KNN分類算法實(shí)現(xiàn)
    :param inx:要預(yù)測(cè)電影的數(shù)據(jù), e.g.[18, 90]
    :param dataSet:傳入已知數(shù)據(jù)集，e.g. group 相當(dāng)于x
    :param labels:傳入標(biāo)簽，e.g. labels相當(dāng)于y
    :param k:KNN里面的k，也就是我們要選擇幾個(gè)近鄰
    :return:電影類新的排序
    """
    dataSetSize = dataSet.shape[0]  # (6,2) -- 6行2列 ===> 6 獲取行數(shù)
    # tile會(huì)重復(fù)inx， 把它重復(fù)成(dataSetSize, 1)型的矩陣
    # (x1 - y1), (x2 - y2)
    diffMat = np.tile(inx, (dataSetSize, 1)) - dataSet
    # 平方
    sqDiffMat = diffMat ** 2
    # 相加, axis=1行相加
    sqDistance = sqDiffMat.sum(axis=1)
    # 開(kāi)根號(hào)
    distance = sqDistance ** 0.5
    # 排序索引： 輸出的是序列號(hào)index， 而不是值
    sortedDistIndicies = distance.argsort()
    # print(sortedDistIndicies)

    classCount = {}
    for i in range(k):
        # 獲取排前k個(gè)的標(biāo)簽名；
        voteLabel = labels[sortedDistIndicies[i]]
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

    sortedClassCount = sorted(classCount.items(),
                              key=lambda d: float(d[1]),
                              reverse=True)
    return sortedClassCount[0]

3.6 如何測(cè)試分類器

分類器并不會(huì)得到百分百正確的結(jié)果,我們可以使用多種方法檢測(cè)分類器的正確率。

為了測(cè)試分類器的效果,我們可以使用已知答案的數(shù)據(jù),當(dāng)然答案不能告訴分類器,檢驗(yàn)分類器給出的結(jié)果是否符合預(yù)期結(jié)果。

完美分類器的錯(cuò)誤率為0

最差分類器的錯(cuò)誤率是1.0

完整代碼

import numpy as np


def createDataSet():
    """創(chuàng)建數(shù)據(jù)集"""
    # 每組數(shù)據(jù)包含打斗數(shù)和接吻數(shù)；
    group = np.array([[3, 104], [2, 100], [1, 81], [101, 10], [99, 5], [98, 2]])
    # 每組數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽類型；
    labels = ["Roman", "Roman", "Roman", "Action", "Action", "Action"]
    return group, labels


def classify(inx, dataSet, labels, k):
    """
    KNN分類算法實(shí)現(xiàn)
    :param inx:要預(yù)測(cè)電影的數(shù)據(jù), e.g.[18, 90]
    :param dataSet:傳入已知數(shù)據(jù)集，e.g. group 相當(dāng)于x
    :param labels:傳入標(biāo)簽，e.g. labels相當(dāng)于y
    :param k:KNN里面的k，也就是我們要選擇幾個(gè)近鄰
    :return:電影類新的排序
    """
    dataSetSize = dataSet.shape[0]  # (6,2) -- 6行2列 ===> 6 獲取行數(shù)
    # tile會(huì)重復(fù)inx， 把它重復(fù)成(dataSetSize, 1)型的矩陣
    # (x1 - y1), (x2 - y2)
    diffMat = np.tile(inx, (dataSetSize, 1)) - dataSet
    # 平方
    sqDiffMat = diffMat ** 2
    # 相加, axis=1行相加
    sqDistance = sqDiffMat.sum(axis=1)
    # 開(kāi)根號(hào)
    distance = sqDistance ** 0.5
    # 排序索引： 輸出的是序列號(hào)index， 而不是值
    sortedDistIndicies = distance.argsort()
    # print(sortedDistIndicies)

    classCount = {}
    for i in range(k):
        # 獲取排前k個(gè)的標(biāo)簽名；
        voteLabel = labels[sortedDistIndicies[i]]
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

    sortedClassCount = sorted(classCount.items(),
                              key=lambda d: float(d[1]),
                              reverse=True)
    return sortedClassCount[0][0]


if __name__ == "__main__":
    group, label = createDataSet()
    result = classify([3, 104], group, label, 5)
    print("[3, 104]的電影類型：",  result)

效果展示

GPU云服務(wù)器云服務(wù)器基于機(jī)器學(xué)習(xí)的機(jī)器學(xué)習(xí)的算法常用的機(jī)器學(xué)習(xí)算法 knn 聚類分類

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/43594.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

MkkHou

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

BREW 應(yīng)用中的3維圖像技術(shù)

閱讀 3344·2021-11-22 14:44
云控后臺(tái)系統(tǒng) 經(jīng)驗(yàn)總結(jié)（表單和文件上傳等）

閱讀 2553·2019-08-30 14:10
淺談 CSS Sprites 雪碧圖應(yīng)用

閱讀 2615·2019-08-30 13:12
大廠h5開(kāi)源視頻系列-網(wǎng)易云音樂(lè)年度總結(jié)

閱讀 1227·2019-08-29 18:36
jQuery動(dòng)畫(huà)效果、jQuery插件使用

閱讀 1356·2019-08-29 16:16
什么時(shí)候不使用箭頭函數(shù)

閱讀 3342·2019-08-26 10:33
如何從零開(kāi)始定義一個(gè)類似websocket的即時(shí)通訊協(xié)議

閱讀 1776·2019-08-23 18:16
create-react-app 源碼學(xué)習(xí)（上）

閱讀 391·2019-08-23 18:12

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

機(jī)器學(xué)習(xí)(六)-基于KNN分類算法的自動(dòng)劃分電影的題材類型實(shí)現(xiàn)

相關(guān)文章

機(jī)器學(xué)習(xí)從入門(mén)到放棄之KNN算法

**Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)入門(mén)實(shí)戰(zhàn)**

發(fā)表評(píng)論

0條評(píng)論

MkkHou

男|高級(jí)講師

TA的文章

BREW 應(yīng)用中的3維圖像技術(shù)

云控后臺(tái)系統(tǒng) 經(jīng)驗(yàn)總結(jié)（表單和文件上傳等）

淺談 CSS Sprites 雪碧圖應(yīng)用

大廠h5開(kāi)源視頻系列-網(wǎng)易云音樂(lè)年度總結(jié)

jQuery動(dòng)畫(huà)效果、jQuery插件使用

什么時(shí)候不使用箭頭函數(shù)

如何從零開(kāi)始定義一個(gè)類似websocket的即時(shí)通訊協(xié)議

create-react-app 源碼學(xué)習(xí)（上）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

機(jī)器學(xué)習(xí)(六)-基于KNN分類算法的自動(dòng)劃分電影的題材類型實(shí)現(xiàn)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！