Python數(shù)據(jù)分析：KNN算法(k-近鄰算法)

Tychio 發(fā)布于2019-07-30 18:45 / 569人閱讀

摘要：算法是一種數(shù)據(jù)分類算法，以距離樣本個(gè)最鄰近數(shù)據(jù)的類別代表樣本的類別，因此也叫作近鄰算法。排序后訪問(wèn)元素的方式與訪問(wèn)二維數(shù)組元素的方式一致

KNN算法是一種數(shù)據(jù)分類算法，以距離樣本k個(gè)最鄰近數(shù)據(jù)的類別代表樣本的類別，因此也叫作k-近鄰算法。KNN算法是數(shù)據(jù)挖掘中最簡(jiǎn)單的方法之一，大致可分為以下幾個(gè)步驟：

訓(xùn)練數(shù)據(jù)：原數(shù)據(jù)集中所有數(shù)據(jù)類別的數(shù)據(jù)。

測(cè)試數(shù)據(jù)：我們將要拿來(lái)測(cè)試的數(shù)據(jù)樣本。

處理數(shù)據(jù)

我們得到的測(cè)試數(shù)據(jù)，通常和訓(xùn)練數(shù)據(jù)是不同維的，這時(shí)候就需要我們將測(cè)試數(shù)據(jù)升維到和訓(xùn)練數(shù)據(jù)相同，python的numpy中自帶了一個(gè)tile()函數(shù)可以幫助我們將測(cè)試數(shù)據(jù)升維。

將數(shù)據(jù)向量化

測(cè)試數(shù)據(jù)升維后，我們?yōu)榱擞?jì)算距離樣本點(diǎn)的距離，此時(shí)需要將數(shù)據(jù)向量化，所謂的向量化就很簡(jiǎn)單了，即將兩個(gè)同維數(shù)據(jù)相減。

計(jì)算歐式距離

歐式距離，即歐幾里得距離，運(yùn)用勾股定理即可求出，將升維后的測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)相減獲得的向量組的每一個(gè)向量的平方和開方即可得到由距離組成的向量組。

根據(jù)距離進(jìn)行分類

選擇k個(gè)距離樣本點(diǎn)距離最小的數(shù)據(jù)，統(tǒng)計(jì)在這k個(gè)數(shù)據(jù)中哪類數(shù)據(jù)類別出現(xiàn)的頻率最高，樣本點(diǎn)的數(shù)據(jù)類別即可確定。

算法實(shí)現(xiàn)：

1.首先我們需要引入numpy以及operator，輸入from numpy import *和import operator。

2.接下來(lái)我們需要定義一個(gè)knn函數(shù)，在knn函數(shù)中我們需要引入四個(gè)參數(shù)，分別為k、訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和數(shù)據(jù)類別。

3.接下來(lái)我們需要先對(duì)數(shù)據(jù)進(jìn)行升維操作，需要用到numpy下的tile(a,(b,c))函數(shù)，a為要進(jìn)行升維操作的數(shù)據(jù)，也就是測(cè)試數(shù)據(jù)，b為要對(duì)測(cè)試數(shù)據(jù)升維的行數(shù)據(jù)，c為要對(duì)測(cè)試數(shù)據(jù)升維的列數(shù)據(jù)。

4.在上一操作中，我們一般需要獲得訓(xùn)練數(shù)據(jù)的行數(shù)和列數(shù)，這時(shí)需要用到shape()函數(shù)，shape()函數(shù)返回的是由訓(xùn)練數(shù)據(jù)的行和列組成的元組，我們想要知道訓(xùn)練數(shù)據(jù)的行數(shù)或列數(shù)只需通過(guò)數(shù)組元素下標(biāo)的方式引用。

5.數(shù)據(jù)的維度相同后，我們要將兩數(shù)據(jù)相減得到一個(gè)向量，再計(jì)算這個(gè)向量每個(gè)值的平方和的開方即得測(cè)試數(shù)據(jù)到訓(xùn)練數(shù)據(jù)的距離，再調(diào)用argsort()函數(shù)將距離按照升序排列，不過(guò)該函數(shù)返回的是數(shù)組元素的下標(biāo)。

6.接下來(lái)我們?yōu)榱酥庇^的看到不同數(shù)據(jù)類別的出現(xiàn)次數(shù)，需要設(shè)置一個(gè)空字典來(lái)存放這些數(shù)據(jù)，在得到字典后，我們需要將字典按照不同數(shù)據(jù)類別的出現(xiàn)次數(shù)降序排列，進(jìn)而返回字典的第一個(gè)值即得到測(cè)試數(shù)據(jù)的數(shù)據(jù)類別。

7.算法代碼如下：

from numpy import *
import operator
def knn(k, test_data, train_data, labels):
    train_size = train_data.shape[0]    #獲取訓(xùn)練數(shù)據(jù)的行數(shù)
    test_size = tile(test_data, (train_size, 1))    #將測(cè)試數(shù)據(jù)的行升維
    minus = test_size-train_data    #得到向量
    sq_minus = minus**2
    sum_sq_minus = sq_minus.sum(axis=1)        #得到平方后的每個(gè)數(shù)組內(nèi)元素的和
    distc = sum_sq_minus**0.5
    sort_distc = distc.argsort()    #將距離按升序排列
    static = {}
    for i in range(0, k):
        vote = labels[sort_distc[i]]    #獲取數(shù)據(jù)類型
        static[vote] = static.get(vote, 0)+1    #統(tǒng)計(jì)每個(gè)數(shù)據(jù)類型的出現(xiàn)次數(shù)
    sort_static = sorted(static.items(), key=operator.itemgetter(1), reverse=True)    #將字典中的元素按出現(xiàn)次數(shù)降序排列
    return sort_static[0][0]    #返回出現(xiàn)次數(shù)最多的數(shù)據(jù)類型

8.算法中需要對(duì)字典進(jìn)行排序，因此需要用到sorted()函數(shù)，sorted()函數(shù)共有三個(gè)參數(shù)，分別為items()，operator.itemgetter()，reverse，默認(rèn)的排序?yàn)樯颍覀円氚凑战敌蚺帕行枰畹谌齻€(gè)參數(shù)為True，在這里我們是按照字典的values進(jìn)行排序的，因此我們需要輸入sorted(static.items(), key=operator.itemgetter(1), reverse=True)，operator.itemgetter()函數(shù)中的值為1時(shí)，是按照字典的values進(jìn)行排序，值為0時(shí)，是按照字典的key進(jìn)行排序。

9.排序后訪問(wèn)元素的方式與訪問(wèn)二維數(shù)組元素的方式一致

云服務(wù)器 GPU云服務(wù)器最近鄰插值算法最近鄰匹配算法最近鄰搜索算法算法 python

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/43003.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Tychio

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

前端面試每日3+1——第120天

閱讀 1496·2019-08-30 15:44
對(duì)height 100%和inherit的總結(jié)

閱讀 1956·2019-08-30 14:07
邊距重疊以及解決方案BFC

閱讀 2883·2019-08-30 13:56
譯-使用Scroll Snapping實(shí)現(xiàn)CSS控制頁(yè)面滾動(dòng)

閱讀 2356·2019-08-29 17:06
vertical-align，今晚來(lái)我房間聊聊劇本

閱讀 1336·2019-08-29 14:13
小程序的開發(fā)成本真的比原生App低嗎？

閱讀 2093·2019-08-29 11:28
數(shù)組分割算法（JavaScript）

閱讀 3241·2019-08-26 13:56
JavaScript學(xué)習(xí)第七天筆記（面向?qū)ο螅?/a>

閱讀 1960·2019-08-26 12:11

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python數(shù)據(jù)分析：KNN算法(k-近鄰算法)

相關(guān)文章

**【機(jī)器學(xué)習(xí)實(shí)戰(zhàn) Task1】（KNN）k近鄰算法的應(yīng)用**

**以??簡(jiǎn)單易懂??的語(yǔ)言帶你搞懂有監(jiān)督學(xué)習(xí)算法【附Python代碼詳解】機(jī)器學(xué)習(xí)系列之KNN篇**

**機(jī)器學(xué)習(xí)(六)-基于KNN分類算法的自動(dòng)劃分電影的題材類型實(shí)現(xiàn)**

**機(jī)器學(xué)習(xí)分享——KNN算法及numpy實(shí)現(xiàn)**

發(fā)表評(píng)論

0條評(píng)論

Tychio

男|高級(jí)講師

TA的文章

前端面試每日3+1——第120天

對(duì)height 100%和inherit的總結(jié)

邊距重疊以及解決方案BFC

譯-使用Scroll Snapping實(shí)現(xiàn)CSS控制頁(yè)面滾動(dòng)

vertical-align，今晚來(lái)我房間聊聊劇本

小程序的開發(fā)成本真的比原生App低嗎？

數(shù)組分割算法（JavaScript）

JavaScript學(xué)習(xí)第七天筆記（面向?qū)ο螅?/a>

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python數(shù)據(jù)分析：KNN算法(k-近鄰算法)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！