機器學(xué)習(xí) | K近鄰算法

gclove 發(fā)布于2019-07-31 10:12 / 737人閱讀

摘要：由于近期學(xué)業(yè)繁重，所以我就不說廢話了，直接上代碼使用近鄰算法改進(jìn)約會網(wǎng)站將文件轉(zhuǎn)成數(shù)組的函數(shù)打開文件將文件內(nèi)容使用數(shù)組表示數(shù)組的長度表示文件的行數(shù)創(chuàng)建返回的矩陣，內(nèi)容全為根據(jù)數(shù)組繪圖的函數(shù)建立一個畫布在畫布中建立圖表函數(shù)畫布分割成行列歸一

由于近期學(xué)業(yè)繁重QAQ，所以我就不說廢話了，直接上代碼~

使用K近鄰算法改進(jìn)約會網(wǎng)站

from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt

#將文件轉(zhuǎn)成numpy數(shù)組的函數(shù)
def file2matrix(filename):
    #打開文件
    fr=open(filename)
    #將文件內(nèi)容使用數(shù)組表示
    arrayOLines=fr.readlines()
    #print("arrayOLines:")
    #print(arrayOLines)
    #數(shù)組的長度表示文件的行數(shù)
    numberOfLine=len(arrayOLines)
    #print("numberOfLine:")
    #print(numberOfLine)
    #創(chuàng)建返回的NumPy矩陣，內(nèi)容全為0
    returnMat=zeros((numberOfLine,3))
    #print("returnMat:")
    #print(returnMat)
    classLabelVector=[]
    index=0
    for line in arrayOLines:
        line=line.strip()
        listFromLine=line.split("	")
        #print("listFromLine:")
        #print(listFromLine)
        returnMat[index,:]=listFromLine[0:3]
        #print("returnMat:")
        #print(+returnMat)
        classLabelVector.append(int(listFromLine[-1]))
        #print("classLabelVector:")
        #print(classLabelVector)
        index+=1
    return returnMat,classLabelVector
        
#根據(jù)數(shù)組繪圖的函數(shù)
def myDraw(datingDataMat,datingLabels):
    #建立一個畫布
    fig=plt.figure()
    #在畫布中建立圖表
    #fig.add_subplot()函數(shù)
    #畫布分割成1行1列
    ax=fig.add_subplot(111)
    ax.scatter(datingDataMat[:,0],datingDataMat[:,1],
    15.0*array(datingLabels),15.0*array(datingLabels))
    plt.show()
        
#歸一化特征值的函數(shù)
#返回的是歸一化后的數(shù)組，取值范圍，每一列的最小值歸一化數(shù)據(jù)
def autoNorm(dataSet):
    minVals=dataSet.min(0)
    maxVals=dataSet.max(0)
    ranges=maxVals-minVals
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[0]
    normDataSet=dataSet-tile(minVals,(m,1))
    normDataSet=normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals
        
#使用k-近鄰算法進(jìn)行分類
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #計算距離
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    distances=sqDiffMat.sum(axis=1)
    sortedDisIndices=distances.argsort()
    classCount={}
    #選擇距離最小的k個點
    for i in range(k):
        voteIlabel=labels[sortedDisIndices[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
    #排序
    sortedClassCount=sorted(classCount.items(),
    key=operator.itemgetter(1),reverse=True)
    #返回發(fā)生頻率最高的元素標(biāo)簽
    return sortedClassCount[0][0]
        
#將數(shù)據(jù)分為訓(xùn)練集與測試集
#對分類器分類效果進(jìn)行測試
def datingClassTest():
    #測試數(shù)據(jù)占比
    hoRatio=0.10
    datingDataMat,datingLabels=file2matrix("datingTestSet2.txt")
    normMat,ranges,minVals=autoNorm(datingDataMat)
    m=normMat.shape[0]
    #m為行數(shù)1000
    #print("m:")
    #print(m)
    numTestVecs=int(m*hoRatio)
    #選取其中的100個進(jìn)行測試
    #print("numTestVecs:")
    #print(numTestVecs)
    errorCount=0.0
    #print("normMat[numTestVecs:m,:]:")
    #print(normMat[numTestVecs:m,:])
    #print("datingLabels[numTestVecs:m]:")
    #print(datingLabels[numTestVecs:m])
    for i in range(numTestVecs):
        #print("i:")
        #print(i)
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],
        datingLabels[numTestVecs:m],3)
        print("the classifierResult came back with: %d,the real answer is: %d"
        %(classifierResult,datingLabels[i]))
        if(classifierResult!=datingLabels[i]):
            errorCount+=1.0
    print("the total error rate is: %f"%(errorCount/float(numTestVecs)))
    myDraw(datingDataMat,datingLabels)
        
#玩視頻游戲所消耗的時間百分比
#每年獲得的飛行?？屠锍虜?shù)
#每周消費的冰淇淋公升數(shù)
#預(yù)測函數(shù)
def classifyPerson():
    resultList=["not at all","in small doses","in large deses"]
    percentTats=float(input("玩視頻游戲所消耗的時間百分比?"))
    ffMiles=float(input("每年獲得的飛行?？屠锍虜?shù)?"))
    iceCream=float(input("每周消費的冰淇淋公升數(shù)?"))
    datingDataMat,datingLabels=file2matrix("datingTestSet2.txt")
    normMat,ranges,minVals=autoNorm(datingDataMat)
    inArr=array([ffMiles,percentTats,iceCream])
    classifierResult=classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
    print("You will probably like this person: ",resultList[classifierResult-1])
        
        
def main():
    classifyPerson()
    
    
if __name__=="__main__":
    main()

datingTestSet2.txt數(shù)據(jù)預(yù)覽

40920    8.326976    0.953952    3
14488    7.153469    1.673904    2
26052    1.441871    0.805124    1
75136    13.147394    0.428964    1
38344    1.669788    0.134296    1
72993    10.141740    1.032955    1
35948    6.830792    1.213192    3
42666    13.276369    0.543880    3
67497    8.631577    0.749278    1
35483    12.273169    1.508053    3
50242    3.723498    0.831917    1
63275    8.385879    1.669485    1
5569    4.875435    0.728658    2
51052    4.680098    0.625224    1
77372    15.299570    0.331351    1
43673    1.889461    0.191283    1
61364    7.516754    1.269164    1
69673    14.239195    0.261333    1
15669    0.000000    1.250185    2
28488    10.528555    1.304844    3
6487    3.540265    0.822483    2
37708    2.991551    0.833920    1
22620    5.297865    0.638306    2
28782    6.593803    0.187108    3
19739    2.816760    1.686209    2
36788    12.458258    0.649617    3
5741    0.000000    1.656418    2
28567    9.968648    0.731232    3
6808    1.364838    0.640103    2
41611    0.230453    1.151996    1
36661    11.865402    0.882810    3
43605    0.120460    1.352013    1
15360    8.545204    1.340429    3
63796    5.856649    0.160006    1
10743    9.665618    0.778626    2
70808    9.778763    1.084103    1
72011    4.932976    0.632026    1
5914    2.216246    0.587095    2
14851    14.305636    0.632317    3
33553    12.591889    0.686581    3
44952    3.424649    1.004504    1
17934    0.000000    0.147573    2
27738    8.533823    0.205324    3
29290    9.829528    0.238620    3
42330    11.492186    0.263499    3
36429    3.570968    0.832254    1
39623    1.771228    0.207612    1
32404    3.513921    0.991854    1
27268    4.398172    0.975024    1
5477    4.276823    1.174874    2
14254    5.946014    1.614244    2
68613    13.798970    0.724375    1
41539    10.393591    1.663724    3
7917    3.007577    0.297302    2
21331    1.031938    0.486174    2
8338    4.751212    0.064693    2
5176    3.692269    1.655113    2
18983    10.448091    0.267652    3
68837    10.585786    0.329557    1
13438    1.604501    0.069064    2
48849    3.679497    0.961466    1
12285    3.795146    0.696694    2
7826    2.531885    1.659173    2
5565    9.733340    0.977746    2
10346    6.093067    1.413798    2
1823    7.712960    1.054927    2
9744    11.470364    0.760461    3
16857    2.886529    0.934416    2
39336    10.054373    1.138351    3
65230    9.972470    0.881876    1
2463    2.335785    1.366145    2
27353    11.375155    1.528626    3
16191    0.000000    0.605619    2
12258    4.126787    0.357501    2
42377    6.319522    1.058602    1
25607    8.680527    0.086955    3
77450    14.856391    1.129823    1
58732    2.454285    0.222380    1
46426    7.292202    0.548607    3
32688    8.745137    0.857348    3
64890    8.579001    0.683048    1
8554    2.507302    0.869177    2
28861    11.415476    1.505466    3
42050    4.838540    1.680892    1
32193    10.339507    0.583646    3
64895    6.573742    1.151433    1
2355    6.539397    0.462065    2
0    2.209159    0.723567    2
70406    11.196378    0.836326    1
57399    4.229595    0.128253    1
41732    9.505944    0.005273    3
11429    8.652725    1.348934    3
75270    17.101108    0.490712    1
5459    7.871839    0.717662    2
73520    8.262131    1.361646    1
40279    9.015635    1.658555    3
21540    9.215351    0.806762    3
17694    6.375007    0.033678    2
22329    2.262014    1.022169    1
46570    5.677110    0.709469    1
...

使用K近鄰算法實現(xiàn)手寫識別

from numpy import *
import operator
from os import listdir

#將二維32X32的圖像，
#轉(zhuǎn)換成一個1X1024的向量
#方便使用之前的分類器
def img2vector(filename):
    returnVect=zeros((1,1024))
    fr=open(filename)
    for i in range(32):
        lineStr=fr.readline()
        for j in range(32):
            returnVect[0,32*i+j]=int(lineStr[j])
    return returnVect

#使用k-近鄰算法進(jìn)行分類
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #計算距離
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    distances=sqDiffMat.sum(axis=1)
    sortedDisIndices=distances.argsort()
    classCount={}
    #選擇距離最小的k個點
    for i in range(k):
        voteIlabel=labels[sortedDisIndices[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
    #排序
    sortedClassCount=sorted(classCount.items(),
    key=operator.itemgetter(1),reverse=True)
    #返回發(fā)生頻率最高的元素標(biāo)簽
    return sortedClassCount[0][0]

#手寫數(shù)字識別系統(tǒng)
def handwritingClassTest():
    #標(biāo)簽列表
    hwLabels=[]
    #獲取目錄內(nèi)容
    trainingFileList=listdir("trainingDigits")
    m=len(trainingFileList)
    #以文件夾中的文件個數(shù)為行數(shù)
    #將每個文件中的內(nèi)容轉(zhuǎn)換成一個1X1024的向量
    #矩陣的每一行代表一個文件中的所有內(nèi)容
    trainingMat=zeros((m,1024))
    #從文件名解析分類數(shù)字
    #7_200.txt表示數(shù)字7的第200個實例
    for i in range(m):
        #獲取文件名
        fileNameStr=trainingFileList[i]
        fileStr=fileNameStr.split(".")[0]
        classNumStr=int(fileStr.split("_")[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:]=img2vector("trainingDigits/%s"%fileNameStr)
    testFileList=listdir("testDigits")
    errorCount=0.0
    mTest=len(testFileList)
    for i in range(mTest):
        fileNameStr=testFileList[i]
        fileStr=fileNameStr.split(".")[0]
        classNumStr=int(fileStr.split("_")[0])
        vectorUnderTest=img2vector("testDigits/%s"%fileNameStr)
        classifierResult=classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print("the classifier came back with: %d,the real answer is: %d"
        %(classifierResult,classNumStr))
        if(classifierResult!=classNumStr):
            errorCount+=1.0
    print("
the total number of errors is: %d"%errorCount)
    print("
the total error rate is: %f"%(errorCount/float(mTest)))
    
    
def main():
    #testVector=img2vector("./MLiA_SourceCode/machinelearninginaction/Ch02/digits/testDigits/0_13.txt")
    #print("testVector:")
    #print(testVector[0,0:31])
    handwritingClassTest()
    
if __name__=="__main__":
    main()

0_0.txt數(shù)據(jù)預(yù)覽

00000000000001111000000000000000
00000000000011111110000000000000
00000000001111111111000000000000
00000001111111111111100000000000
00000001111111011111100000000000
00000011111110000011110000000000
00000011111110000000111000000000
00000011111110000000111100000000
00000011111110000000011100000000
00000011111110000000011100000000
00000011111100000000011110000000
00000011111100000000001110000000
00000011111100000000001110000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000011111110000000001111000000
00000011110110000000001111000000
00000011110000000000011110000000
00000001111000000000001111000000
00000001111000000000011111000000
00000001111000000000111110000000
00000001111000000001111100000000
00000000111000000111111000000000
00000000111100011111110000000000
00000000111111111111110000000000
00000000011111111111110000000000
00000000011111111111100000000000
00000000001111111110000000000000
00000000000111110000000000000000
00000000000011000000000000000000

GPU云服務(wù)器云服務(wù)器最近鄰插值算法最近鄰匹配算法最近鄰搜索算法機器學(xué)習(xí)學(xué)習(xí)算法

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43438.html

發(fā)表評論

登陸后可評論

0條評論

gclove

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 2856·2023-04-26 01:02
W3Space：新加坡vps，AMD Ryzen 9 3900，1核/4GB內(nèi)存/100GB NVM

閱讀 1884·2021-11-17 09:38
服務(wù)器如何做空間主機-服務(wù)器怎么做成網(wǎng)站空間？

閱讀 808·2021-09-22 15:54
什么是虛擬主機服務(wù)-服務(wù)器與虛擬主機有什么區(qū)別？

閱讀 2912·2021-09-22 15:29
用十種編程語言開發(fā)計算器應(yīng)用-第四篇-Kotlin

閱讀 904·2021-09-22 10:02
Android軟鍵盤彈出，覆蓋h5頁面輸入框問題

閱讀 3457·2019-08-30 15:54
CSS動畫設(shè)計專題（一）：字體特效

閱讀 2021·2019-08-30 15:44
《JavaScript高級程序設(shè)計》（第3版）讀書筆記第6章面向?qū)ο蟮某绦蛟O(shè)計

閱讀 1607·2019-08-26 13:46

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

機器學(xué)習(xí) | K近鄰算法

相關(guān)文章

**如何用機器學(xué)習(xí)算法來進(jìn)行電影分類?(含Python代碼)**

**【機器學(xué)習(xí)實戰(zhàn) Task1】（KNN）k近鄰算法的應(yīng)用**

**機器學(xué)習(xí)(六)-基于KNN分類算法的自動劃分電影的題材類型實現(xiàn)**

**機器學(xué)習(xí)1——k近鄰算法**

發(fā)表評論

0條評論

gclove

男|高級講師

TA的文章

tensorflow

W3Space：新加坡vps，AMD Ryzen 9 3900，1核/4GB內(nèi)存/100GB NVM

服務(wù)器如何做空間主機-服務(wù)器怎么做成網(wǎng)站空間？

什么是虛擬主機服務(wù)-服務(wù)器與虛擬主機有什么區(qū)別？

用十種編程語言開發(fā)計算器應(yīng)用-第四篇-Kotlin

Android軟鍵盤彈出，覆蓋h5頁面輸入框問題

CSS動畫設(shè)計專題（一）：字體特效

《JavaScript高級程序設(shè)計》（第3版）讀書筆記第6章面向?qū)ο蟮某绦蛟O(shè)計

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

機器學(xué)習(xí) | K近鄰算法

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！