成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

機器學(xué)習(xí)2——決策樹

2501207950 / 3390人閱讀

摘要:決策樹是一種十分常用的分類方法,作為一個預(yù)測模型,決策樹表示對象屬性與對象值之間的一種映射關(guān)系。判斷類型測試評價以上決策樹的的實現(xiàn)方式,沒有剪枝的步驟,容易發(fā)生過度擬合,導(dǎo)致決策樹過高。

決策樹(Decision Tree)是一種十分常用的分類方法,作為一個預(yù)測模型,決策樹表示對象屬性與對象值之間的一種映射關(guān)系。
1. 信息熵和信息增益 1.1 信息熵

公式表示為:其中S表示樣本集,c表示樣本集合中類別個數(shù),Pi表示第i個類別的概率。

信息熵的意思就是一個變量i(就是這里的類別)可能的變化越多(只和值的種類多少以及發(fā)生概率有關(guān)),它攜帶的信息量就越大(因為是相加累計),即類別變量i的信息熵越大。

二分類問題中,當(dāng)X的概率P(X)為0.5時,表示變量的不確定性最大,此時的熵達到最大值1。

信息熵反映系統(tǒng)的確定程度:信息熵越低,系統(tǒng)越確定;信息熵越高,系統(tǒng)越不確定

1.2 條件熵

公式表示為:其中ti表示屬性T的取值。條件熵的直觀理解:假設(shè)多帶帶計算明天下雨的信息熵:H(Y)=2,而在已知今天陰天情況下計算明天下雨的條件熵:H(Y|X)=0.5(熵變小,確定性變大,明天下雨的概率變大,信息量減少),這樣相減后為1.5,在獲得陰天這個信息后,下雨信息不確定性減少了1.5,信息增益很大,所以今天是否時陰天這個特征信息X對明天下雨這個隨機變量Y的來說是很重要的。

1.3 信息增益

公式表示為:
信息增益考察某個特征對整個系統(tǒng)的貢獻。

2. 算法實現(xiàn) 2.0 數(shù)據(jù)集描述

通過“不浮出水面能否生存 no surfacing” 和 “是否有腳蹼 flippers”來判斷5種海洋生物是否屬于魚類。

2.1 計算信息熵
from math import log

def calcInforEnt(dataSet):
    num = len(dataSet)
    labelCount = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCount.keys():
            labelCount[currentLabel] = 0
        labelCount[currentLabel] += 1  # 統(tǒng)計類別數(shù)目,labelCount = {"yes": 2, "no": 3} 
    inforEnt = 0.0
    for key in labelCount:
        prob = float(labelCount[key]) / num
        inforEnt -= prob * log(prob, 2)
    return inforEnt

測試:

dataSet = [[1, 1, "yes"], [1, 1, "yes"], [1, 0, "no"], [0, 1, "no"], [0, 1, "no"]]
calcInforEnt(dataSet)  # 0.9709505944546686
2.2 劃分?jǐn)?shù)據(jù)集

按照給定特征值劃分?jǐn)?shù)據(jù)集

def splitDataSet(dateSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

測試:

dataSet = [[1, 1, "yes"], [1, 1, "yes"], [1, 0, "no"], [0, 1, "no"], [0, 1, "no"]]
splitDataSet(dataSet, 0, 1)  # [[1, "yes"], [1, "yes"], [0, "no"]]
splitDataSet(dataSet, 0, 0)  # [[1, "no"], [1, "no"]]
2.3 選擇最好的特征劃分?jǐn)?shù)據(jù)集

遍歷整個數(shù)據(jù)集,循環(huán)計算信息熵和splitDataSet()函數(shù),找到最好的特征劃分方式。

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1  # 數(shù)據(jù)集的最后一列表示類標(biāo)簽
    baseEntropy = calcInforEnt(dataSet)
    bestInforGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]  # 取出每個屬性的所有值,組成一個數(shù)組
        uniqueVals = set(featList)  # 去重
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy +=  prob * calcInforEnt(subDataSet)
        inforGain = bestInforGain - newEntropy
        if inforGain > bestInforGain:
            bestInforGain = inforGain
            bestFeature = i
    return bestFeature

測試:

dataSet = [[1, 1, "yes"], [1, 1, "yes"], [1, 0, "no"], [0, 1, "no"], [0, 1, "no"]]
chooseBestFeatureToSplit(dataSet)  # 0
2.4 遞歸構(gòu)建決策樹

工作原理:得到原始數(shù)據(jù)集,基于最佳的屬性劃分?jǐn)?shù)據(jù)集,由于屬性存在兩個或以上屬性值,因此存在兩個或以上的數(shù)據(jù)分支。第一次劃分結(jié)束后,數(shù)據(jù)向下傳遞到樹分支中,每個分支按照條件繼續(xù)分叉。
遞歸結(jié)束條件:程序遍歷完所有劃分?jǐn)?shù)據(jù)集的屬性,或者每一個分支下的實例屬于相同分類

import operator

def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys(): 
            classCount[vote] = 0
        classCount[vote] += 1
        sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
        return sortedClassCount[0][0]

# 創(chuàng)建樹
def ctrateTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0] == len(classList)):
        return classList[0]  # 類型相同,停止劃分
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)  # 遍歷結(jié)束,返回出現(xiàn)頻率最高的特征
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = ctrateTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree 

測試:

dataSet = [[1, 1, "yes"], [1, 1, "yes"], [1, 0, "no"], [0, 1, "no"], [0, 1, "no"]]
labels = ["no surfacing", "flippers"]
ctrateTree(dataSet, labels)  # {"no surfacing": {0: "no", 1: {"flippers":{0: "no", 1: "yes"}}}}
2.5 使用決策樹進行分類

比較測試數(shù)據(jù)與決策樹上的值,遞歸執(zhí)行該過程直到進入葉子節(jié)點,最后將測試數(shù)據(jù)定義為葉子節(jié)點所屬的類型。

def classify(inputTree, featLabels, testVec):
    firstStr = inputTree.keys()[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key
            if type(secondDict[key]).__name__ == "dict":  # 判斷類型
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

測試:

inputTree = {"no surfacing": {0: "no", 1: {"flippers":{0: "no", 1: "yes"}}}}
featLabels = ["no surfacing", "flippers"]
classify(inputTree, featLabels, [1, 0])  # "no"
classify(inputTree, featLabels, [1, 1])  # "yes"
3. 評價

以上決策樹的ID3的實現(xiàn)方式,沒有剪枝的步驟,容易發(fā)生過度擬合,導(dǎo)致決策樹過高。C4.5決策樹的改進策略:

用信息增益率來選擇屬性,克服了用信息增益選擇屬性偏向選擇多值屬性的不足

在構(gòu)造樹的過程中進行剪枝,參考剪枝算法

對連續(xù)屬性進行離散化

能夠?qū)Σ煌暾臄?shù)據(jù)進行處理

4. 參考

《機器學(xué)習(xí)實戰(zhàn)》

信息熵與信息增益

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/43719.html

相關(guān)文章

  • 機器學(xué)習(xí)--決策--dot轉(zhuǎn)存pdf

    摘要:決策樹分支轉(zhuǎn)存寫代碼的方法今天是周日,我還在倒騰決策樹,然后發(fā)現(xiàn)了一個不用裝軟件也能倒的方法,而且更簡單。剛開始看視頻的時候是看的的視頻,講的真差,太模糊了,不適合我。 決策樹分支dot轉(zhuǎn)存pdf 1、寫代碼的方法 今天是周日,我還在倒騰決策樹,然后發(fā)現(xiàn)了一個不用裝軟件也能倒pdf的方法,而且更簡單。參照了這個中文的文檔實現(xiàn):http://sklearn.apachecn.org/c....

    Bryan 評論0 收藏0
  • BetaMeow----利用機器學(xué)習(xí)做五子棋AI

    摘要:簡言之,機器學(xué)習(xí)是內(nèi)功,而數(shù)據(jù)挖掘則是機器學(xué)習(xí)的一種用途。但本質(zhì)上是我在學(xué)習(xí)機器學(xué)習(xí)方面的實戰(zhàn)項目,所以我想辦法利用機器學(xué)習(xí)的方面的算法實現(xiàn)。 BetaMeow的起源 前段時間AlphaGo和李世石廣受關(guān)注,作為人工智能的腦殘粉,看完比賽后激動不已,因為有一定的機器學(xué)習(xí)的基礎(chǔ),便打算擼一個棋類的AI,但我還算有點自知之明,圍棋AI,甚至google打算做得通用AI是做不出的了,所以打算...

    bingchen 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<