摘要:在本文中,我們將以的決策樹(shù)和隨機(jī)森林預(yù)測(cè)獲勝者。用決策樹(shù)和隨機(jī)森林預(yù)測(cè)獲勝者導(dǎo)入數(shù)據(jù)集并解析日期導(dǎo)入熊貓作為。這將幫助我們查看決策樹(shù)分類(lèi)器的預(yù)測(cè)是否正確。混淆矩陣顯示了我們決策樹(shù)的正確和不正確的分類(lèi)。
在本文中,我們將以Scikit-learn的決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者。美國(guó)國(guó)家籃球協(xié)會(huì)(NBA)是北美主要的男子職業(yè)籃球聯(lián)賽,被廣泛認(rèn)為是首屈一指的男子職業(yè)籃球聯(lián)賽在世界上。它有30個(gè)團(tuán)隊(duì)(美國(guó)29個(gè),加拿大1個(gè))。
在 常規(guī)賽期間,每支球隊(duì)打82場(chǎng)比賽,每場(chǎng)41場(chǎng)。一支球隊(duì)每年會(huì)有四次面對(duì)對(duì)手(16場(chǎng)比賽)。每個(gè)小組在其四次(24場(chǎng)比賽)中的其他兩個(gè)小組中的六個(gè)小組中進(jìn)行比賽,其余四個(gè)小組三次(12場(chǎng))進(jìn)行比賽。最后,每個(gè)隊(duì)都會(huì)在另一場(chǎng)比賽中兩次參加所有的球隊(duì)(30場(chǎng)比賽)。
用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者#導(dǎo)入數(shù)據(jù)集并解析日期導(dǎo)入熊貓作為pd df = pd 。read_csv (“NBA_2017_regularGames.csv” ,parse_dates = [ “Date” ])
從游戲玩法的描述中,我們可以計(jì)算機(jī)會(huì)率。在每場(chǎng)比賽中,主隊(duì)和客隊(duì)都有可能贏得一半時(shí)間
預(yù)測(cè)類(lèi)在下面的代碼中,我們將指定我們的分類(lèi)類(lèi)。這將幫助我們查看決策樹(shù)分類(lèi)器的預(yù)測(cè)是否正確。如果主隊(duì)獲勝,我們將指定我們的等級(jí)為1,如果訪客隊(duì)在另一個(gè)名為“主隊(duì)贏”的列中獲勝,我們將指定為0。
df [ “主隊(duì)獲勝” ] = df [ “訪客積分” ] < df [ “主隊(duì)積分” ]
主隊(duì)勝率:58.4%
#該數(shù)組現(xiàn)在擁有scikit-learn可以讀取的格式的類(lèi)值。
特征工程我們將創(chuàng)建以下功能來(lái)幫助我們預(yù)測(cè)NBA 2017年的獲勝者。
無(wú)論是來(lái)訪者還是主隊(duì)都贏得了最后一場(chǎng)比賽。
一般認(rèn)為哪個(gè)團(tuán)隊(duì)更好?
scikit-learn軟件包實(shí)現(xiàn)CART(分類(lèi)和回歸樹(shù))算法作為其默認(rèn) 決策樹(shù)類(lèi)
決策樹(shù)實(shí)現(xiàn)提供了一種方法來(lái)停止構(gòu)建樹(shù),以防止過(guò)度使用以下選項(xiàng):
? min_samples_split: can create arbitrary small leaves in order to create a new node in the decision tree? min_samples_leaf: guarantees a minimum number of samples in a leaf resultingfrom a node
建議使用min_samples_split或min_samples_leaf來(lái)控制葉節(jié)點(diǎn)處的采樣數(shù)。一個(gè)非常小的數(shù)字通常意味著樹(shù)將過(guò)度擬合,而大量的數(shù)據(jù)將阻止樹(shù)學(xué)習(xí)數(shù)據(jù)。
決策的另一個(gè)參數(shù)是創(chuàng)建決策的標(biāo)準(zhǔn)?;岬牟患兒托畔⑹找媸莾煞N流行的:
? Gini impurity: measures how often a decision node would incorrectly predict a sample"s class?`Information gain: indicate how much extra information is gained by the decision node
功能選擇我們通過(guò)指定我們希望使用的列并使用數(shù)據(jù)框視圖的values參數(shù),從數(shù)據(jù)集中提取要素以與我們的scikit-learn的DecisionTreeClassifier一起使用。我們使用cross_val_score函數(shù)來(lái)測(cè)試結(jié)果。
X_features_only = df [[ "Home Win Streak" ,"Visitor Win Streak" ,"Home Team Ranks Higher" ,"Home Team Won Last" ,"Home Last Win" ,"Visitor Last Win" ]]
結(jié)果準(zhǔn)確性:56.0%
通過(guò)選擇我們制作的功能,精確度下降到56%。是否有可能通過(guò)添加更多功能來(lái)提高準(zhǔn)確性。
混淆矩陣顯示了我們決策樹(shù)的正確和不正確的分類(lèi)。對(duì)角線1,295分別表示主隊(duì)的真正負(fù)數(shù)和真正的正數(shù)。左下角的1表示假陰性的數(shù)量。而右上角的195,誤報(bào)的數(shù)量。我們也可以查看大約0.602的準(zhǔn)確性分?jǐn)?shù),這表明決策樹(shù)模型已經(jīng)將60.2%的樣本正確地歸類(lèi)為主隊(duì)獲勝與否。
導(dǎo)入pydotplus 圖
出于探索的目的,測(cè)試較少數(shù)量的變量以便首先獲得決策樹(shù)輸出的感覺(jué)會(huì)很有幫助。最終的樹(shù)開(kāi)始于X的分裂,我們的第一個(gè)解釋變量,主隊(duì)隊(duì)列更高。如果主隊(duì)排名較高的值小于4.5,那么主隊(duì)就會(huì)松動(dòng),因?yàn)槲覀兊亩兞烤哂刑摷俚戎堤潛p值和真實(shí)同贏。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41883.html
摘要:翻譯自昨天收到推送了一篇介紹隨機(jī)森林算法的郵件,感覺(jué)作為介紹和入門(mén)不錯(cuò),就順手把它翻譯一下。隨機(jī)森林引入的隨機(jī)森林算法將自動(dòng)創(chuàng)建隨機(jī)決策樹(shù)群?;貧w隨機(jī)森林也可以用于回歸問(wèn)題。結(jié)語(yǔ)隨機(jī)森林相當(dāng)起來(lái)非常容易。 翻譯自:http://blog.yhat.com/posts/python-random-forest.html 昨天收到y(tǒng)hat推送了一篇介紹隨機(jī)森林算法的郵件,感覺(jué)作為介紹和入門(mén)...
摘要:貢獻(xiàn)者飛龍版本最近總是有人問(wèn)我,把這些資料看完一遍要用多長(zhǎng)時(shí)間,如果你一本書(shū)一本書(shū)看的話,的確要用很長(zhǎng)時(shí)間。為了方便大家,我就把每本書(shū)的章節(jié)拆開(kāi),再按照知識(shí)點(diǎn)合并,手動(dòng)整理了這個(gè)知識(shí)樹(shù)。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...
摘要:在本教程中,您將了解如何在中從頭開(kāi)始實(shí)現(xiàn)隨機(jī)森林算法。如何將隨機(jī)森林算法應(yīng)用于預(yù)測(cè)建模問(wèn)題。如何在中從頭開(kāi)始實(shí)現(xiàn)隨機(jī)森林圖片來(lái)自,保留部分權(quán)利。這被稱為隨機(jī)森林算法。如何更新決策樹(shù)的創(chuàng)建以適應(yīng)隨機(jī)森林過(guò)程。 歡迎大家前往云+社區(qū),獲取更多騰訊海量技術(shù)實(shí)踐干貨哦~ 決策樹(shù)可能會(huì)受到高度變異的影響,使得結(jié)果對(duì)所使用的特定測(cè)試數(shù)據(jù)而言變得脆弱。 根據(jù)您的測(cè)試數(shù)據(jù)樣本構(gòu)建多個(gè)模型(稱為套袋)可...
閱讀 2331·2021-09-29 09:42
閱讀 570·2021-09-06 15:02
閱讀 2618·2021-09-02 15:40
閱讀 2124·2019-08-30 14:23
閱讀 1868·2019-08-30 13:48
閱讀 1298·2019-08-26 12:01
閱讀 972·2019-08-26 11:53
閱讀 2154·2019-08-23 18:31