python在Scikit-learn中用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者

learning 發(fā)布于2019-07-30 16:52 / 2973人閱讀

摘要：在本文中，我們將以的決策樹(shù)和隨機(jī)森林預(yù)測(cè)獲勝者。用決策樹(shù)和隨機(jī)森林預(yù)測(cè)獲勝者導(dǎo)入數(shù)據(jù)集并解析日期導(dǎo)入熊貓作為。這將幫助我們查看決策樹(shù)分類(lèi)器的預(yù)測(cè)是否正確。混淆矩陣顯示了我們決策樹(shù)的正確和不正確的分類(lèi)。

在本文中，我們將以Scikit-learn的決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者。美國(guó)國(guó)家籃球協(xié)會(huì)（NBA）是北美主要的男子職業(yè)籃球聯(lián)賽，被廣泛認(rèn)為是首屈一指的男子職業(yè)籃球聯(lián)賽在世界上。它有30個(gè)團(tuán)隊(duì)（美國(guó)29個(gè)，加拿大1個(gè)）。

在常規(guī)賽期間，每支球隊(duì)打82場(chǎng)比賽，每場(chǎng)41場(chǎng)。一支球隊(duì)每年會(huì)有四次面對(duì)對(duì)手（16場(chǎng)比賽）。每個(gè)小組在其四次（24場(chǎng)比賽）中的其他兩個(gè)小組中的六個(gè)小組中進(jìn)行比賽，其余四個(gè)小組三次（12場(chǎng)）進(jìn)行比賽。最后，每個(gè)隊(duì)都會(huì)在另一場(chǎng)比賽中兩次參加所有的球隊(duì)（30場(chǎng)比賽）。

用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者

＃導(dǎo)入數(shù)據(jù)集并解析日期導(dǎo)入熊貓作為pd df = pd 。read_csv （“NBA_2017_regularGames.csv” ，parse_dates = [ “Date” ]）

從游戲玩法的描述中，我們可以計(jì)算機(jī)會(huì)率。在每場(chǎng)比賽中，主隊(duì)和客隊(duì)都有可能贏得一半時(shí)間

預(yù)測(cè)類(lèi)

在下面的代碼中，我們將指定我們的分類(lèi)類(lèi)。這將幫助我們查看決策樹(shù)分類(lèi)器的預(yù)測(cè)是否正確。如果主隊(duì)獲勝，我們將指定我們的等級(jí)為1，如果訪客隊(duì)在另一個(gè)名為“主隊(duì)贏”的列中獲勝，我們將指定為0。

df [ “主隊(duì)獲勝” ] = df [ “訪客積分” ] < df [ “主隊(duì)積分” ]

主隊(duì)勝率：58.4％

＃該數(shù)組現(xiàn)在擁有scikit-learn可以讀取的格式的類(lèi)值。

特征工程

我們將創(chuàng)建以下功能來(lái)幫助我們預(yù)測(cè)NBA 2017年的獲勝者。

無(wú)論是來(lái)訪者還是主隊(duì)都贏得了最后一場(chǎng)比賽。

一般認(rèn)為哪個(gè)團(tuán)隊(duì)更好？

scikit-learn軟件包實(shí)現(xiàn)CART（分類(lèi)和回歸樹(shù)）算法作為其默認(rèn) 決策樹(shù)類(lèi)

決策樹(shù)實(shí)現(xiàn)提供了一種方法來(lái)停止構(gòu)建樹(shù)，以防止過(guò)度使用以下選項(xiàng)：

? min_samples_split: can create arbitrary small leaves in order to create a new node in the decision tree? min_samples_leaf: guarantees a minimum number of samples in a leaf resultingfrom a node

建議使用min_samples_split或min_samples_leaf來(lái)控制葉節(jié)點(diǎn)處的采樣數(shù)。一個(gè)非常小的數(shù)字通常意味著樹(shù)將過(guò)度擬合，而大量的數(shù)據(jù)將阻止樹(shù)學(xué)習(xí)數(shù)據(jù)。

決策的另一個(gè)參數(shù)是創(chuàng)建決策的標(biāo)準(zhǔn)?；岬牟患兒托畔⑹找媸莾煞N流行的：

? Gini impurity: measures how often a decision node would incorrectly predict a sample"s class?`Information gain: indicate how much extra information is gained by the decision node

功能選擇

我們通過(guò)指定我們希望使用的列并使用數(shù)據(jù)框視圖的values參數(shù)，從數(shù)據(jù)集中提取要素以與我們的scikit-learn的DecisionTreeClassifier一起使用。我們使用cross_val_score函數(shù)來(lái)測(cè)試結(jié)果。

X_features_only = df [[ "Home Win Streak" ，"Visitor Win Streak" ，"Home Team Ranks Higher" ，"Home Team Won Last" ，"Home Last Win" ，"Visitor Last Win" ]]

結(jié)果準(zhǔn)確性：56.0％

通過(guò)選擇我們制作的功能，精確度下降到56％。是否有可能通過(guò)添加更多功能來(lái)提高準(zhǔn)確性。

混淆矩陣顯示了我們決策樹(shù)的正確和不正確的分類(lèi)。對(duì)角線1,295分別表示主隊(duì)的真正負(fù)數(shù)和真正的正數(shù)。左下角的1表示假陰性的數(shù)量。而右上角的195，誤報(bào)的數(shù)量。我們也可以查看大約0.602的準(zhǔn)確性分?jǐn)?shù)，這表明決策樹(shù)模型已經(jīng)將60.2％的樣本正確地歸類(lèi)為主隊(duì)獲勝與否。

導(dǎo)入pydotplus 圖

出于探索的目的，測(cè)試較少數(shù)量的變量以便首先獲得決策樹(shù)輸出的感覺(jué)會(huì)很有幫助。最終的樹(shù)開(kāi)始于X的分裂，我們的第一個(gè)解釋變量，主隊(duì)隊(duì)列更高。如果主隊(duì)排名較高的值小于4.5，那么主隊(duì)就會(huì)松動(dòng)，因?yàn)槲覀兊亩兞烤哂刑摷俚戎堤潛p值和真實(shí)同贏。

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/41883.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

learning

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

RepriseHosting：$27.97/月-L5640,16G內(nèi)存,1TB硬盤(pán),10TB月流量,

閱讀 2331·2021-09-29 09:42
結(jié)構(gòu)體內(nèi)存對(duì)齊（結(jié)構(gòu)體大小的計(jì)算）

閱讀 570·2021-09-06 15:02
單片機(jī)的驅(qū)動(dòng)能力對(duì)點(diǎn)亮LED燈的影響

閱讀 2618·2021-09-02 15:40
移動(dòng)端布局基礎(chǔ)viewport

閱讀 2124·2019-08-30 14:23
微信小程序教學(xué)第二章（含視頻）：小程序中級(jí)實(shí)戰(zhàn)教程之預(yù)備篇 - 提取util公用方法｜基于最新版1

閱讀 1868·2019-08-30 13:48
關(guān)于Extjs獲取容器和元素的方法

閱讀 1298·2019-08-26 12:01
從 == 和 === 入手，聊聊隱式類(lèi)型轉(zhuǎn)換

閱讀 972·2019-08-26 11:53
JavaScript之?dāng)?shù)組操作方法concat( )、slice( )、splice( )

閱讀 2154·2019-08-23 18:31

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python在Scikit-learn中用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者

相關(guān)文章

隨機(jī)森林算法入門(mén)(python)

ApacheCN 人工智能知識(shí)樹(shù) v1.0

**如何在Python中從零開(kāi)始實(shí)現(xiàn)隨機(jī)森林**

發(fā)表評(píng)論

0條評(píng)論

learning

男|高級(jí)講師

TA的文章

RepriseHosting：$27.97/月-L5640,16G內(nèi)存,1TB硬盤(pán),10TB月流量,

結(jié)構(gòu)體內(nèi)存對(duì)齊（結(jié)構(gòu)體大小的計(jì)算）

單片機(jī)的驅(qū)動(dòng)能力對(duì)點(diǎn)亮LED燈的影響

移動(dòng)端布局基礎(chǔ)viewport

微信小程序教學(xué)第二章（含視頻）：小程序中級(jí)實(shí)戰(zhàn)教程之預(yù)備篇 - 提取util公用方法｜基于最新版1

關(guān)于Extjs獲取容器和元素的方法

從 == 和 === 入手，聊聊隱式類(lèi)型轉(zhuǎn)換

JavaScript之?dāng)?shù)組操作方法concat( )、slice( )、splice( )

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python在Scikit-learn中用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！