scikit-learn探索

zgbgx 發(fā)布于2019-07-30 14:52 / 2849人閱讀

摘要：與的區(qū)別意思就是是按著不同類別標(biāo)簽的相對(duì)占比來進(jìn)行的分折看看代碼結(jié)果如下我們?cè)O(shè)置的是十折，也就是說將分為十份，每次取一份來做集

1.KFold與StratifiedKFold的區(qū)別

class sklearn.model_selection.StratifiedKFold(n_splits=3, shuffle=False, random_state=None)
Stratified K-Folds cross-validator Provides train/test indices to split data in train/test sets.This cross-validation object is a variation of KFold that returns stratified folds. The folds are made by preserving the percentage of samples for each class

意思就是Stra~是按著不同類別標(biāo)簽的相對(duì)占比來進(jìn)行的分折

看看代碼

import numpy as np
import sklearn.datasets as ds
import sklearn.svm as sksvm
import sklearn.model_selection as skmodsel

a=[[i] for i in range(100)]
b=[0]*30;b.extend([1]*30);b.extend([2]*30);b.extend([3]*10)

K_strafold=skmodsel.StratifiedKFold(n_splits=10) 
K_folds=skmodsel.KFold(n_splits=10)
for train_indices, test_indices in K_folds.split(a):
    d={}
    for i in train_indices:
        d[b[i]]=d.setdefault(b[i],0)+1
    print(d)
    
print("------------------")    
for train_indices, test_indices in K_strafold.split(a,b):
    d={}
    for i in train_indices:
        d[b[i]]=d.setdefault(b[i],0)+1
    print(d)
    
d={}
for i in range(100):
    d[b[i]]=d.setdefault(b[i],0)+1   
print(d)

結(jié)果如下

{0: 20, 1: 30, 2: 30, 3: 10}
{0: 20, 1: 30, 2: 30, 3: 10}
{0: 20, 1: 30, 2: 30, 3: 10}
{0: 30, 1: 20, 2: 30, 3: 10}
{0: 30, 1: 20, 2: 30, 3: 10}
{0: 30, 1: 20, 2: 30, 3: 10}
{0: 30, 1: 30, 2: 20, 3: 10}
{0: 30, 1: 30, 2: 20, 3: 10}
{0: 30, 1: 30, 2: 20, 3: 10}
{0: 30, 1: 30, 2: 30}
------------------
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
{0: 27, 1: 27, 2: 27, 3: 9}
------------------
{0: 30, 1: 30, 2: 30, 3: 10}

我們?cè)O(shè)置的是十折，也就是說將a分為十份，每次取一份來做test集
結(jié)果很明顯，類別標(biāo)簽里有0,1,2各30個(gè)，和10個(gè)3標(biāo)簽，他們的占比就是3:3:3:1
當(dāng)直接使用KFold的時(shí)候，則是每次取出十個(gè)同一列表標(biāo)簽的來做一折，看起來就好像是按著b的排列順序，第一次取0~9做第一折，10-19做第二折，以此類推
但當(dāng)使用Stra~的時(shí)候，每次取都是按著占比來取的，每一折都滿足3:3:3:1，測試集也是滿足這種

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/40975.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

zgbgx

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 1012·2023-04-26 02:21
串口通信中關(guān)鍵知識(shí)點(diǎn)4

閱讀 2828·2021-09-24 09:47
超過固定寬度(或行數(shù))顯示...(或省略)

閱讀 1622·2019-08-30 15:55
水平且垂直居中方法（10種）

閱讀 2176·2019-08-30 14:01
CSS技巧

閱讀 2332·2019-08-29 14:01
手摸手，帶你用vue擼后臺(tái) 系列三(實(shí)戰(zhàn)篇)

閱讀 2057·2019-08-29 12:46
工作中的小技巧整理

閱讀 826·2019-08-26 13:27
手把手教你實(shí)現(xiàn)一個(gè) Vue 進(jìn)度條組件！

閱讀 1950·2019-08-26 12:23

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

scikit-learn探索

相關(guān)文章

**python在Scikit-learn中用決策樹和隨機(jī)森林預(yù)測NBA獲勝者**

ApacheCN 人工智能知識(shí)樹 v1.0

編程界的“頭牌”名媛：Python，14個(gè)與數(shù)據(jù)科學(xué)的“曖昧情事”

發(fā)表評(píng)論

0條評(píng)論

zgbgx

男|高級(jí)講師

TA的文章

tensorflow

串口通信中關(guān)鍵知識(shí)點(diǎn)4

超過固定寬度(或行數(shù))顯示...(或省略)

水平且垂直居中方法（10種）

CSS技巧

手摸手，帶你用vue擼后臺(tái) 系列三(實(shí)戰(zhàn)篇)

工作中的小技巧整理

手把手教你實(shí)現(xiàn)一個(gè) Vue 進(jìn)度條組件！

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

scikit-learn探索

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！