摘要:和準確率不同,曲線對分類比例不平衡的數據集不敏感,曲線顯示的是對超過限定閾值的所有預測結果的分類器效果。曲線畫的是分類器的召回率與誤警率的曲線。
Logistics regression
from sklearn.linear_model import LogisticRegression clf = LogisticRegression() clf.fit(x_train, y_train)準確率與召回率
準確率:scikit-learn提供了accuracy_score來計算:LogisticRegression.score()
準確率是分類器預測正確性的比例,但是并不能分辨出假陽性錯誤和假陰性錯誤
精確率是指分類器預測出的垃圾短信中真的是垃圾短信的比例,P=TP/(TP+FP)
召回率在醫(yī)學上也叫做靈敏度,在本例中知所有真的垃圾短信被分類器正確找出來的比例,R=TP/(TP+FN)
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score predictions = clf.predict(x_test) print("準確率:", accuracy_score(y_test, predictions)) print("精確率:", precision_score(y_test, predictions)) print("召回率:", recall_score(y_test, predictions)) print("F1-Score:", f1_score(y_test, predictions)) from sklearn.metrics import classification_report, accuracy_score, confusion_matrix predictions = clf.predict(x_test) print("準確率:", accuracy_score(y_test, predictions)) print("混淆矩陣:", confusion_matrix(y_test, predictions)) print("分類報告:", classification_report(y_test, predictions))ROC AUC
ROC曲線(Receiver Operating Characteristic,ROC curve)可以用來可視化分類器的效果。和準確率不同,ROC曲線對分類比例不平衡的數據集不敏感,ROC曲線顯示的是對超過限定閾值的所有預測結果的分類器效果。ROC曲線畫的是分類器的召回率與誤警率(fall-out)的曲線。誤警率也稱假陽性率,是所有陰性樣本中分類器識別為陽性的樣本所占比例:
F=FP/(TN+FP) AUC是ROC曲線下方的面積,它把ROC曲線變成一個值,表示分類器隨機預測的效果.
from sklearn.metrics import roc_curve, auc predictions = clf.predict_proba(x_test) false_positive_rate, recall, thresholds = roc_curve(y_test, predictions[:, 1]) roc_auc = auc(false_positive_rate, recall) plt.title("Receiver Operating Characteristic") plt.plot(false_positive_rate, recall, "b", label="AUC = %0.2f" % roc_auc) plt.legend(loc="lower right") plt.plot([0, 1], [0, 1], "r--") plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.0]) plt.ylabel("Recall") plt.xlabel("Fall-out") plt.show()模型原理
http://blog.csdn.net/sergeyca...
http://blog.csdn.net/zjuPeco/...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/44571.html
摘要:前言本文使用訓練邏輯回歸模型,并將其與做比較。對數極大似然估計方法的目標函數是最大化所有樣本的發(fā)生概率機器學習習慣將目標函數稱為損失,所以將損失定義為對數似然的相反數,以轉化為極小值問題。 前言 本文使用tensorflow訓練邏輯回歸模型,并將其與scikit-learn做比較。數據集來自Andrew Ng的網上公開課程Deep Learning 代碼 #!/usr/bin/env ...
摘要:出現方差是正常的,但方差過高表明模型無法將其預測結果泛化到從中抽取訓練樣本的較大母體。機器學習中的學習曲線是一種可視化圖形,能根據一系列訓練實例中的訓練和測試數據比較模型的指標性能。 欠擬合(通常代表高偏差) 精度 如前所述如果模型具有足夠的數據,但因不夠復雜而無法捕捉基本關系,則會出現偏差。這樣一來,模型一直會系統(tǒng)地錯誤表示數據,從而導致預測精度低。這種現象叫做欠擬合(und...
閱讀 3721·2021-10-18 13:34
閱讀 2416·2021-08-11 11:15
閱讀 1209·2019-08-30 15:44
閱讀 702·2019-08-26 10:32
閱讀 998·2019-08-26 10:13
閱讀 2072·2019-08-23 18:36
閱讀 1784·2019-08-23 18:35
閱讀 532·2019-08-23 17:10