2 Bootstrapping 和不確定性

本章介紹一些用于模型評估的高級技術。我們首先討論用來評估模型性能不確定性和模型方差、穩定性的技術。之后我們將介紹交叉驗證方法用于模型選擇。如第一章所述,關于我們為什么要關心模型評估,存在三個相關但不同的任務或原因。

3 交叉驗證和超參數優化

幾乎所有機器學習算法都需要我們機器學習研究者和從業者指定大量設置。這些超參數幫助我們控制機器學習算法在優化性能、找出偏差方差最佳平衡時的行為。用于性能優化的超參數調整本身就是一門藝術,沒有固定規則可以保證在給定數據集上的性能最優。前面的章節提到了用于評估模型泛化性能的留出技術和 bootstrap 技術。偏差-方差權衡和計算性能估計的不穩定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗證方法,包括對不同超參數配置的模型進行排序和評估其泛化至獨立數據集的性能。

本章生成圖像的代碼詳見:https://github.com/rasbt/model-eval-article-
supplementary/blob/master/code/resampling-and-kfold.ipynb。

我們可以把超參數調整(又稱超參數優化)和模型選擇的過程看作元優化任務。當學習算法在訓練集上優化目標函數時(懶惰學習器是例外),超參數優化是基于它的另一項任務。這里,我們通常想優化性能指標,如分類準確度或接受者操作特征曲線(ROC 曲線)下面積。超參數調整階段之后,基于測試集性能選擇模型似乎是一種合理的方法。但是,多次重復使用測試集可能會帶來偏差和最終性能估計,且可能導致對泛化性能的預期過分樂觀,可以說是「測試集泄露信息」。為了避免這個問題,我們可以使用三次分割(three-way split),將數據集分割成訓練集、驗證集和測試集。對超參數調整和模型選擇進行訓練-驗證可以保證測試集「獨立」于模型選擇。這里,我們再回顧一下性能估計的「3 個目標」:

本文章轉載微信公眾號@算法進階

上一篇:

主動學習概述(ActiveLearning)

下一篇:

Python特征重要性分析的9個常用方法
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費