最近的中文字幕2019更新视频 ,久久亚洲精品视频,精品麻豆国语国拍视频在线

2 Bootstrapping 和不確定性

本章介紹一些用于模型評估的高級技術。我們首先討論用來評估模型性能不確定性和模型方差、穩定性的技術。之后我們將介紹交叉驗證方法用于模型選擇。如第一章所述，關于我們為什么要關心模型評估，存在三個相關但不同的任務或原因。

我們想評估泛化準確度，即模型在未見數據上的預測性能。
我們想通過調整學習算法、從給定假設空間中選擇性能最好的模型，來改善預測性能。
我們想確定手頭最適合待解決問題的機器學習算法。因此，我們想對比不同的算法，選出性能最好的一個；或從算法的假設空間中選出性能最好的模型。

3 交叉驗證和超參數優化

幾乎所有機器學習算法都需要我們機器學習研究者和從業者指定大量設置。這些超參數幫助我們控制機器學習算法在優化性能、找出偏差方差最佳平衡時的行為。用于性能優化的超參數調整本身就是一門藝術，沒有固定規則可以保證在給定數據集上的性能最優。前面的章節提到了用于評估模型泛化性能的留出技術和 bootstrap 技術。偏差-方差權衡和計算性能估計的不穩定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗證方法，包括對不同超參數配置的模型進行排序和評估其泛化至獨立數據集的性能。

本章生成圖像的代碼詳見：https://github.com/rasbt/model-eval-article-
supplementary/blob/master/code/resampling-and-kfold.ipynb。

我們可以把超參數調整（又稱超參數優化）和模型選擇的過程看作元優化任務。當學習算法在訓練集上優化目標函數時（懶惰學習器是例外），超參數優化是基于它的另一項任務。這里，我們通常想優化性能指標，如分類準確度或接受者操作特征曲線（ROC 曲線）下面積。超參數調整階段之后，基于測試集性能選擇模型似乎是一種合理的方法。但是，多次重復使用測試集可能會帶來偏差和最終性能估計，且可能導致對泛化性能的預期過分樂觀，可以說是「測試集泄露信息」。為了避免這個問題，我們可以使用三次分割（three-way split），將數據集分割成訓練集、驗證集和測試集。對超參數調整和模型選擇進行訓練-驗證可以保證測試集「獨立」于模型選擇。這里，我們再回顧一下性能估計的「3 個目標」：