最新毛片久热97免费精品视频 ,狼人久蕉在线播放,久久亚洲一级α片

農(nóng)場有一群火雞，農(nóng)夫每天來給它們喂食。經(jīng)過長期觀察后，一只火雞（火雞中的科學(xué)雞）得出結(jié)論，“每天早上農(nóng)夫來到雞舍，我就有吃的”，之后每天的經(jīng)歷都在證實它的這個結(jié)論。但是有一天，農(nóng)夫來到雞舍，沒有帶來食物而是把它烤了，因為這天是圣誕節(jié)，做成了圣誕節(jié)火雞。

通過有限的觀察，得出自以為正確的規(guī)律性結(jié)論的，結(jié)局如是此。以這角度，我們?nèi)タ?a href="http://www.dlbhg.com/wiki/machine-learning/" data-type="link" data-id="http://www.dlbhg.com/wiki/machine-learning/">AI/機器學(xué)習(xí)的應(yīng)用，也能看到很多類似的例子。

機器學(xué)習(xí)是研究怎樣使用計算機模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué)，是基于一系列假設(shè)（基本的如，獨立同分布假設(shè)）歸納得到經(jīng)驗，進行預(yù)測的過程。

也不可避免的，機器學(xué)習(xí)中也可能出現(xiàn)預(yù)測的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不滿足同分布，歷史數(shù)據(jù)經(jīng)驗不那么適用了！ 導(dǎo)致預(yù)測效果變差或失效的情況。這就類似我們考試的時候，發(fā)現(xiàn)這類型的題目我沒有見過，歇菜了…

一、什么是數(shù)據(jù)不滿足同分布

實際預(yù)測與訓(xùn)練數(shù)據(jù)不滿足同分布的問題，也就是數(shù)據(jù)集偏移(Dataset shift)，是機器學(xué)習(xí)一個很重要的問題。

從貝葉斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y)，當(dāng)輸入空間的邊緣概率分布P(x) ? , 輸出空間的標(biāo)簽分布P(y) ?以及表示該機器學(xué)習(xí)任務(wù)的條件概率分布 P(y|x) 之中，有任一項因素發(fā)生偏移導(dǎo)致訓(xùn)練數(shù)據(jù)與預(yù)測數(shù)據(jù) P(y,x)造成差異，即為數(shù)據(jù)集偏移現(xiàn)象。

不同因素對應(yīng)著如下三種情況得數(shù)據(jù)偏移：

Covariate shift：協(xié)變量偏移（統(tǒng)計學(xué)中的協(xié)變量即機器學(xué)習(xí)中的特征的概念），指的是輸入空間的邊緣概率分布P(x)，也就輸入特征x分布變化導(dǎo)致的偏移。這個應(yīng)該是最為常見的，比如圖像識別任務(wù)中，訓(xùn)練時輸入的人臉圖像數(shù)據(jù)沒戴口罩，而預(yù)測的時候出現(xiàn)了很多戴口罩人臉的圖像。再如反欺詐識別中，實際預(yù)測欺詐用戶的欺詐行為發(fā)生升級改變，與訓(xùn)練數(shù)據(jù)的行為特征有差異的情況。
Prior probability shift：先驗偏移，指的是標(biāo)簽分布P(Y) 差異導(dǎo)致的。比如反欺詐識別中，線上某段時間欺詐用戶的比例對比訓(xùn)練數(shù)據(jù) 突然變得很大的情況。
Concept shift：映射關(guān)系偏移，指P(y|x) 分布變化，也就是x-> y的映射關(guān)系發(fā)生變化。比如農(nóng)場的火雞，本來x是【早上/農(nóng)夫/來到/雞舍】對應(yīng)著 y是【火雞被喂食】，但是圣誕節(jié)那天這層關(guān)系突然變了，x還是【早上/農(nóng)夫/來到/雞舍】但對應(yīng)著 y是【火雞被烤了】..hah，留下心疼的口水..

二、為什么數(shù)據(jù)不滿足同分布

可能導(dǎo)致數(shù)據(jù)不滿足同分布的兩個常見的原因是：

（1）樣本選擇偏差(Sample Selection Bias) ：分布上的差異是由于訓(xùn)練數(shù)據(jù)是通過有偏見的方法獲得的。

比如金融領(lǐng)域的信貸客群是通過某種渠道/規(guī)則獲得的，后面我們新增加營銷渠道獲客或者放寬了客戶準入規(guī)則。這樣就會直接導(dǎo)致實際客群樣本比歷史訓(xùn)練時點的客群樣本更加多樣了（分布差異）。

（2）不平穩(wěn)環(huán)境(Non-stationary Environments)：由于時間上的或空間上的變化導(dǎo)致訓(xùn)練與測試環(huán)境不同。

比如金融領(lǐng)域，預(yù)測用戶是否會償還貸款的任務(wù)。有一小類用戶在經(jīng)濟環(huán)境好的時候有能力償還債務(wù)，但是由于疫情或其他的影響，宏觀經(jīng)濟環(huán)境不太景氣，如今就無法償還了。

三、如何檢測數(shù)據(jù)滿足同分布

可能我們模型在訓(xùn)練、驗證及測試集表現(xiàn)都不錯，但一到OOT（時間外樣本）或者線上預(yù)測的時候，效果就掉下來了。這時我們就不能簡單說是模型復(fù)雜導(dǎo)致過擬合了，也有可能是預(yù)測數(shù)據(jù)的分布變化導(dǎo)致的效果變差。我們可以通過如下常用方式檢測數(shù)據(jù)分布有沒有變化：

3.1 統(tǒng)計指標(biāo)的方法

通過統(tǒng)計指標(biāo)去檢測分布差異是很直接的，我們通常用群體穩(wěn)定性指標(biāo)（Population Stability Index，PSI），衡量未來的樣本（如測試集）及訓(xùn)練樣本評分的分布比例是否保持一致，以評估數(shù)據(jù)/模型的穩(wěn)定性（按照經(jīng)驗值，PSI<0.1分布差異是比較小的。）。

同理，PSI也可以細化衡量特征值的分布差異，評估數(shù)據(jù)特征層面的穩(wěn)定性。PSI指標(biāo)計算公式為 SUM(各分數(shù)段的 (實際占比 – 預(yù)期占比）* ln(實際占比 / 預(yù)期占比) )，介紹可見：指標(biāo)。其他的方法如 KS檢驗，KDE （核密度估計）分布圖等方法可見參考鏈接[2]

3.2 異常（新穎）點檢測的方法

可以通過訓(xùn)練數(shù)據(jù)集訓(xùn)練一個模型（如 oneclass-SVM），利用模型判定哪些數(shù)據(jù)樣本的不同于訓(xùn)練集分布（異常概率）。異常檢測方法可見：異常檢測算法速覽

3.3 分類的方法

混合訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)（測試數(shù)據(jù)可得情況），將訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分別標(biāo)注為’1‘和’0‘標(biāo)簽，進行分類，若一個模型，可以以一個較好的精度將訓(xùn)練實例與測試實例區(qū)分開，說明訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的特征值分布有較大差異，存在協(xié)變量偏移。

相應(yīng)的對這個分類模型貢獻度比較高的特征，也就是分布偏差比較大的特征。分類較準確的樣本（簡單樣本）也就是分布偏差比較大的樣本。

四、如何解決數(shù)據(jù)不滿足同分布

4.1 增加數(shù)據(jù)

增加數(shù)據(jù)是王道，訓(xùn)練數(shù)據(jù)只要足夠大，什么場面沒見過，測試數(shù)據(jù)的效果自然也可以保證。

如上面的例子，作為一只農(nóng)場中的科學(xué)雞，如果觀察到完整周期、全場景的數(shù)據(jù)，或者被灌輸一些先驗知識，就能更為準確預(yù)測火雞的命運。

但是現(xiàn)實情況可能多少比較無奈，可能業(yè)務(wù)場景的原因限制，并不一定可以搞得到更多數(shù)據(jù)，諸如聯(lián)邦學(xué)習(xí)、數(shù)據(jù)增強等方法也是同樣的思路。

4.2 數(shù)據(jù)增強

在現(xiàn)實情況沒法新增數(shù)據(jù)的時候，數(shù)據(jù)增強(Data Augmentation)是一個備選方案，在不實質(zhì)性的增加數(shù)據(jù)的情況下，從原始數(shù)據(jù)加工出更多的表示，提高原數(shù)據(jù)的數(shù)量及質(zhì)量，以接近于更多數(shù)據(jù)量產(chǎn)生的價值。

其原理是通過對原始數(shù)據(jù)融入先驗知識，加工出更多數(shù)據(jù)的表示，有助于模型判別數(shù)據(jù)中統(tǒng)計噪聲，加強本體特征的學(xué)習(xí)，減少模型過擬合，提升泛化能力。具體可見：數(shù)據(jù)增強方法

4.3 選擇數(shù)據(jù)

我們可以選擇和待預(yù)測樣本分布比較一致的數(shù)據(jù)做模型訓(xùn)練，使得在待預(yù)測樣本的效果變得更好。

這個方法看起來有點投機，這在一些數(shù)據(jù)波動大的數(shù)據(jù)競賽中很經(jīng)常出現(xiàn)，直接用全量訓(xùn)練樣本的結(jié)果不一定會好，而我們更改下數(shù)據(jù)集劃分split的隨機種子（如暴力for循環(huán)遍歷一遍各個隨機種子的效果），或者人工選擇與線上待預(yù)測樣本業(yè)務(wù)類型、時間相近的樣本集用于訓(xùn)練模型（或者提高這部分樣本的學(xué)習(xí)權(quán)重），線上數(shù)據(jù)的預(yù)測效果就提升了。

4.4 半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí) 是介于傳統(tǒng)監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間，其思想是通過在模型訓(xùn)練中直接引入無標(biāo)記樣本，以充分捕捉數(shù)據(jù)整體潛在分布，以改善如傳統(tǒng)無監(jiān)督學(xué)習(xí)過程盲目性、監(jiān)督學(xué)習(xí)在訓(xùn)練樣本不足導(dǎo)致的學(xué)習(xí)效果不佳的問題。

通過半監(jiān)督學(xué)習(xí)，訓(xùn)練時候可以充分捕捉數(shù)據(jù)整體潛在分布，同理也可以緩解預(yù)測數(shù)據(jù)分布有差異的問題。半監(jiān)督分類常用的做法是，通過業(yè)務(wù)含義或者模型選擇出一些雖然無標(biāo)簽的樣本，并打上大概率的某個標(biāo)簽（偽標(biāo)簽）加入到訓(xùn)練數(shù)據(jù)中，驗證待預(yù)測樣本的效果有沒有變好。

經(jīng)典的如金融信貸領(lǐng)域的拒絕推斷方法，我們可以從貸款被拒絕的用戶中（這部分用戶是貸款的時候直接被拒絕了，沒有”是否違約”的標(biāo)簽），通過現(xiàn)有信貸違約模型（申請評分卡）預(yù)測這部分拒絕用戶的違約概率，并把模型認為大概率違約的用戶作為壞樣本加入到訓(xùn)練樣本中，以提升模型的泛化效果。

4.5 特征選擇

對于常見的協(xié)變量偏移，用特征選擇是一個不錯的方法。我們可以分析各個特征在分布穩(wěn)定性（如PSI值）的情況，篩選掉分布差異比較大的特征。需要注意的是，這里適用的是篩掉特征重要性一般且穩(wěn)定性差的特征。如果重要特征的分布差距也很大，這就難搞了，還是回頭搞搞數(shù)據(jù)或者整整其他的強特征。特征選擇方法可見：python特征選擇

4.6 均衡學(xué)習(xí)

均衡學(xué)習(xí)適用與標(biāo)簽分布差異（先驗偏移）導(dǎo)致的數(shù)據(jù)集偏移。均衡學(xué)習(xí)的方法可以歸結(jié)為：通過某種方法，使得不同類別的樣本對于模型學(xué)習(xí)中的Loss（或梯度）貢獻是比較均衡的，以消除模型對不同類別的偏向性，學(xué)習(xí)到更為本質(zhì)的決策。

比如原反欺詐訓(xùn)練樣本中，好壞樣本的比例是1000：1，但到了預(yù)測，有時實際的好壞樣本的比例是10：1。這時如果沒有通過均衡學(xué)習(xí)，直接從訓(xùn)練樣本學(xué)習(xí)到模型，會先天認為欺詐壞樣本的概率就是很低的，導(dǎo)致很多欺詐壞樣本的漏判。