機器學習防止過擬合方法一、過擬合與欠擬合
機器學習中一個重要的話題便是模型的泛化能力,泛化能力強的模型才是好模型,對于訓練好的模型,若在訓練集表現差機器學習防止過擬合,不必說在測試集表現同樣會很差,這可能是欠擬合導致;若模型在訓練集表現非常好,卻在測試集上差強人意,則這便是過擬合導致的,過擬合與欠擬合也可以用 Bias 與 的角度來解釋,欠擬合會導致高 Bias ,過擬合會導致高 ,所以模型需要在 Bias 與 之間做出一個權衡。
使用簡單的模型去擬合復雜數據時,會導致模型很難擬合數據的真實分布,這時模型便欠擬合了,或者說有很大的 Bias,Bias 即為模型的期望輸出與其真實輸出之間的差異;有時為了得到比較精確的模型而過度擬合訓練數據,或者模型復雜度過高時,可能連訓練數據的噪音也擬合了,導致模型在訓練集上效果非常好,但泛化性能卻很差,這時模型便過擬合了,或者說有很大的 ,這時模型在不同訓練集上得到的模型波動比較大, 刻畫了不同訓練集得到的模型的輸出與這些模型期望輸出的差異。
模型處于過擬合還是欠擬合,可以通過畫出誤差趨勢圖來觀察。若模型在訓練集與測試集上誤差均很大,則說明模型的 Bias 很大,此時需要想辦法處理 under- ;若是訓練誤差與測試誤差之間有個很大的 Gap ,則說明模型的 很大,這時需要想辦法處理 over-。
一般在模型效果差的第一個想法是增多數據,其實增多數據并不一定會有更好的結果,因為欠擬合時增多數據往往導致效果更差,而過擬合時增多數據會導致 Gap 的減小,效果不會好太多,多以當模型效果很差時,應該檢查模型是否處于欠擬合或者過擬合的狀態,而不要一味的增多數據量,關于過擬合與欠擬合,這里給出幾個解決方法。
二、常用解決辦法
(1)解決欠擬合的方法:
1、增加新特征,可以考慮加入進特征組合、高次特征,來增大假設空間;
2、嘗試非線性模型,比如核SVM 、決策樹、DNN等模型;
3、如果有正則項可以較小正則項參數 $\lambda$;
4、Boosting ,Boosting 往往會有較小的 Bias,比如 Gradient Boosting 等.
(2)解決過擬合的方法:
1、交叉檢驗,通過交叉檢驗得到較優的模型參數;
2、特征選擇,減少特征數或使用較少的特征組合,對于按區間離散化的特征,增大劃分的區間;
3、正則化,常用的有 L1、L2 正則。而且 L1正則還可以自動進行特征選擇;
4、如果有正則項則可以考慮增大正則項參數 lambda;
5、增加訓練數據可以有限的避免過擬合;
6、Bagging ,將多個弱學習器Bagging 一下效果會好很多,比如隨機森林等.
(3)DNN中常見的方法:
1、早停策略。本質上是交叉驗證策略,選擇合適的訓練次數,避免訓練的網絡過度擬合訓練數據。
2、集成學習策略。而DNN可以用Bagging的思路來正則化。首先我們要對原始的m個訓練樣本進行有放回隨機采樣,構建N組m個樣本的數據集,然后分別用這N組數據集去訓練我們的DNN。即采用我們的前向傳播算法和反向傳播算法得到N個DNN模型的W,b參數組合,最后對N個DNN模型的輸出用加權平均法或者投票法決定最終輸出。不過用集成學習Bagging的方法有一個問題,就是我們的DNN模型本來就比較復雜,參數很多。現在又變成了N個DNN模型,這樣參數又增加了N倍,從而導致訓練這樣的網絡要花更加多的時間和空間。因此一般N的個數不能太多,比如5-10個就可以了。
3、DropOut策略。所謂的Dropout指的是在用前向傳播算法和反向傳播算法訓練DNN模型時,一批數據迭代時,隨機的從全連接DNN網絡中去掉一部分隱藏層的神經元。 在對訓練集中的一批數據進行訓練時,我們隨機去掉一部分隱藏層的神經元,并用去掉隱藏層的神經元的網絡來擬合我們的一批訓練數據。使用基于dropout的正則化比基于bagging的正則化簡單,這顯而易見,當然天下沒有免費的午餐,由于dropout會將原始數據分批迭代,因此原始數據集最好較大,否則模型可能會欠擬合。
三、L1和L2正則化方法
在這些方法中,重點講解一下L1和L2正則化方法。L1正則化和L2正則化原理類似,二者的作用卻有所不同。
(1) L1正則項會產生稀疏解。
(2) L2正則項會產生比較小的解。
在的-中,僅實現了L2正則項。而在Keras中,則包含了L1和L2的正則項。
假如我們的每個樣本的損失函數是均方差損失函數,則所有的m個樣本的損失函數為:
而DNN的L2正則化通常的做法是只針對與線性系數矩陣W,而不針對偏倚系數b。利用我們之前的機器學習的知識,我們很容易可以寫出DNN的L2正則化的損失函數。
如果使用上式的損失函數,進行反向傳播算法時,流程和沒有正則化的反向傳播算法完全一樣,區別僅僅在于進行梯度下降法時,W的更新公式。回想我們在深度神經網絡(DNN)反向傳播算法(BP)中,W的梯度下降更新公式為:
則加入L2正則化以后,迭代更新公式變成:
注意到上式中的梯度計算中m我忽略了,因為α是常數,而除以m也是常數,所以等同于用了新常數α來代替αm。進而簡化表達式,但是不影響損失算法。類似的L2正則化方法可以用于交叉熵損失函數或者其他的DNN損失函數,這里就不累述了。
對于L1正則項,不同之處僅在于迭代更新公式中的后一項。將其改為1范數的導數即可。而一范數的導數即sign(x),即將后一項改為sign(W)即可。
四、過擬合概念
在進行數據挖掘或者機器學習模型建立的時候,因為在統計學習中,假設數據滿足獨立同分布(i.i.d, and ),即當前已產生的數據可以對未來的數據進行推測與模擬,因此都是使用歷史數據建立模型,即使用已經產生的數據去訓練,然后使用該模型去擬合未來的數據。但是一般獨立同分布的假設往往不成立,即數據的分布可能會發生變化( drift),并且可能當前的數據量過少,不足以對整個數據集進行分布估計,因此往往需要防止模型過擬合,提高模型泛化能力。而為了達到該目的的最常見方法便是:正則化,即在對模型的目標函數( )或代價函數(cost )加上正則項。
在對模型進行訓練時,有可能遇到訓練數據不夠,即訓練數據無法對整個數據的分布進行估計的時候,或者在對模型進行過度訓練()時,常常會導致模型的過擬合()。如下圖所示:
通過上圖可以看出,隨著模型訓練的進行,模型的復雜度會增加,此時模型在訓練數據集上的訓練誤差會逐漸減小,但是在模型的復雜度達到一定程度時,模型在驗證集上的誤差反而隨著模型的復雜度增加而增大。此時便發生了過擬合,即模型的復雜度升高,但是該模型在除訓練集之外的數據集上卻不work。
為了防止過擬合,我們需要用到一些方法,如:early 、數據集擴增(Data )、正則化()、等。
1 Early
對模型進行訓練的過程即是對模型的參數進行學習更新的過程,這個參數學習的過程往往會用到一些迭代方法,如梯度下降( )學習算法。Early 便是一種迭代次數截斷的方法來防止過擬合的方法,即在模型對訓練數據集迭代收斂之前停止迭代來防止過擬合。
Early 方法的具體做法是,在每一個Epoch結束時(一個Epoch集為對所有的訓練數據的一輪遍歷)計算 data的,當不再提高時,就停止訓練。這種做法很符合直觀感受,因為都不再提高了,在繼續訓練也是無益的,只會提高訓練的時間。那么該做法的一個重點便是怎樣才認為 不再提高了呢?并不是說 一降下來便認為不再提高了,因為可能經過這個Epoch后,降低了,但是隨后的Epoch又讓又上去了,所以不能根據一兩次的連續降低就判斷不再提高。一般的做法是,在訓練的過程中,記錄到目前為止最好的 ,當連續10次Epoch(或者更多次)沒達到最佳時,則可以認為不再提高了。此時便可以停止迭代了(Early )。這種策略也稱為“No--in-n”,n即Epoch的次數,可以根據實際情況取,如10、20、30……
2 數據集擴增
在數據挖掘領域流行著這樣的一句話,“有時候往往擁有更多的數據勝過一個好的模型”。因為我們在使用訓練數據訓練模型,通過這個模型對將來的數據進行擬合,而在這之間又一個假設便是,訓練數據與將來的數據是獨立同分布的。即使用當前的訓練數據來對將來的數據進行估計與模擬,而更多的數據往往估計與模擬地更準確。因此,更多的數據有時候更優秀。但是往往條件有限,如人力物力財力的不足,而不能收集到更多的數據,如在進行分類的任務中,需要對數據進行打標,并且很多情況下都是人工得進行打標,因此一旦需要打標的數據量過多,就會導致效率低下以及可能出錯的情況。所以,往往在這時候,需要采取一些計算的方式與策略在已有的數據集上進行手腳,以得到更多的數據。
通俗得講,數據機擴增即需要得到更多的符合要求的數據,即和已有的數據是獨立同分布的,或者近似獨立同分布的。一般有以下方法:
3 正則化方法
正則化方法是指在進行目標函數或代價函數優化時,在目標函數或代價函數后面加上一個正則項,一般有L1正則與L2正則等。
其中C0代表原始的代價函數,n是樣本的個數,λ就是正則項系數,權衡正則項與C0項的比重。后面那一項即為L1正則項。
在計算梯度時,w的梯度變為: ?C?w=?C0?w+λnsgn(w)
其中,sgn是符號函數,那么便使用下式對參數進行更新: w:=w+α?C0?w+βλnsgn(w)
對于有些模型,如線性回歸中(L1正則線性回歸即為Lasso回歸),常數項b的更新方程不包括正則項,即: b:=b+α?C0?b
其中,梯度下降算法中,α 從上式可以看出,當w為正時,更新后w會變小;當w為負時,更新后w會變大;因此L1正則項是為了使得那些原先處于零(即|w|≈0)附近的參數w往零移動,使得部分參數為零,從而降低模型的復雜度(模型的復雜度由參數決定),從而防止過擬合,提高模型的泛化能力。
其中,L1正則中有個問題,便是L1范數在0處不可導,即|w|在0處不可導,因此在w為0時,使用原來的未經正則化的更新方程來對w進行更新,即令sgn(0)=0,這樣即: sgn(w)|w>0=1,sgn(w)|w
其中C0代表原始的代價函數,n是樣本的個數,與L1正則化項前面的參數不同的是,L2項的參數乘了12,是為了便于計算以及公式的美感性,因為平方項求導有個2,λ就是正則項系數,權衡正則項與C0項的比重。后面那一項即為L2正則項。
L2正則化中則使用下式對模型參數進行更新: w:=w+α?C0?w+βλnw
對于有些模型,如線性回歸中(L2正則線性回歸即為Ridge回歸,嶺回歸),常數項b的更新方程不包括正則項,即: b:=b+α?C0?b
其中,梯度下降算法中,α 從上式可以看出,L2正則項起到使得參數w變小加劇的效果,但是為什么可以防止過擬合呢?一個通俗的理解便是:更小的參數值w意味著模型的復雜度更低,對訓練數據的擬合剛剛好(奧卡姆剃刀),不會過分擬合訓練數據,從而使得不會過擬合,以提高模型的泛化能力。
在這里需要提到的是,在對模型參數進行更新學習的時候,有兩種更新方式,mini-batch (部分增量更新)與 full-batch(全增量更新),即在每一次更新學習的過程中(一次迭代,即一次epoch),在mini-batch中進行分批處理,先使用一部分樣本進行更新,然后再使用一部分樣本進行更新。直到所有樣本都使用了,這次epoch的損失函數值則為所有mini batch的平均損失值。設每次mini batch中樣本個數為m,那么參數的更新方程中的正則項要改成: λm∑w|w|
λ2m∑ww2
而full-batch即每一次epoch中,使用全部的訓練樣本進行更新,那么每次的損失函數值即為全部樣本的誤差之和。更新方程不變。
另外一個解釋,規則化項的引入,在訓練(最小化cost)的過程中,當某一維的特征所對應的權重過大時,而此時模型的預測和真實數據之間距離很小,通過規則化項就可以使整體的cost取較大的值,從而,在訓練的過程中避免了去選擇那些某一維(或幾維)特征的權重過大的情況,即過分依賴某一維(或幾維)的特征(引用知乎)。
L2與L1的區別在于,L1正則是拉普拉斯先驗,而L2正則是高斯先驗。它們都是服從均值為0,協方差為1λ。當λ=0時,即沒有先驗)沒有正則項,則相當于先驗分布具有無窮大的協方差,那么這個先驗約束則會非常弱,模型為了擬合所有的訓練集數據, 參數w可以變得任意大從而使得模型不穩定,即方差大而偏差小。λ越大,標明先驗分布協方差越小,偏差越大,模型越穩定。即,加入正則項是在偏差bias與方差之間做平衡(來自知乎)。下圖即為L2與L1正則的區別:
上圖中的模型是線性回歸,有兩個特征,要優化的參數分別是w1和w2,左圖的正則化是L2,右圖是L1。藍色線就是優化過程中遇到的等高線,一圈代表一個目標函數值機器學習防止過擬合,圓心就是樣本觀測值(假設一個樣本),半徑就是誤差值,受限條件就是紅色邊界(就是正則化那部分),二者相交處,才是最優參數。可見右邊的最優參數只可能在坐標軸上,所以就會出現0權重參數,使得模型稀疏。
其實拉普拉斯分布與高斯分布是數學家從實驗中誤差服從什么分布研究中得來的。一般直觀上的認識是服從應該服從均值為0的對稱分布,并且誤差大的頻率低,誤差小的頻率高,因此拉普拉斯使用拉普拉斯分布對誤差的分布進行擬合,如下圖:
而拉普拉斯在最高點,即自變量為0處不可導,因為不便于計算,于是高斯在這基礎上使用高斯分布對其進行擬合,如下圖:
4
正則是通過在代價函數后面加上正則項來防止模型過擬合的。而在神經網絡中,有一種方法是通過修改神經網絡本身結構來實現的,其名為。該方法是在對網絡進行訓練時用一種技巧(trick),對于如下所示的三層人工神經網絡:
對于上圖所示的網絡,在訓練開始時,隨機得刪除一些(可以設定為一半,也可以為1/3,1/4等)隱藏層神經元,即認為這些神經元不存在,同時保持輸入層與輸出層神經元的個數不變,這樣便得到如下的ANN:
然后按照BP學習算法對ANN中的參數進行學習更新(虛線連接的單元不更新,因為認為這些神經元被臨時刪除了)。這樣一次迭代更新便完成了。下一次迭代中,同樣隨機刪除一些神經元,與上次不一樣,做隨機選擇。這樣一直進行瑕疵,直至訓練結束。
方法是通過修改ANN中隱藏層的神經元個數來防止ANN的過擬合。