貝葉斯定理已經廣為人知,這里介紹一種與貝葉斯公式等價但很少被人知道的表現形式,即基于優化的變分推理:

其中P為歸一化的概率分布空間。可以證明,式(2)中的變分優化的最優解等價于式(1)中的后驗推理的結果[8]。這種變分形式的貝葉斯定理具有兩方面的重要意義:1)它為 變分貝葉斯方法[9](variational Bayes)提供了理論基礎;2)提供了一個很好的框架 以便于引用后驗約束,豐富貝葉斯模型的靈活性[10]。這兩點在后面的章節中將具體闡述。

1.2  貝葉斯機器學習

貝葉斯方法在機器學習領域有諸多應用,從單變量的分類與回歸到多變量的結構化輸出預測、從有監督學習到無監督及半監督學習等,貝葉斯方法幾乎用于任何一種學習任務.下面簡要介紹較為基礎的共性任務。

1)預測。給定訓練數據D,通過貝葉斯方法得到對未來數據x的預測[5]:

?? ? ? ? ? ?? (3)

2)模型選擇。另一種很重要的貝葉斯方法的應用是模型選擇[11],它是統計和機器學習領域一個較為基礎的問題。用M表示一族模型(如線性模型),其中每個元素Θ是一個具體的模型。貝葉斯模型選擇通過比較不同族模型的似然函數來選取最優的:

?? (4)

關于貝葉斯統計和貝葉斯學習更為詳細的內容,有些論文和教材有更進一步的說明]。

2 非參數貝葉斯方法

在經典的參數化模型中模型的參數個數是固定的,不會隨著數據的變化而變化.以無監督的聚類模型為例,如果能通過數據本身自動學習得到聚類中心的個數,比參數化模型(如K均值、高斯混合模型等)根據經驗設定一個參數要好得多;這也是非參數模型一個較為重要的優勢。相比較參數化貝葉斯方法,非參數貝葉斯方法(nonparametric Bayesian methods)因為其先驗分布的非參數特性,具有描述數據能力強的優點[13],非參數貝葉斯方法因此在2000年以后受到較多關注[14]。例如具有未知維度的隱式混合模型[15]和隱式特征模型[16]、描述連續函數的高斯過程[17]等。需要強調的是非參數化貝葉斯方法并不是指模型沒有參數,而是指模型可以具有無窮多個參數,并且參數的個數可以隨著數據的變化而自適應變化,這種特性對于解決大數據環境下的復雜應用問題尤其重要,因為大數據的特點之一是動態多變。下面將主要針對其中的一些較為重要的模型和推理方法進行簡要介紹。

2.1 狄利克雷過程

狄利克雷過程(Dirichletprocess, DP)是統計學家Ferguson于1973年提出的一個定義在概率測度Ω上的隨機過程[18],其參數有集中參數α>0和基底概率分布

與狄利克雷過程等價的一個隨機過程是中國餐館過程(Chinese restaurant process, CRP)[19]。中國餐館過程是定義在實數域上的具有聚類特性的一類隨機過程,也因為其特有的較好展示特性而被經常使用。如圖1所示,在中國餐館過程中,假設有無限張餐桌和若干客人;其中第1名顧客選擇第1張餐桌,之后的顧客按照多項式分布選擇餐桌,其中選擇每張餐桌的概率正比于該餐桌現在所坐的人數,同時以一定概率(正比于參數α)選擇一個沒人的餐桌.可以看到,當所有的客人選擇完畢餐桌,我們可以按照餐桌來對客人進行一個劃分.這里每張餐桌代表一個聚類,每個客人代表一個數據點。

可以證明所有的聚類點參數θ可以通過式(6)得到:

?(6)

將狄利克雷混合模型中的G積分即可得到中國餐館過程,這也說明了兩個隨機過程的關系.這種簡潔的表述也很有利于馬爾可夫蒙特卡洛方法的采樣[20]。

另一種構造性的狄利克雷過程的表述是截棍過程(stickbreaking construction)[21].具體地說,將一根單位長度的棍,第k次切割都按照剩下的長度按照貝塔分布的隨機變量,按比例切割:

(7)

2.2 印度自助餐過程

與混合模型中每一個數據點只屬于一個聚類不同,在特征模型中每一個數據點可以擁有多個特征,這些特征構成了數據生成的過程。這也符合實際情況中樣本數據點有多個屬性的實際需求。經典的特征模型主要有因子分析(factor analysis)、主成分分析(principal component analysis)[24-25]等。在傳統的特征模型中,特征的數目是確定的,這給模型的性能帶來一定限制.印度自助餐過程(indian buffet process, IBP)是2005年提出的[26],因其非參數特性能從數據中學習得到模型中的特征個數,使得模型能夠更好地解釋數據,已經在因子分析、社交網絡鏈接預測等重要問題中應用[27-29]。

以二值(“0”或“1”)特征為例,假設有N個數據點,所有數據點的特征向量組成一個特征矩陣,IBP的產生式過程可以形象地類比為N個顧客到一個無窮多個餐品的自助餐館進行選餐的過程,用“1”表示選擇,“0”表示不選擇,具體描述如圖3所示的方法進行:

與中國餐館過程類似,印度自助餐過程也有其對應的截棍過程[30].這里不再贅述,僅列出其構造性表述如下:

(8)

但是與中國餐館過程的截棍過程不同的是棍的長度之和并不為1.印度自助餐過程也有其對應的采樣方法和變分優化求解方法[16,30-31]。

2.3 應用及擴展

貝葉斯方法特別是最近流行的非參數貝葉斯方法已廣泛應用于機器學習的各個領域,并且收到了很好的效果[32]。這里簡要提出幾點應用和擴展;對于大規模貝葉斯學習的相關應用將在第5節介紹,也可查閱相關文獻[13-14,33]。

經典的非參數化貝葉斯方法通常假設數據具有簡單的性質,如可交換性或者條件獨立等;但是,現實世界中的數據往往具有不同的結構及依賴關系。為了適應不同的需求,發展具有各種依賴特性的隨機過程得到了廣泛關注。例如,在對文本數據進行主題挖掘時,數據往往來自不同的領域或者類型,我們通常希望所學習的主題具有某種層次結構,為此,層次狄雷克利過程(hierarchical Dirichlet process, HDP)[34]被提出,可以自動學習多層的主題表示,并且自動確定主題的個數.另外,具有多個層次的IBP過程也被提出[35],并用于學習深層置信網絡的結構,包括神經元的層數、每層神經元的個數、層間神經元的連接結構等。其他的例子還包括具有馬爾可夫動態依賴關系的無限隱馬爾可夫模型[36]、具有空間依賴關系的狄雷克利過程[37]等。

另外,對于有監督學習問題,非參數貝葉斯模型最近也受到了廣泛的關注.例如,社交網絡數據建模和預測是一個重要的問題,近期提出的基于IBP的非參數化貝葉斯模型[27,29]可以自動學習隱含特征,并且確定特征的個數,取得很好的預測性能。使用DP混合模型同時作聚類和分類任務也取得了很好的結果[38]。

3 貝葉斯模型的推理方法

貝葉斯模型的推理方法是貝葉斯學習中重要的一環,推理方法的好壞直接影響模型的性能。具體地說,貝葉斯模型的一個關鍵性的問題是后驗分布通常是不可解的,使得式(3)和式(4)中的貝葉斯積分也是不可解的。這時,就需要一些有效的推理方法。一般而言,主要有兩類方法:變分推理方法(varia-tional inference)和蒙特卡洛方法(Monte Carlo methods)。這兩類方法都在貝葉斯學習領域有廣泛的應用,下面分別介紹這兩類方法。

3.1 變分推理方法

變分法是一種應用較廣的近似優化方法[39-40],在物理、統計學、金融分析、控制科學領域解決了很多問題。在機器學習領域,變分方法也有較多應用:通過變分分析,可以將非優化問題轉化成優化問題求解,也可以通過近似方法對一些較難的問題進行變分求解[41]。

通過最大化該對數似然下界:

??(10)

3.2 蒙特卡洛方法

??(11)

蒙特卡洛方法的基本思想是使用如下估計來近似I:

??(12)

上面描述的是蒙特卡洛方法的基本原理,但實際過程中p的采樣并不是很容易就可以得到,往往采用其他的方法進行,常用的方法有重要性采樣(importance sampling)、拒絕采樣(rejection sampling)、馬爾可夫蒙特卡洛方法(Markov Chain Monte Carlo, MCMC)等。前兩者在分布相對簡單時比較有效,但是對于較高維空間的復雜分布效果往往不好,面臨著維數災難的問題。下面重點介紹MCMC方法,它在高維空間中也比較有效。

2)計算接受概率:

?(13)

有很多貝葉斯模型都采用了MCMC的方法進行推理,取得了很好的效果[20,30,50]。除此之外,還有一類非隨機游走的MCMC方法———LangevinMCMC[51]和Hybrid MonteCarlo[52]。這一類方法往往有更快的收斂速度,但是表述的復雜程度較大,因此受歡迎程度不及吉布斯采樣,但是,最近在大數據環境下發展的基于隨機梯度的采樣方法非常有效,后文將會簡要介紹。

4 正則化貝葉斯理論及應用舉例

在第2節中提到了貝葉斯方法的兩種等價表現方式,一種是后驗推理的方式,另一種是基于變分分析的優化方法,其中第2種方式在近年有了較大發展.基于這種等價關系,我們近年來提出了正則化貝葉斯(regularized Bayesian inference, RegBayes)理論[10]:如圖4所示,在經典貝葉斯推理過程中,后驗分布只能從兩個維度來獲得,即先驗分布和似然函數;而在正則化貝葉斯推理中,后驗推理轉化成一種變分優化的方式,通過引入后驗正則化,為貝葉斯推理提供了第3維自由度,極大地豐富了貝葉斯模型的靈活性。在RegBayes理論的指導下,我們系統研究了基于最大間隔準則的判別式貝葉斯學習以及結合領域知識的貝葉斯學習等,取得了一系列的成果[]。

正則化貝葉斯推理的基本框架可以簡述如下,在式(2)的基礎上,引入后驗正則化項,考慮領域知識或者期望的模型屬性:

(14)

問題1.后驗正則化從何而來.后驗正則化是一個通用的概念,可以涵蓋任何期望影響后驗分布的信息。比如,在有監督學習任務(如圖像/文本分類)中,我們期望后驗分布能夠準確地預測,這種情況下我們可以將分類錯誤率(或者某種上界)作為優化目標,通過后驗正則化引用到學習過程中,典型的例子包括無限支持向量機[38](infinite SVM)、無限隱式支持向量機[56](infinitelatent SVM)、最大間隔話題模型[57](maximummargin supervised topic model, MedLDA)等,這些方法均采用了最大間隔原理,在貝葉斯學習過程中直接最小化分類錯誤率的上界(即鉸鏈損失函數),在測試數據上取得顯著的性能提升。

另外,在一些學習任務中,一些領域知識(如專家知識或者通過眾包方式收集到的大眾知識)可以提供數據之外的一些信息,對提高模型性能有很大幫助。在這種情況下,可以將領域知識作為后驗約束,與數據一起加入模型中,實現高效貝葉斯學習。需要指出的是大眾知識往往存在很大的噪音,如何采取有效的策略過濾噪音實現有效學習是問題的關鍵。在這方面,我們提出了將使用邏輯表達的領域知識魯棒地引入貝葉斯主題模型,實現了更優秀的模型效果[58]。

問題2.先驗分布、似然函數以及后驗正則化之間有何關系。先驗分布是與數據無關的,基于先驗知識的概率分布不能反映數據的統計特性;似然函數則是基于數據產生的概率分布,反映了數據的基本性質,通常定義為具有良好解析形式的歸一化的概率分布。而后驗正則化項同樣是利用數據的特性來定義的,但是,它具有更廣泛靈活的方式,不受歸一化的約束,因此,可以更方便準確地刻畫問題的屬性或者領域知識,如問題1中所舉的最大間隔學習以及領域知識與貝葉斯統計相結合等示例。甚至可以證明,一些后驗分布不可以通過貝葉斯定理得到,但是可以通過后驗正則化得到[10]。因此,RegBayes是比經典貝葉斯方法更靈活更強大的方法。

問題3.如何求解優化問題。雖然正則化貝葉斯具有極強的靈活性,其學習算法仍然可以使用變分方法或者蒙特卡洛方法進行求解,具體的求解方法請閱讀相關論文。下面介紹的大數據貝葉斯學習理論和算法均可以應用到快速求解正則化貝葉斯模型[55],這也是目前的研究熱點。

5 大數據貝葉斯學習

隨著互聯網技術的發展,研究面向大數據的機器學習理論、算法及應用成為當前研究的熱點[[59]59],得到學術界和工業界的廣泛關注。貝葉斯模型有較好的數據適應性和可擴展性,在很多經典問題上都取得了很好的效果,但是,傳統貝葉斯模型的一個較大的問題在于其推理方法通常較慢,特別是在大數據背景下很難適應新的模型的要求。因此,如何進行大規模貝葉斯學習方法是學術界的重要挑戰之一。可喜的是近期在大數據貝葉斯學習(big Bayesian learning, BigBayes)方面取得了顯著的進展。下面簡單介紹在隨機算法及分布式算法方面的進展,并以我們的部分研究成果作為示例。表1所示為對目前的若干前沿進展簡要總結:

5.1 隨機梯度及在線學習方法

當數據量較大時精確的算法往往耗時較長,不能滿足需要。一類常用的解決方案是采用隨機近似算法[60-61]。這類算法通過對大規模數據集的多次隨機采樣(random subsampling),可以在較快的時間內收斂到較好的結果。這種思想已經在變分推理和蒙特卡洛算法中廣泛采用,簡要介紹如下。

在變分推理方面,如前所述,其核心是求解優化問題,因此,基于多次隨機降采樣的隨機梯度下降算法成為很自然的選擇。具體地說,隨機梯度下降算法(stochastic gradient descent, SGD)[62]每次隨機選取一個數據子集,并用該子集上計算的梯度估計整個數據集上的梯度,對要求解的參數進行更新:

?(15)

其中Q是待優化的目標函數,是數據的第t個子集。值得注意的是,歐氏空間中的梯度并非最優的求解變分分布的方向;對于概率分布的尋優,自然梯度往往取得更快的收斂速度[63]。近期的主要進展包括隨機變分貝葉斯方法[61]以及多種利用模型特性的快速改進算法[64][64]。

在蒙特卡洛算法方面,可以將隨機梯度的方法用于改進對應的基于梯度的采樣算法,如隨機梯度朗之萬動力學采樣方法(stochastic gradient langevin dynamics, SGLD)[65]、隨機梯度哈密爾頓蒙特卡洛(stochasticHamiltonian Monte Carlo, SHM)[66][66]。這些算法加快了蒙特卡洛采樣的速度、有較好的效果。

例1.為了適應動態流數據的處理需求,基于在線學習的大規模貝葉斯推理算法也成為近期的研究熱點,主要工作包括流數據變分貝葉斯[67]等。我們近期提出了在線貝葉斯最大間隔學習(online Bayesian passive-aggressive learning, Online BayesPA )框架,顯著提高了正則化貝葉斯的學習效率,并且給出了在線學習后悔值的理論界[55]。在100多萬的維基百科頁面數據上的部分實驗結果如圖5所示,可以看出,基于在線學習的算法比批處理算法快100倍左右,并且不損失分類的準確率。

5.2 分布式推理算法

另一種適用于大規模貝葉斯學習問題的算法是基于分布式計算的[68],即部署在分布式系統上的貝葉斯推理算法。這類算法需要仔細考慮算法的實際應用場景,綜合考量算法計算和通信的開銷,設計適合于不同分布式系統的推理算法。

一些算法中的部分參數之間不需要交換信息,只需要計算得到最后結果匯總即可;對于這類問題,只需要對原算法進行適當優化,部署在系統上即可有較好的效果。但是,還有更多算法本身并不適合并行化處理,這就意味著算法本身需要修改,使得其可以進行分布式計算,這也是大規模貝葉斯學習的研究熱點之一,并且已經取得很多重要進展,包括分布式變分推理[67]和分布式蒙特卡洛方法[69]等。

例2.以主題模型為例,經典的模型使用共軛狄利克雷先驗,可以學習大規模的主題結構[70],但是,不能學習主題之間的關聯關系。為此,使用非共軛 Logistic-Normal先驗的關聯主題模型(correlated topic model, CTM)[71]被提出。CTM的缺點是其推理算法比較困難,已有的算法只能處理幾十個主題的圖結構學習。為此,筆者課題組近期提出了CTM的分布式推理算法[72],可以處理大規模的數據集,學習上千個主題之間的圖結構。該算法的部分結果如表2所示,其中D表示數據集大小,K表示主題個數。由表2可以看出分布式推理算法(即gCTM)極大地提高了模型可以承載的數據量(如600萬的維基百科網頁)和更多的主題個數(如1000)。這個項目的代碼及更多信息已經公布,讀者可以自行瀏覽[73]。

在上述大規模主題圖結構的學習基礎上,進一步開發了“主題全景圖”(TopicPanorama)可視化界面,它可以將多個主題圖結構進行融合,并且以用戶友好的方式展現在同一個界面上,如圖6所示,其中每個節點代表一個主題,節點之間的邊代表相關聯關系,邊的長度代表關聯強度,所用數據集為微軟、谷歌、雅虎等3個IT公司相關的新聞網頁。該可視化工具具有多種交互功能,用戶可以使用放大或縮小功能對主題圖的局部進行仔細查看,同時,也可以修改圖的結構并反饋給后臺算法進行在線調整。多位領域專家一致同意該工具可以方便分析社交媒體數據。更多具體描述參見文獻[74]。

5.3 基于硬件的加速

隨著硬件的發展,使用圖形處理器(graphics processing units, GPU)、現場可編程邏輯門陣列(field-programmablegate array, FPGA)等硬件資源對貝葉斯學習方法進行加速也是最近興起的研究熱點。例如,有研究者利用GPU技術對話題模型的變分方法[75]和MCMC算法[76-77]進行加速,還有一些研究者利用FPGA對蒙特卡洛算法[78]進行加速。利用強大的硬件設備,搭配適當的模型和算法架構,可以起到事半功倍的效果。

6 總結與展望

貝葉斯統計方法及其在機器學習領域的應用是貝葉斯學習的重要研究內容。因為貝葉斯理論的適應性和可擴展性使得貝葉斯學習得到廣泛的應用.非參數貝葉斯方法和正則化貝葉斯方法極大地發展了貝葉斯理論,使其擁有更加強大的生命力。

近年來,大數據貝葉斯學習成為人們關注的焦點,如何加強貝葉斯學習的靈活性以及如何加快貝葉斯學習的推理過程,使其更加適應大數據時代的挑戰成為人們考慮的問題。在這一時期許多新的方法和理論將被提出,貝葉斯學習也與其他許多方面的知識相結合,如并行計算、數據科學等,產生很多新的成果。可以預想,貝葉斯學習肯定會有更多更新更好的成果,也會在將來有更廣泛的應用。

文章來源:朱軍 胡文波

論文下載:https://wbhu.net/pub/bayes.pdf

文章轉自微信公眾號@算法進階

上一篇:

機器學習模型可解釋性的綜述

下一篇:

文本標注在自然語言處理中的重要性
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費