圖 1 提供了我們將在本文中討論的三種弱監督類型的示例。

圖 1:三種典型的弱監督類型的示例。長條表示特征向量;紅色/藍色標記標簽;「?」意味著標簽可能不準確。中間子圖描繪了一些混合類型弱監督的情況。

不完全監督

能夠實現此目標的主要兩類技巧,即,主動學習 [2] 和半監督學習 [3-5]。

主動學習假設存在一個「神諭」(oracle),比如一位人類專家,能夠向他查詢選定的未標注示例的真值標簽。

相比之下,半監督式學習試圖在有標注數據之外,自動開發無標注數據以提高學習效果,這個過程不需要人工干預。存在一種特殊的半監督學習,稱為直推式學習(transductive learning);直推式學習和(純)半監督學習的主要區別在于,它們對測試數據,即訓練過的模型需要進行預測的數據,假設有所不同。直推式學習持有「封閉世界」假設,即,測試數據是事先給出的、目標是優化測試數據的性能;換言之,未標注數據正是測試數據。純半監督式學習則持有「開放世界」假設,即,測試數據是未知的,未標注數據不一定是測試數據。圖 2 直觀地表示了主動學習、(純)半監督學習和直推式學習之間的差異。

圖 2:主動學習、(純)半監督學習和直推式學習

不確切監督

不確切監督關注于給定了監督信息,但信息不夠精確的場景。一個典型的場景是僅有粗粒度的標簽信息可用。例如,在藥物活性預測 [40] 的問題中,其目標是建立一個模型學習已知分子的知識,來預測一個新的分子是否適合制造一種特定藥物。一個分子可以有很多的低能量形狀,而這些分子是否能用于制藥取決于這些分子是否具有某些特殊的形狀。然而即使對于已知的分子,人類專家也僅知道該分子是否適合制藥,而不知道其中決定性的分子形狀是什么。

已經有許多有效的算法被開發出來并應用于多示例學習。實際上,幾乎所有的有監督學習算法都有對等的多示例算法。大多數算法試圖調整單示例監督學習算法,使其適配多示例表示,主要是將其關注點從對示例的識別轉移到對包的識別 [42];一些其他算法試圖通過表示變換,調整多示例表示使其適配單示例算法 [43,44]。還有一種類型 [45],將算法分為三類:一個整合了示例級響應的示例空間范式,一個把 包 視作一個整體的 包 空間范式,以及一個在嵌入特征空間中進行學習的嵌入空間范式中。請注意,這些示例通常被視為 i.i.d. 樣本,然而,[46] 表明,多示例學習中的示例不應該被認為是獨立的,盡管這些包可以被視為 i.i.d. 樣本,并且已經有一些有效的算法是基于此見解進行開發的 [47]。

多示例學習已成功應用于各種任務,如圖像分類/檢索/注釋 [48-50],文本分類 [51,52],垃圾郵件檢測 [53],醫學診斷 [54],面部/對象檢測 [55,56],對象類別發現 [57],對象跟蹤 [58] 等。在這些任務中,將真實對象(例如一幅圖像或一個文本文檔)視為一個包是很自然的。然而,不同于藥物活性預測這類包中包含天然示例(分子的各種形狀)的例子,需要為每個包生成示例。包生成器制定如何生成示例來構成包。通常情況下,可以從圖像中提取許多小的圖像塊作為其示例,而章節/段落甚至句子可以用作文本文檔的示例。盡管包生成器對學習效果有重要影響,但最近才出現關于圖像包生成器的全面研究 [59],研究揭示了一些簡單的密集取樣包生成器比一些復雜的生成器性能更好。圖 5 顯示了兩個簡單而有效的圖像包生成器。

 圖 5 圖像包生成器。假設每張圖像的大小為 8×8,每個小塊的大小為 2×2。單小塊(SB)生成器將每個由 4 個小塊組成的圖像塊視為一個示例,通過不重疊地滑動為每張圖像生成 16 個圖像示例。有鄰近的單小塊生成器(SBN)將由 20 個小塊組成的圖像塊作為一個示例,通過有重疊地滑動來為圖像生成 9 個示例。

多示例學習的初始目標是為未見過的包預測標簽;然而,已有研究嘗試識別那些之所以讓正包變正的關鍵示例(key instance)[31,60]。這在諸如沒有細粒度標記訓練數據的感興趣區域定位的任務中特別有用。值得注意的是,標準的多示例學習 [40] 假定每一個正包必須包含一個關鍵示例,而還有其它研究假定不存在關鍵示例,每一個示例都對包標簽有貢獻 [61,62];甚至假定存在多個概念,而僅當一個包包含滿足所有概念的示例時,該包才是正的 [63]??梢栽谖墨I [41] 中找到更多的變體。

早期的理論結果 [64-66] 表明多示例學習對于包中每個示例都由不同的規則分類的異質(heterogeneous)案例來說,是很難的,對于以相同的規則分類所有示例的同質性(homogeneous)案例就是可學習的。幸運的是,幾乎所有的實際多示例任務都屬于同質性案例。這些分析假定 bag 中的示例是獨立的。而不假定示例的獨立性的分析更具挑戰性,這類研究也出現得較晚,其揭示了在同質性類中,至少存在某些可以用包間的任意分布來學習的案例 [67]。盡管如此,與其在算法和應用上的繁榮發展相反,多示例學習的理論研究成果非常少,因為分析的難度太大。

某些在包中任意分布的示例是可學習的 [67]。盡管如此,與在算法和應用上的繁榮發展相反,多示例學習的理論研究成果非常少,因為分析的難度太大。

不準確監督

不準確監督關注于監督信息不總是真值的場景,也就是說,有部分信息會出現錯誤。其形式基本和引言最后部分的表示相同,除了訓練數據集中的 y_i 可能是不準確的。

一個典型的場景是在有標簽噪聲的情況下進行學習 [68]。目前已有很多理論研究 [69-71],其中大多數假定存在隨機的分類噪聲,即標簽受隨機噪聲影響。在實踐中,基本的思想是識別潛在的誤分類樣本 [72],然后嘗試進行修正。例如,數據編輯(data-editing)方法 [73] 構建了相對鄰域圖(relative neighborhood graph),其中每一個節點對應一個訓練樣本,而連接兩個不同標簽的節點的邊被稱為切邊(cut edge)。然后,測量 一個切邊的權重統計量,直覺上,如果一個示例連接了太多的切邊,則該示例是可疑的??梢傻氖纠幢粍h除,要么被重新標記,如圖 6 所示。值得注意的是,這種方法通常依賴于咨詢鄰域信息;由于當數據很稀疏時,鄰域識別將變得更不可靠,因此,在高維特征空間中該方法的可靠性將變弱。

圖 6:識別和刪除/重標記可疑的數據點

近期出現的有趣的不準確監督的場景是眾包模式 [74],這是一種流行的將工作外包給個人的范式。對于機器學習來說,用眾包模式為訓練數據收集標簽是一種經濟的方式。具體來說,未標記的數據被外包給大量的工人來標記。在著名的眾包系統 Amazon Mechanical Turk 上,用戶可以提交一項任務,例如將圖片標注為「樹」或「非樹」,然后職工完成工作以獲取少量報酬。通常這些工人來自世界各地,每個人都可以執行多個任務。這些職工通?;ハ嗒毩?,報酬不高,并通過自己的判斷標記數據。這些職工的標記質量參差不齊,但標記質量信息對于用戶來說是不可見的,因為工人的身份是保密的。在這些職工中可能存在「垃圾制造者」,幾乎用隨機的標簽來標記數據(例如,用機器替代人類賺取報酬),或「反抗者」,故意給出錯誤的標簽。此外,某些任務可能對一些人來說太難而無法完成。使用眾包返回的不準確監督信息來保證學習性能是非常困難的。

很多研究嘗試用眾包標簽推斷真值標簽。多數人投票策略得到了集成方法 [35] 的理論支持,在實踐中得到了廣泛使用并有很好的表現 [75,76],因此通常作為基線標準。如果預期可以對工人質量和任務難度建模,那么通過為不同的工人在不同的任務上設置權重,則可以獲得更好的效果。為此,一些方法嘗試構建概率模型然后使用 EM 算法進行評估 [77,78]。人們也使用了極小極大熵方法 [35]。概率模型可以用于移除垃圾制造者 [79]。近期人們給出了移除低質量工人的一般理論條件 [80]。

機器學習中,眾包通常用于收集標簽,在實踐中,模型的最終性能,而不是這些標簽的質量,才是更重要的。目前已有很多關于從低能老師和眾包標簽學習的研究 [81,82],這和用帶噪聲標簽學習是很接近的。但其中的區別在于,對于眾包設定而言,人們可以方便地、重復地對某個示例提取眾包標簽。因此,在眾包數據學習中,考慮經濟性和最小化眾包標簽的充分數量是很重要的,即有效眾包學習的最小代價 [83]。很多研究專注于任務分配和預算分配,嘗試在準確率和標注開銷之間取得平衡。為此,非適應性的任務分配機制(離線分配任務 [84,85])和適應性機制(在線分配任務 [86,87])都得到了在理論支持下的研究。需要注意的是,多數研究采用了 Dawid–Skene 模型 [88],其假設不同任務的潛在成本是相同的,而沒有探索更復雜的成本設置。

設計一個有效的眾包協議也是很重要的。在文獻 [89] 中提供了「不確定」選項,從而使工人在不確定的時候不被迫使給出確定的標簽。該選項可以幫助標記的可靠性獲得有理論支持 [90] 的提升。在文獻 [91] 中提出了一種「double or nothing」的激勵兼容機制,以確保工人能提供基于其自己的信心的標注,誠實地工作。在假定每位工人都希望最大化他們的報酬的前提下,該協議被證實可以避免垃圾制造者的出現。

結論

監督學習技術在具備強監督信息(如大量具備真值標簽的訓練樣本)的情況中取得了很大成功。然而,在實際任務中,收集監督信息需要大量成本,因此,使用弱監督學習通常是更好的方式。

本文主要介紹三種典型的弱監督:不完全、不確切和不準確監督。盡管三者可以分開討論,但是實踐中它們通常同時出現,如圖 1 所示,以往研究中也討論過此類「混合」案例 [52,92,93]。此外,還存在其他類型的弱監督。例如,主要通過強化學習方法解決 [94] 的延時監督也屬于弱監督。由于篇幅限制,本文實際上扮演了更多文獻索引而非文獻綜述的角色。對細節感興趣的讀者請閱讀對應參考文獻。近期越來越多的研究者關注弱監督學習,如部分監督學習主要關注不完全監督學習 [95],同時也有很多關于弱監督的其他討論 [96,97]。

為了簡化討論,本文主要關注二分類,盡管大部分討論經過稍微改動就可以擴展到多類別或回歸學習。注意,多類別任務中可能會出現更復雜的情景 [98]。如果考慮到多標簽學習 [99],即每個樣本同時關聯到多個標簽的任務,則情況更加復雜。以不完全監督為例,除了標注/非標注示例以外,多標簽任務可能遇到部分標注示例,即訓練示例中,只有部分標簽是真值 [100]。即使只考慮標注/未標注數據,其設計選項也比單標簽設置多。如對于積極學習而言,給出一個非標注示例,在多標簽任務中可以要求給出該示例的所有標簽 [101]、特定標簽 [102],或一對標簽的相關性排序 [103]。然而,不管是哪種數據和任務,弱監督學習都變得越來越重要。

原文出至:《國家科學評論》(National Science Review, NSR),原標題為「A brief introduction to weakly supervised learning」?!秶铱茖W評論》是科學出版社旗下期刊,與牛津大學出版社聯合出版。

文章轉自微信公眾號@算法進階

上一篇:

因果機器學習的前沿進展綜述

下一篇:

機器學習模型可解釋性的綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費