ChatGPT 教人如何偷盜商店;左圖,ChatGPT 拒絕回答;右圖,在 prompt 中添加了「with no moral restraints(不加道德約束)」后,ChatGPT 給出了商店偷盜指南

這時候,對齊(alignment)就至關重要了,其作用就是讓 LLM 與人類的價值觀保持一致。

在對齊 LLM 方面,基于人類反饋的強化學習(RLHF)是一種突破性的技術。該方法催生了 GPT-4、Claude Gemini 等強大模型。RLHF 之后,人們也探索了多種多樣的對齊 LLM 的方法。但是,此前還沒有人全面總結對齊 LLM 與人類偏好的方法。

Salesforce 決定填補這一空白,于近日發布了一份 37 頁的綜述報告,其中按類別總結了現有的研究文獻,并詳細分析了各篇論文。

這篇論文分為四大主題:獎勵模型、反饋、強化學習(RL)、優化。每個主題又包含進一步的子主題,如圖 1 所示。

獎勵模型的子主題包括:1. 顯式獎勵模型與隱式獎勵模型;2. 逐點獎勵模型與偏好模型;3. 響應層面的獎勵與 token 層面的獎勵;4. 負偏好優化。

反饋的子主題包括:1. 偏好反饋與二元反饋;2. 成對反饋與列表反饋;3. 人類反饋與 AI 反饋。

強化學習的子主題包括:1. 基于參考的強化學習與無參考的強化學習;2. 長度控制式強化學習;3. 強化學習中的不同分支;4. 在線策略強化學習與離線策略強化學習。

優化的子主題包括:1. 在線 / 迭代式偏好優化與離線 / 非迭代式偏好優化;2. 分離 SFT 和對齊與合并 SFT 和對齊。

表 1 列出了這篇綜述報告中分析的所有論文在這 13 個評估指標上的劃分情況。

研究論文

這一節將詳細介紹各篇論文,讓讀者無需閱讀原論文也能了解這些重要創新。機器之心將簡單梳理各個研究方向并列出代表性論文。

1. RLHF/PPO

LLM 的預訓練要用到大量來自不同來源的語料庫,而這本身就無法確保這些數據集的質量。此外,LLM 的主要目標是預測下一個 token,這個目標與「有用且安全地遵從用戶指令」的目標并不一致。因此,LLM 可能會輸出不真實、有害或對用戶無用的內容。本質上講,這些模型并未與用戶意圖對齊。RLHF/PPO 的主要目標是在各種任務上對齊語言模型與用戶意圖,其做法是使用人類反饋來微調模型。有關這個主題的研究有很多。

InstructGPT

InstructGPT 來自 OpenAI,這是訓練 ChatGPT 和 GPT-4 等模型的基礎,參閱《GPT-4 技術報告》。

通過納入人類偏好,評估 LLM 生成的響應的難題得到了解決。BLEU、ROUGE 和 BERTScore 等用于評估 LLM 的傳統評估指標無法保證與人類偏好的一致性。為了解決這個問題,研究者直接將人類偏好整合進了 LLM 以增強其性能。這個過程通常涉及兩個主要步驟:獎勵模型學習和強化學習策略訓練。

在獎勵模型學習階段,會使用 prompt 和配對的響應訓練一個顯式的逐點獎勵函數。

之后,開始強化學習策略訓練階段;在這個階段,LLM 和預訓練獎勵模型分別作為一個強化學習框架中的智能體和環境。

為了訓練 InstructGPT,要用到三個數據集:1.SFT 數據集:包含用于訓練 SFT 模型的標注者演示。2.RM(獎勵模型)數據集:由人類標注者對模型輸出的排名構成,用于訓練獎勵模型。3.PPO 數據集:由用作 RLHF 微調輸入的 prompt 構成。

訓練后的 InstructGPT 會在三個方面得到評估:有用性、可信度、有害性。

從結果上看,人類評估表明「相比于 175B 的 GPT-3,人們 更偏好 1.3B 參數版本的 InstructGPT 模型的輸出,盡管后者的參數量少 100 多倍。」值得注意的是,InstructGPT 在有用性和毒性任務上的表現均優于 GPT-3,這于對齊而言至關重要。

Anthropic 的 RLHF

Anthropic 也研究過同一主題,論文為《Training a helpful and harmless assistant with reinforcement learning from human feedback》。

OpenAI 發現 RLHF 有助于對齊,但也可能導致模型在某些 NLP 基準上的性能下降,這個現象被稱為「對齊稅(alignment tax)」。其開發的 InstructGPT 模型有 1.3B 參數。相反,Anthropic 的研究者評估了大小在 13M 到 52B 之間的 7 種不同模型,這些模型的大小按 4 倍的幾何級數增長。

他們得出結論說,對較小的模型來說,對齊會產生「稅」,但對較大模型來說,對齊只有好處,尤其是參數量在 13B 到 52B 之間的模型。

考慮到對齊的這種優勢,他們還實驗了用編程技術數據集來提升 LLM 的能力。OpenAI 的 RLHF 方法包含 PPO 和 PPO-ptx,其中 PPO-ptx 的設計目標就是為了降低在 NLP 基準上的對齊稅。而 Anthropic 的 RLHF 研究發現,只要模型夠大,PPO 本身就能在 NLP 下游任務上帶來對齊的好處。他們還確定了強化學習策略訓練中 KL 散度的最優參數為 β = 0.001。

在線 / 迭代式 RLHF

傳統上,對齊 LLM 的 RLHF 技術都是離線方法。但這類方法有些缺點,比如所得結果難以應對分布外數據。

為此,需要對 LLM 進行持續的微調,進行迭代式 / 在線學習,即使用中間策略為 prompt 生成響應,再使用預言機(oracle)為這樣的成對數據給出偏好反饋,再將這些反饋饋送給策略。在實踐中,迭代式學習分為兩個部分:偏好預言機學習和迭代式策略優化。參閱論文《RLHF workflow: From reward modeling to online RLHF》。

2. RLAIF

獲取人類偏好數據集的成本不低,因此基于人工智能反饋的強化學習(RLAIF)誕生了。此外,隨著 LLM 的能力不斷進步,所能收集到的 AI 偏好數據集的質量也不斷提高,由此可提升 LLM 的對齊效果。

Anthropic 的 RLAIF

Anthropic 基于 RLHF 的基礎研究工作,提出了一種名為 RLAIF 的全新方法。參閱論文《Constitutional ai: Harmlessness from ai feedback》。

該方法主要包含兩個階段:1. 通過 Critiques(批評)和 Revisions(修訂)進行監督學習,這由一個章程引導。2. RLAIF。

谷歌的 RLAIF

基于 Anthropic 的 RLAIF 研究成果,谷歌一個研究團隊認為之前的研究無法直接比較人類反饋與 AI 反饋的效果,值得進一步研究。在收集 AI 反饋的過程中,要創建一個結構化的 prompt,其構成包括:導言、少樣本示例(可選)、要標注的樣本、結尾。

為了生成 AI 反饋,需要執行一個兩步式評估:首先,使用指令中的 4 個組件加上 CoT,讓 LLM 生成響應。在下一步中,這個 LLM 響應再附帶上「preferred summary=」這樣的結尾被發送回 LLM,從而生成「summary 1=0.6, summary 2=0.4」這樣的偏好概率。為了減少位置偏差,需要交替放置這兩個響應的序列,并計算其平均分數。

RLAIF 過程采用了兩個策略:1.「蒸餾 RLAIF」,其遵循傳統的 RLHF 方法,即使用偏好訓練一個獎勵模型,然后再將其用于訓練 LLM 策略;2. 「直接 RLAIF」,其直接將 LLM 反饋用作 prompt 來輸出評估分數,再將該分數用作強化學習策略訓練的信號。

最后,其評估過程會使用三個關鍵指標:1.AI – 標注者對齊度:AI 與人類標注者的一致程度。2. 勝率:人類標注者比較兩個候選項并選擇其中某一個的可能性。3. 無害率:人類評估者認為無害的響應的占比。

更多詳情請參閱論文《RLAIF: Scaling reinforcement learning from human feedback with AI feedback》。

直接人類偏好優化

傳統 RLHF 方法通常涉及到優化源自人類偏好的獎勵函數。該方法雖有效,但也可能帶來一些難題,比如增大計算復雜度以及在估計和優化獎勵時需要考慮偏置 – 方差權衡。參閱論文《High-dimensional continuous control using generalized advantage estimation》。

近期有研究探索了其它一些旨在根據人類偏好(無需依賴某個標量的獎勵信號)來直接優化 LLM 策略的方法。

這些方法的目標是通過更直接地使用偏好數據來簡化對齊流程、降低計算開銷以及實現更穩健的優化。通過將該問題描述為一個偏好優化問題,而不是獎勵估計和最大化問題,這些方法能提供一種將語言模型與人類判斷對齊的不同視角:

token 級 DPO

使用 DPO 時,獎勵會被一起分配給 prompt 和響應。相反,使用 MDP 時,獎勵會被分配給各個動作。后續的兩篇論文在 token 層面闡述了 DPO 并將其應用擴展到了 token 級的分析。

迭代式 / 在線 DPO

使用 DPO 時,會使用所有可用的偏好數據集來對齊 LLM。為了持續提升 LLM,應當實現迭代式 / 在線 DPO。這就引出了一個有趣的問題:如何高效地收集新的偏好數據集。下面兩篇論文深入探討了這一主題。

二元反饋

事實證明,收集偏好反饋比收集二元反饋(比如點贊或點踩)的難度大,因此后者可促進對齊過程的擴展。KTO 和 DRO 這兩項研究關注的便是使用二元反饋來對齊 LLM。

融合 SFT 和對齊

之前的研究主要還是按順序執行 SFT 和對齊,但事實證明這種方法很費力,并會導致災難性遺忘。后續的研究有兩個方向:一是將這兩個過程整合成單一步驟;二是并行地微調兩個模型,最終再進行融合。

長度控制式 DPO 和無參考 DPO

之前有研究表明,LLM 的輸出往往過于冗長。為了解決這個問題,R-DPO 和 SimPO 的關注重心是在不影響生成性能的前提下實現對響應長度的控制。

此外,DPO 必需參考策略來確保已對齊模型不會與參考模型有太大偏差。相較之下,SimPO 和 RLOO 提出了一些方法,可以在不影響 LLM 效果的情況下消除對參考模型的需求。

逐列表的偏好優化

之前在 PPO 和 DPO 方面的研究關注的是成對偏好,而 RLHF 方面的研究則是收集逐列表的偏好來加速數據收集過程,之后再將它們轉換成成對偏好。盡管如此,為了提升 LLM 的性能,直接使用逐列表的數據集來執行偏好優化是可行的。以下三篇論文專門討論了這種方法。

負偏好優化

這些研究有一個共同前提:當前這一代 LLM 已經在翻譯和總結等任務上超越了人類性能。因此,可以將 LLM 的輸出視為期望響應,而無需依靠將人類標注的數據視為偏好響應;這樣做是有好處的。反過來,不期望得到的響應依然也可被用于對齊 LLM,這個過程就是所謂的負偏好優化(NPO)。

納什學習

之前的研究通常是使用逐點獎勵和 BT 模型來得到成對偏好。但是,這種方法比不上直接成對偏好建模并且無法解決成對偏好中的不一致問題。為了克服這些局限,一些研究提出了納什學習方法。

不同方法的比較

一些研究則是為了比較這些不同方法。這類研究可以闡釋每種方法各自的優缺點。

論文《Insights into alignment: Evaluating dpo and its variants across multiple tasks》在推理、數學問題求解、可信度、問答和多任務理解等多種任務上全面評估了隱式獎勵模型,即無強化學習算法,包括 DPO、KTO、IPO 和 CPO。這些評估涉及三個不同場景:1) 微調監督式微調(SFT)模型、2) 微調預訓練模型、3) 微調指令模型。

該研究發現,在大多數基準上,KTO 比其它對齊方法更優。此外,研究表明,對齊并不會顯著提升模型的推理和問答性能,但確實能大幅提升模型的數學問題求解能力。該研究還注意到了數據量的重要性,對齊方法在較小的數據子集上的性能最佳。此外,研究發現 KTO 和 CPO 能有效繞過 SFT 階段,在不影響性能的前提下直接進入對齊階段。相比之下,當繞過 SFT 階段,直接進入對齊階段時,DPO 和 IPO 會表現出明顯的性能下降。

論文《Is DPO superior to PPO for LLM alignment? A comprehensive study》表明,DPO 可能存在固有局限,可能會產生有偏差的解答,并可能由于分布變化而導致性能下降,

他們發現,DPO 訓練出的策略傾向于未曾見過的響應,尤其是分布外的樣本。而迭代式 / 在線 DPO 則能緩解這個問題,其做法是廣泛探索響應空間并不斷更新參考模型。相較之下,RLHF/PPO 則是通過優勢歸一化、大批量大小以及對參考模型使用指數移動平均來解決這些挑戰。最終,這些發現表明 PPO 優于迭代式 / 在線 DPO,而這又進一步優于標準 DPO。

未來方向

通過分析過往論文,該團隊確定了一些有待進一步探索的研究問題。

用于對齊評估的一般任務

不同論文使用了不同的任務來評估這些方法的性能。但是,GSM8K 等一些任務更關注推理,可能并不適合用于評估對齊性能。相反,TruthfulQA 等任務或那些關注毒性的任務應當優先考慮,以評估已微調 LLM 的毒性。應當想辦法將這些任務組合起來,創建一個用于評估對齊的統一排行榜。

將隱式獎勵模型、逐列表偏好和納什學習用于更大規模的語言模型

目前,使用隱式獎勵模型的最大模型的參數量也不過 70B。如果能將這些方法擴展用于更大的模型,比如 GPT-4 和 Claude-3 大小的模型,那應該能幫助我們更好地理解它們與 RLHF/PPO 的相對效果。

類似地,逐列表偏好模型也值得進一步研究。使用 RLHF 時,要使用逐列表偏好收集偏好數據集,之后再將其轉換成多對成對偏好數據。大規模應用逐列表偏好模型的潛在問題依然有待解決。

最后,納什學習可以解決人類標注者之間的不一致問題。如果能將納什學習模型集成到更大規模的 LLM 中,就可以證明其捕獲人性復雜性的能力。

有關二元反饋的實驗

KTO 和 DRO 都采用了「點贊」和「點踩」這樣的二元反饋機制,而不是成對偏好。這些二元反饋來自偏好數據集,其中將期望響應標記成正例,將不期望響應標記成負例。我們還需要對現實的二元數據集進行進一步研究。此外,相比于偏好數據,二元數據集更容易收集,因此有望使用更大規模的二元反饋數據集來進行對齊。但是,二元反饋中的噪聲可能比偏好數據集中的噪聲更加明顯,因此如何有效濾除有噪聲數據也是一個非常有趣的研究方向。

實驗研究有用的 AI 反饋

目前的 AI 反饋主要包括 RLAIF 中的無害反饋和迭代式 DPO 中的反饋排名。但是,使用 RLAIF 時,有用反饋依然是由人類標注者提供。這種方法是合理的,因為生成有用響應的難度比識別有害反饋明顯大得多。一個有趣的未來研究方向是使用 LLM 來生成有用的反饋,由此讓 LLM 可以自我提升。

加速納什學習

納什學習方法可以有效建模成對偏好并解決人類標注之間的不一致問題。但是,它必需多次迭代才能收斂到最優策略。盡管其作者沒有明說對齊所需的時間,但可猜測其會比 DPO 等隱式獎勵模型慢得多。因此,提升納什學習過程的速度也是一個值得關注的研究方向。

迭代 / 在線學習的終止

在使用迭代 / 在線訓練時,確定終止迭代的時間很關鍵。之前有研究發現,迭代式學習有時會降低 LLM 在某些任務上的性能,這可能是過擬合的跡象。但是,目前還沒有研究者探索如何確定終止迭代的合理 epoch。

簡化 SFT + 對齊

當前的方法通常是以一種連續方式實現 SFT 和對齊。但是,這種方法往往會導致災難性遺忘,并讓整個訓練過程變得更加費力。PAFT 方法減輕災難性遺忘的方式是先分別微調 SFT 和對齊然后再將它們融合到一起,但這也會提升復雜性。相較之下,ORPO 技術是同時整合這兩個過程,但卻會導致性能下降。那么,該如何有效地將 SFT 和對齊組合起來實現高性能同時又維持高效率呢?這還是一個有待解決的挑戰。

文章轉自微信公眾號@數據STUDIO

熱門推薦
一個賬號試用1000+ API
助力AI無縫鏈接物理世界 · 無需多次注冊
3000+提示詞助力AI大模型
和專業工程師共享工作效率翻倍的秘密
熱門推薦
一個賬號試用1000+ API
助力AI無縫鏈接物理世界 · 無需多次注冊
返回頂部
上一篇
LLM預訓練從0到1
下一篇
零基礎入門:Ollama調用快速上手指南
国内精品久久久久影院日本,日本中文字幕视频,99久久精品99999久久,又粗又大又黄又硬又爽毛片
亚洲一区二区三区三| 欧美色成人综合| 精品夜夜嗨av一区二区三区| 一道本成人在线| 国产欧美在线观看一区| 国产美女娇喘av呻吟久久| 精品国产免费久久| 国产尤物一区二区| 国产肉丝袜一区二区| 成人午夜碰碰视频| 国产精品萝li| 在线视频一区二区免费| 亚洲一区二区三区三| 欧美日韩国产综合视频在线观看 | 亚洲男女毛片无遮挡| 91在线码无精品| 亚洲午夜av在线| 精品国产一区二区三区久久久蜜月 | 日本不卡的三区四区五区| 在线免费观看日本欧美| 丝袜美腿成人在线| 精品黑人一区二区三区久久| 懂色av中文字幕一区二区三区| 亚洲精品日韩专区silk| 日韩一区二区电影网| 成人做爰69片免费看网站| 一区二区三区日韩欧美精品| 日韩免费观看高清完整版 | 精品午夜久久福利影院| 国产精品国产三级国产普通话蜜臀| 色悠久久久久综合欧美99| 麻豆专区一区二区三区四区五区| 亚洲欧洲日韩在线| 欧美成人一区二区三区片免费| 91一区二区三区在线观看| 麻豆91在线播放| 亚洲第一激情av| 国产精品传媒入口麻豆| 精品裸体舞一区二区三区| 色综合久久久网| 国产成人福利片| 免费人成在线不卡| 一二三区精品视频| 国产网红主播福利一区二区| 欧美一二三区在线观看| 欧美日韩精品免费观看视频| 91影视在线播放| 不卡欧美aaaaa| 国产精品一区在线观看乱码| 欧美a一区二区| 日韩精品一卡二卡三卡四卡无卡| 亚洲靠逼com| 曰韩精品一区二区| 1000精品久久久久久久久| 中文一区在线播放| 国产精品成人一区二区艾草 | 欧美性一级生活| 色94色欧美sute亚洲线路二| 99这里只有精品| 91麻豆视频网站| 日本道在线观看一区二区| 91久久精品一区二区| 日本精品视频一区二区三区| 91视频免费观看| 欧洲国内综合视频| 欧美高清视频不卡网| 在线成人av影院| 精品国产乱码久久久久久牛牛| 久久亚洲精品国产精品紫薇| 久久久激情视频| 亚洲裸体xxx| 香蕉成人伊视频在线观看| 日韩影视精彩在线| 成人综合婷婷国产精品久久 | 亚洲少妇30p| 日韩激情在线观看| 久草精品在线观看| 成人av资源网站| 美女久久久精品| 国产欧美精品日韩区二区麻豆天美| 久久中文娱乐网| 亚洲免费观看高清完整| 午夜视频久久久久久| 韩国视频一区二区| 色综合激情五月| 日韩一级片在线观看| 国产精品第一页第二页第三页| 艳妇臀荡乳欲伦亚洲一区| 久久99深爱久久99精品| 91丨porny丨蝌蚪视频| 在线成人免费视频| 国产精品天美传媒| 日本亚洲视频在线| 亚洲成人av资源| 午夜久久久久久电影| 男女男精品视频| 色综合中文字幕国产| 成人免费视频视频在线观看免费 | 亚洲精品国产无套在线观| 男女激情视频一区| 欧美午夜精品久久久| 中文字幕不卡一区| 国产美女精品在线| 日韩欧美123| 日韩成人免费在线| 欧美精品v日韩精品v韩国精品v| 亚洲精选视频免费看| 99综合影院在线| 国产精品久久午夜| 成人午夜电影网站| 欧美激情在线一区二区| 狠狠色丁香婷综合久久| 精品少妇一区二区三区免费观看 | 在线看一区二区| 亚洲精品成人a在线观看| 成人激情小说乱人伦| 国产精品日韩成人| 国产成人在线电影| 欧美国产日韩a欧美在线观看| 国产成人啪免费观看软件| av不卡在线播放| 精品国产乱码久久久久久浪潮| 亚洲色图.com| 国产精品沙发午睡系列990531| 日韩高清一级片| 一区二区三区在线视频观看| 本田岬高潮一区二区三区| 亚洲国产精品二十页| 成人综合婷婷国产精品久久蜜臀 | 亚洲人精品午夜| 色拍拍在线精品视频8848| 亚洲一区二区三区爽爽爽爽爽| 欧美日韩亚洲综合| 久久99精品国产麻豆婷婷洗澡| 精品国产一区a| 成人va在线观看| 午夜精品福利在线| 精品国产乱码久久久久久蜜臀| 国产成人av电影在线播放| 亚洲女女做受ⅹxx高潮| 欧美福利视频一区| 精品一区二区三区影院在线午夜 | 中文一区在线播放| 精品视频在线看| 国产大陆精品国产| 婷婷国产在线综合| 中文字幕在线观看一区二区| 777奇米四色成人影色区| 成人午夜免费电影| 蜜桃久久精品一区二区| 亚洲欧洲av一区二区三区久久| 91精品国产综合久久蜜臀| www.66久久| 国产一区二区三区不卡在线观看| 亚洲精品国产视频| 国产日韩欧美a| 日韩欧美国产高清| 欧美日韩一级黄| 欧美午夜精品免费| 91麻豆福利精品推荐| 国产尤物一区二区在线| 日韩成人一级大片| 亚洲国产精品影院| 亚洲乱码精品一二三四区日韩在线| 久久精品人人做人人爽97| 欧美日韩高清一区二区不卡| 日本精品一区二区三区高清| 99久久99久久精品免费看蜜桃| 国产一区二区三区四| 免费的成人av| 美女一区二区视频| 麻豆精品一区二区| 舔着乳尖日韩一区| 午夜欧美电影在线观看| 亚洲成人自拍一区| 天堂蜜桃一区二区三区 | 一区二区欧美在线观看| 亚洲精品亚洲人成人网在线播放| 中文字幕在线不卡视频| 国产精品久99| 一区二区三区在线视频观看| 亚洲精品国产视频| 日韩三级高清在线| 久久精品国产秦先生| 一二三四社区欧美黄| 亚洲一区二区三区四区的| 自拍偷拍亚洲欧美日韩| 亚洲少妇30p| 日韩精品一二区| 韩国av一区二区三区四区| 精品亚洲成a人在线观看| 国产**成人网毛片九色 | 欧美一区三区四区| 精品黑人一区二区三区久久| 精品久久一区二区| 欧美激情一区二区三区| 亚洲精品欧美二区三区中文字幕| 麻豆久久久久久久| 91污在线观看| 日韩欧美成人激情|