2. 偏好對齊方法(Preference Alignment)

(1) 基于人類反饋的強化學習(Reinforcement Learning with Human Feedback, RLHF)
  1. 收集偏好數據集:針對同一個問題,提供兩個答案并標注優劣。
  2. 訓練獎勵模型(Reward Model):基于偏好數據集,構建一個評分機制。
  3. 強化學習優化:結合獎勵模型與強化學習算法(如 PPO),教導 LLM 提供更優質的回答。
(2) 直接偏好優化(Direct Preference Optimization, DPO)
(3) 單體偏好優化(Monolithic Preference Optimization, ORPO)

原文:https://arxiv.org/abs/2403.07691

ORPO Fine-tuning:https://huggingface.co/blog/mlabonne/orpo-llama-3

微調LLM常用的工具庫與框架

在微調大語言模型(LLMs)的過程中,選擇合適的工具庫和框架可以極大地簡化開發流程,提高效率。以下是常用的工具和集成框架匯總,讓你快速入門并靈活應用。

常用工具庫

  1. bitsandbytes
  1. Parameter-Efficient Fine-Tuning (PEFT)
  1. Transformer Reinforcement Learning (TRL)
  1. wandb

常用微調框架

  1. LLaMA-Factory
  1. Alpaca-Lora
  1. torchtune

完整代碼:

Github REAME : https://github.com/jeff52415/yoga-model-hub/blob/main/docs/fine_tune_llm.md

Jupyter Notebook Tutorial:https://github.com/jeff52415/yoga-model-hub/blob/main/notebooks/fine_tune_llm.ipynb

原文轉載出自:@AI技術研習社《如何提升預訓練LLMs:從零打造到微調優化的全攻略》

上一篇:

什么是LIP

下一篇:

如何實現API緩存和性能優化
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費