ChatGPT 教人如何偷盜商店;左圖,ChatGPT 拒絕回答;右圖,在 prompt 中添加了「with no moral restraints(不加道德約束)」后,ChatGPT 給出了商店偷盜指南

這時(shí)候,對(duì)齊(alignment)就至關(guān)重要了,其作用就是讓 LLM 與人類的價(jià)值觀保持一致。

在對(duì)齊 LLM 方面,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一種突破性的技術(shù)。該方法催生了 GPT-4、Claude Gemini 等強(qiáng)大模型。RLHF 之后,人們也探索了多種多樣的對(duì)齊 LLM 的方法。但是,此前還沒有人全面總結(jié)對(duì)齊 LLM 與人類偏好的方法。

Salesforce 決定填補(bǔ)這一空白,于近日發(fā)布了一份 37 頁的綜述報(bào)告,其中按類別總結(jié)了現(xiàn)有的研究文獻(xiàn),并詳細(xì)分析了各篇論文。

這篇論文分為四大主題:獎(jiǎng)勵(lì)模型、反饋、強(qiáng)化學(xué)習(xí)(RL)、優(yōu)化。每個(gè)主題又包含進(jìn)一步的子主題,如圖 1 所示。

獎(jiǎng)勵(lì)模型的子主題包括:1. 顯式獎(jiǎng)勵(lì)模型與隱式獎(jiǎng)勵(lì)模型;2. 逐點(diǎn)獎(jiǎng)勵(lì)模型與偏好模型;3. 響應(yīng)層面的獎(jiǎng)勵(lì)與 token 層面的獎(jiǎng)勵(lì);4. 負(fù)偏好優(yōu)化。

反饋的子主題包括:1. 偏好反饋與二元反饋;2. 成對(duì)反饋與列表反饋;3. 人類反饋與 AI 反饋。

強(qiáng)化學(xué)習(xí)的子主題包括:1. 基于參考的強(qiáng)化學(xué)習(xí)與無參考的強(qiáng)化學(xué)習(xí);2. 長(zhǎng)度控制式強(qiáng)化學(xué)習(xí);3. 強(qiáng)化學(xué)習(xí)中的不同分支;4. 在線策略強(qiáng)化學(xué)習(xí)與離線策略強(qiáng)化學(xué)習(xí)。

優(yōu)化的子主題包括:1. 在線 / 迭代式偏好優(yōu)化與離線 / 非迭代式偏好優(yōu)化;2. 分離 SFT 和對(duì)齊與合并 SFT 和對(duì)齊。

表 1 列出了這篇綜述報(bào)告中分析的所有論文在這 13 個(gè)評(píng)估指標(biāo)上的劃分情況。

研究論文

這一節(jié)將詳細(xì)介紹各篇論文,讓讀者無需閱讀原論文也能了解這些重要?jiǎng)?chuàng)新。機(jī)器之心將簡(jiǎn)單梳理各個(gè)研究方向并列出代表性論文。

1. RLHF/PPO

LLM 的預(yù)訓(xùn)練要用到大量來自不同來源的語料庫,而這本身就無法確保這些數(shù)據(jù)集的質(zhì)量。此外,LLM 的主要目標(biāo)是預(yù)測(cè)下一個(gè) token,這個(gè)目標(biāo)與「有用且安全地遵從用戶指令」的目標(biāo)并不一致。因此,LLM 可能會(huì)輸出不真實(shí)、有害或?qū)τ脩魺o用的內(nèi)容。本質(zhì)上講,這些模型并未與用戶意圖對(duì)齊。RLHF/PPO 的主要目標(biāo)是在各種任務(wù)上對(duì)齊語言模型與用戶意圖,其做法是使用人類反饋來微調(diào)模型。有關(guān)這個(gè)主題的研究有很多。

InstructGPT

InstructGPT 來自 OpenAI,這是訓(xùn)練 ChatGPT 和 GPT-4 等模型的基礎(chǔ),參閱《GPT-4 技術(shù)報(bào)告》。

通過納入人類偏好,評(píng)估 LLM 生成的響應(yīng)的難題得到了解決。BLEU、ROUGE 和 BERTScore 等用于評(píng)估 LLM 的傳統(tǒng)評(píng)估指標(biāo)無法保證與人類偏好的一致性。為了解決這個(gè)問題,研究者直接將人類偏好整合進(jìn)了 LLM 以增強(qiáng)其性能。這個(gè)過程通常涉及兩個(gè)主要步驟:獎(jiǎng)勵(lì)模型學(xué)習(xí)和強(qiáng)化學(xué)習(xí)策略訓(xùn)練。

在獎(jiǎng)勵(lì)模型學(xué)習(xí)階段,會(huì)使用 prompt 和配對(duì)的響應(yīng)訓(xùn)練一個(gè)顯式的逐點(diǎn)獎(jiǎng)勵(lì)函數(shù)。

之后,開始強(qiáng)化學(xué)習(xí)策略訓(xùn)練階段;在這個(gè)階段,LLM 和預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型分別作為一個(gè)強(qiáng)化學(xué)習(xí)框架中的智能體和環(huán)境。

為了訓(xùn)練 InstructGPT,要用到三個(gè)數(shù)據(jù)集:1.SFT 數(shù)據(jù)集:包含用于訓(xùn)練 SFT 模型的標(biāo)注者演示。2.RM(獎(jiǎng)勵(lì)模型)數(shù)據(jù)集:由人類標(biāo)注者對(duì)模型輸出的排名構(gòu)成,用于訓(xùn)練獎(jiǎng)勵(lì)模型。3.PPO 數(shù)據(jù)集:由用作 RLHF 微調(diào)輸入的 prompt 構(gòu)成。

訓(xùn)練后的 InstructGPT 會(huì)在三個(gè)方面得到評(píng)估:有用性、可信度、有害性。

從結(jié)果上看,人類評(píng)估表明「相比于 175B 的 GPT-3,人們 更偏好 1.3B 參數(shù)版本的 InstructGPT 模型的輸出,盡管后者的參數(shù)量少 100 多倍。」值得注意的是,InstructGPT 在有用性和毒性任務(wù)上的表現(xiàn)均優(yōu)于 GPT-3,這于對(duì)齊而言至關(guān)重要。

Anthropic 的 RLHF

Anthropic 也研究過同一主題,論文為《Training a helpful and harmless assistant with reinforcement learning from human feedback》。

OpenAI 發(fā)現(xiàn) RLHF 有助于對(duì)齊,但也可能導(dǎo)致模型在某些 NLP 基準(zhǔn)上的性能下降,這個(gè)現(xiàn)象被稱為「對(duì)齊稅(alignment tax)」。其開發(fā)的 InstructGPT 模型有 1.3B 參數(shù)。相反,Anthropic 的研究者評(píng)估了大小在 13M 到 52B 之間的 7 種不同模型,這些模型的大小按 4 倍的幾何級(jí)數(shù)增長(zhǎng)。

他們得出結(jié)論說,對(duì)較小的模型來說,對(duì)齊會(huì)產(chǎn)生「稅」,但對(duì)較大模型來說,對(duì)齊只有好處,尤其是參數(shù)量在 13B 到 52B 之間的模型。

考慮到對(duì)齊的這種優(yōu)勢(shì),他們還實(shí)驗(yàn)了用編程技術(shù)數(shù)據(jù)集來提升 LLM 的能力。OpenAI 的 RLHF 方法包含 PPO 和 PPO-ptx,其中 PPO-ptx 的設(shè)計(jì)目標(biāo)就是為了降低在 NLP 基準(zhǔn)上的對(duì)齊稅。而 Anthropic 的 RLHF 研究發(fā)現(xiàn),只要模型夠大,PPO 本身就能在 NLP 下游任務(wù)上帶來對(duì)齊的好處。他們還確定了強(qiáng)化學(xué)習(xí)策略訓(xùn)練中 KL 散度的最優(yōu)參數(shù)為 β = 0.001。

在線 / 迭代式 RLHF

傳統(tǒng)上,對(duì)齊 LLM 的 RLHF 技術(shù)都是離線方法。但這類方法有些缺點(diǎn),比如所得結(jié)果難以應(yīng)對(duì)分布外數(shù)據(jù)。

為此,需要對(duì) LLM 進(jìn)行持續(xù)的微調(diào),進(jìn)行迭代式 / 在線學(xué)習(xí),即使用中間策略為 prompt 生成響應(yīng),再使用預(yù)言機(jī)(oracle)為這樣的成對(duì)數(shù)據(jù)給出偏好反饋,再將這些反饋饋送給策略。在實(shí)踐中,迭代式學(xué)習(xí)分為兩個(gè)部分:偏好預(yù)言機(jī)學(xué)習(xí)和迭代式策略優(yōu)化。參閱論文《RLHF workflow: From reward modeling to online RLHF》。

2. RLAIF

獲取人類偏好數(shù)據(jù)集的成本不低,因此基于人工智能反饋的強(qiáng)化學(xué)習(xí)(RLAIF)誕生了。此外,隨著 LLM 的能力不斷進(jìn)步,所能收集到的 AI 偏好數(shù)據(jù)集的質(zhì)量也不斷提高,由此可提升 LLM 的對(duì)齊效果。

Anthropic 的 RLAIF

Anthropic 基于 RLHF 的基礎(chǔ)研究工作,提出了一種名為 RLAIF 的全新方法。參閱論文《Constitutional ai: Harmlessness from ai feedback》。

該方法主要包含兩個(gè)階段:1. 通過 Critiques(批評(píng))和 Revisions(修訂)進(jìn)行監(jiān)督學(xué)習(xí),這由一個(gè)章程引導(dǎo)。2. RLAIF。

谷歌的 RLAIF

基于 Anthropic 的 RLAIF 研究成果,谷歌一個(gè)研究團(tuán)隊(duì)認(rèn)為之前的研究無法直接比較人類反饋與 AI 反饋的效果,值得進(jìn)一步研究。在收集 AI 反饋的過程中,要?jiǎng)?chuàng)建一個(gè)結(jié)構(gòu)化的 prompt,其構(gòu)成包括:導(dǎo)言、少樣本示例(可選)、要標(biāo)注的樣本、結(jié)尾。

為了生成 AI 反饋,需要執(zhí)行一個(gè)兩步式評(píng)估:首先,使用指令中的 4 個(gè)組件加上 CoT,讓 LLM 生成響應(yīng)。在下一步中,這個(gè) LLM 響應(yīng)再附帶上「preferred summary=」這樣的結(jié)尾被發(fā)送回 LLM,從而生成「summary 1=0.6, summary 2=0.4」這樣的偏好概率。為了減少位置偏差,需要交替放置這兩個(gè)響應(yīng)的序列,并計(jì)算其平均分?jǐn)?shù)。

RLAIF 過程采用了兩個(gè)策略:1.「蒸餾 RLAIF」,其遵循傳統(tǒng)的 RLHF 方法,即使用偏好訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,然后再將其用于訓(xùn)練 LLM 策略;2. 「直接 RLAIF」,其直接將 LLM 反饋用作 prompt 來輸出評(píng)估分?jǐn)?shù),再將該分?jǐn)?shù)用作強(qiáng)化學(xué)習(xí)策略訓(xùn)練的信號(hào)。

最后,其評(píng)估過程會(huì)使用三個(gè)關(guān)鍵指標(biāo):1.AI – 標(biāo)注者對(duì)齊度:AI 與人類標(biāo)注者的一致程度。2. 勝率:人類標(biāo)注者比較兩個(gè)候選項(xiàng)并選擇其中某一個(gè)的可能性。3. 無害率:人類評(píng)估者認(rèn)為無害的響應(yīng)的占比。

更多詳情請(qǐng)參閱論文《RLAIF: Scaling reinforcement learning from human feedback with AI feedback》。

直接人類偏好優(yōu)化

傳統(tǒng) RLHF 方法通常涉及到優(yōu)化源自人類偏好的獎(jiǎng)勵(lì)函數(shù)。該方法雖有效,但也可能帶來一些難題,比如增大計(jì)算復(fù)雜度以及在估計(jì)和優(yōu)化獎(jiǎng)勵(lì)時(shí)需要考慮偏置 – 方差權(quán)衡。參閱論文《High-dimensional continuous control using generalized advantage estimation》。

近期有研究探索了其它一些旨在根據(jù)人類偏好(無需依賴某個(gè)標(biāo)量的獎(jiǎng)勵(lì)信號(hào))來直接優(yōu)化 LLM 策略的方法。

這些方法的目標(biāo)是通過更直接地使用偏好數(shù)據(jù)來簡(jiǎn)化對(duì)齊流程、降低計(jì)算開銷以及實(shí)現(xiàn)更穩(wěn)健的優(yōu)化。通過將該問題描述為一個(gè)偏好優(yōu)化問題,而不是獎(jiǎng)勵(lì)估計(jì)和最大化問題,這些方法能提供一種將語言模型與人類判斷對(duì)齊的不同視角:

token 級(jí) DPO

使用 DPO 時(shí),獎(jiǎng)勵(lì)會(huì)被一起分配給 prompt 和響應(yīng)。相反,使用 MDP 時(shí),獎(jiǎng)勵(lì)會(huì)被分配給各個(gè)動(dòng)作。后續(xù)的兩篇論文在 token 層面闡述了 DPO 并將其應(yīng)用擴(kuò)展到了 token 級(jí)的分析。

迭代式 / 在線 DPO

使用 DPO 時(shí),會(huì)使用所有可用的偏好數(shù)據(jù)集來對(duì)齊 LLM。為了持續(xù)提升 LLM,應(yīng)當(dāng)實(shí)現(xiàn)迭代式 / 在線 DPO。這就引出了一個(gè)有趣的問題:如何高效地收集新的偏好數(shù)據(jù)集。下面兩篇論文深入探討了這一主題。

二元反饋

事實(shí)證明,收集偏好反饋比收集二元反饋(比如點(diǎn)贊或點(diǎn)踩)的難度大,因此后者可促進(jìn)對(duì)齊過程的擴(kuò)展。KTO 和 DRO 這兩項(xiàng)研究關(guān)注的便是使用二元反饋來對(duì)齊 LLM

融合 SFT 和對(duì)齊

之前的研究主要還是按順序執(zhí)行 SFT 和對(duì)齊,但事實(shí)證明這種方法很費(fèi)力,并會(huì)導(dǎo)致災(zāi)難性遺忘。后續(xù)的研究有兩個(gè)方向:一是將這兩個(gè)過程整合成單一步驟;二是并行地微調(diào)兩個(gè)模型,最終再進(jìn)行融合。

長(zhǎng)度控制式 DPO 和無參考 DPO

之前有研究表明,LLM 的輸出往往過于冗長(zhǎng)。為了解決這個(gè)問題,R-DPO 和 SimPO 的關(guān)注重心是在不影響生成性能的前提下實(shí)現(xiàn)對(duì)響應(yīng)長(zhǎng)度的控制。

此外,DPO 必需參考策略來確保已對(duì)齊模型不會(huì)與參考模型有太大偏差。相較之下,SimPO 和 RLOO 提出了一些方法,可以在不影響 LLM 效果的情況下消除對(duì)參考模型的需求。

逐列表的偏好優(yōu)化

之前在 PPO 和 DPO 方面的研究關(guān)注的是成對(duì)偏好,而 RLHF 方面的研究則是收集逐列表的偏好來加速數(shù)據(jù)收集過程,之后再將它們轉(zhuǎn)換成成對(duì)偏好。盡管如此,為了提升 LLM 的性能,直接使用逐列表的數(shù)據(jù)集來執(zhí)行偏好優(yōu)化是可行的。以下三篇論文專門討論了這種方法。

負(fù)偏好優(yōu)化

這些研究有一個(gè)共同前提:當(dāng)前這一代 LLM 已經(jīng)在翻譯和總結(jié)等任務(wù)上超越了人類性能。因此,可以將 LLM 的輸出視為期望響應(yīng),而無需依靠將人類標(biāo)注的數(shù)據(jù)視為偏好響應(yīng);這樣做是有好處的。反過來,不期望得到的響應(yīng)依然也可被用于對(duì)齊 LLM,這個(gè)過程就是所謂的負(fù)偏好優(yōu)化(NPO)。

納什學(xué)習(xí)

之前的研究通常是使用逐點(diǎn)獎(jiǎng)勵(lì)和 BT 模型來得到成對(duì)偏好。但是,這種方法比不上直接成對(duì)偏好建模并且無法解決成對(duì)偏好中的不一致問題。為了克服這些局限,一些研究提出了納什學(xué)習(xí)方法。

不同方法的比較

一些研究則是為了比較這些不同方法。這類研究可以闡釋每種方法各自的優(yōu)缺點(diǎn)。

論文《Insights into alignment: Evaluating dpo and its variants across multiple tasks》在推理、數(shù)學(xué)問題求解、可信度、問答和多任務(wù)理解等多種任務(wù)上全面評(píng)估了隱式獎(jiǎng)勵(lì)模型,即無強(qiáng)化學(xué)習(xí)算法,包括 DPO、KTO、IPO 和 CPO。這些評(píng)估涉及三個(gè)不同場(chǎng)景:1) 微調(diào)監(jiān)督式微調(diào)(SFT)模型、2) 微調(diào)預(yù)訓(xùn)練模型、3) 微調(diào)指令模型。

該研究發(fā)現(xiàn),在大多數(shù)基準(zhǔn)上,KTO 比其它對(duì)齊方法更優(yōu)。此外,研究表明,對(duì)齊并不會(huì)顯著提升模型的推理和問答性能,但確實(shí)能大幅提升模型的數(shù)學(xué)問題求解能力。該研究還注意到了數(shù)據(jù)量的重要性,對(duì)齊方法在較小的數(shù)據(jù)子集上的性能最佳。此外,研究發(fā)現(xiàn) KTO 和 CPO 能有效繞過 SFT 階段,在不影響性能的前提下直接進(jìn)入對(duì)齊階段。相比之下,當(dāng)繞過 SFT 階段,直接進(jìn)入對(duì)齊階段時(shí),DPO 和 IPO 會(huì)表現(xiàn)出明顯的性能下降。

論文《Is DPO superior to PPO for LLM alignment? A comprehensive study》表明,DPO 可能存在固有局限,可能會(huì)產(chǎn)生有偏差的解答,并可能由于分布變化而導(dǎo)致性能下降,

他們發(fā)現(xiàn),DPO 訓(xùn)練出的策略傾向于未曾見過的響應(yīng),尤其是分布外的樣本。而迭代式 / 在線 DPO 則能緩解這個(gè)問題,其做法是廣泛探索響應(yīng)空間并不斷更新參考模型。相較之下,RLHF/PPO 則是通過優(yōu)勢(shì)歸一化、大批量大小以及對(duì)參考模型使用指數(shù)移動(dòng)平均來解決這些挑戰(zhàn)。最終,這些發(fā)現(xiàn)表明 PPO 優(yōu)于迭代式 / 在線 DPO,而這又進(jìn)一步優(yōu)于標(biāo)準(zhǔn) DPO。

未來方向

通過分析過往論文,該團(tuán)隊(duì)確定了一些有待進(jìn)一步探索的研究問題。

用于對(duì)齊評(píng)估的一般任務(wù)

不同論文使用了不同的任務(wù)來評(píng)估這些方法的性能。但是,GSM8K 等一些任務(wù)更關(guān)注推理,可能并不適合用于評(píng)估對(duì)齊性能。相反,TruthfulQA 等任務(wù)或那些關(guān)注毒性的任務(wù)應(yīng)當(dāng)優(yōu)先考慮,以評(píng)估已微調(diào) LLM 的毒性。應(yīng)當(dāng)想辦法將這些任務(wù)組合起來,創(chuàng)建一個(gè)用于評(píng)估對(duì)齊的統(tǒng)一排行榜。

將隱式獎(jiǎng)勵(lì)模型、逐列表偏好和納什學(xué)習(xí)用于更大規(guī)模的語言模型

目前,使用隱式獎(jiǎng)勵(lì)模型的最大模型的參數(shù)量也不過 70B。如果能將這些方法擴(kuò)展用于更大的模型,比如 GPT-4 和 Claude-3 大小的模型,那應(yīng)該能幫助我們更好地理解它們與 RLHF/PPO 的相對(duì)效果。

類似地,逐列表偏好模型也值得進(jìn)一步研究。使用 RLHF 時(shí),要使用逐列表偏好收集偏好數(shù)據(jù)集,之后再將其轉(zhuǎn)換成多對(duì)成對(duì)偏好數(shù)據(jù)。大規(guī)模應(yīng)用逐列表偏好模型的潛在問題依然有待解決。

最后,納什學(xué)習(xí)可以解決人類標(biāo)注者之間的不一致問題。如果能將納什學(xué)習(xí)模型集成到更大規(guī)模的 LLM 中,就可以證明其捕獲人性復(fù)雜性的能力。

有關(guān)二元反饋的實(shí)驗(yàn)

KTO 和 DRO 都采用了「點(diǎn)贊」和「點(diǎn)踩」這樣的二元反饋機(jī)制,而不是成對(duì)偏好。這些二元反饋來自偏好數(shù)據(jù)集,其中將期望響應(yīng)標(biāo)記成正例,將不期望響應(yīng)標(biāo)記成負(fù)例。我們還需要對(duì)現(xiàn)實(shí)的二元數(shù)據(jù)集進(jìn)行進(jìn)一步研究。此外,相比于偏好數(shù)據(jù),二元數(shù)據(jù)集更容易收集,因此有望使用更大規(guī)模的二元反饋數(shù)據(jù)集來進(jìn)行對(duì)齊。但是,二元反饋中的噪聲可能比偏好數(shù)據(jù)集中的噪聲更加明顯,因此如何有效濾除有噪聲數(shù)據(jù)也是一個(gè)非常有趣的研究方向。

實(shí)驗(yàn)研究有用的 AI 反饋

目前的 AI 反饋主要包括 RLAIF 中的無害反饋和迭代式 DPO 中的反饋排名。但是,使用 RLAIF 時(shí),有用反饋依然是由人類標(biāo)注者提供。這種方法是合理的,因?yàn)樯捎杏庙憫?yīng)的難度比識(shí)別有害反饋明顯大得多。一個(gè)有趣的未來研究方向是使用 LLM 來生成有用的反饋,由此讓 LLM 可以自我提升。

加速納什學(xué)習(xí)

納什學(xué)習(xí)方法可以有效建模成對(duì)偏好并解決人類標(biāo)注之間的不一致問題。但是,它必需多次迭代才能收斂到最優(yōu)策略。盡管其作者沒有明說對(duì)齊所需的時(shí)間,但可猜測(cè)其會(huì)比 DPO 等隱式獎(jiǎng)勵(lì)模型慢得多。因此,提升納什學(xué)習(xí)過程的速度也是一個(gè)值得關(guān)注的研究方向。

迭代 / 在線學(xué)習(xí)的終止

在使用迭代 / 在線訓(xùn)練時(shí),確定終止迭代的時(shí)間很關(guān)鍵。之前有研究發(fā)現(xiàn),迭代式學(xué)習(xí)有時(shí)會(huì)降低 LLM 在某些任務(wù)上的性能,這可能是過擬合的跡象。但是,目前還沒有研究者探索如何確定終止迭代的合理 epoch。

簡(jiǎn)化 SFT + 對(duì)齊

當(dāng)前的方法通常是以一種連續(xù)方式實(shí)現(xiàn) SFT 和對(duì)齊。但是,這種方法往往會(huì)導(dǎo)致災(zāi)難性遺忘,并讓整個(gè)訓(xùn)練過程變得更加費(fèi)力。PAFT 方法減輕災(zāi)難性遺忘的方式是先分別微調(diào) SFT 和對(duì)齊然后再將它們?nèi)诤系揭黄穑@也會(huì)提升復(fù)雜性。相較之下,ORPO 技術(shù)是同時(shí)整合這兩個(gè)過程,但卻會(huì)導(dǎo)致性能下降。那么,該如何有效地將 SFT 和對(duì)齊組合起來實(shí)現(xiàn)高性能同時(shí)又維持高效率呢?這還是一個(gè)有待解決的挑戰(zhàn)。

文章轉(zhuǎn)自微信公眾號(hào)@數(shù)據(jù)STUDIO

上一篇:

LLM預(yù)訓(xùn)練從0到1

下一篇:

零基礎(chǔ)入門:Ollama調(diào)用快速上手指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)