根據(jù)AI App的智能化能力和解決問(wèn)題的能力進(jìn)行等級(jí)劃分及整體描述,我們可以近似得到以上的能力劃分表。隨著智能化的程度遞增,App能解決的問(wèn)題范圍也逐漸在擴(kuò)大。

LLM的過(guò)渡狀態(tài):

操作工具?建議者?執(zhí)行者?控制器(決策者)?高級(jí)智能體

角色的變化背后是智能屬性的增強(qiáng),當(dāng)然也是AI能力類(lèi)腦發(fā)展的一個(gè)趨勢(shì)。如果這樣一個(gè)發(fā)展趨勢(shì)是成立的,那么已經(jīng)跑通了PMF的微軟Copilot已經(jīng)算是L3的頂級(jí)應(yīng)用了。他的Moat本質(zhì)上在于場(chǎng)景和深耕多年的B端資源。

當(dāng)場(chǎng)景的價(jià)值弱化,那么工程深度就需要增加“厚度”或技術(shù)增強(qiáng)來(lái)建立起整體的應(yīng)用,以保證此類(lèi)AI應(yīng)用的Moat足夠深。

在AutoGPT、BabyGPT和GPT-Engineer的demo爆火之后,以LLM作為核心控制器來(lái)構(gòu)建L4的Agent成為一個(gè)很酷的概念。應(yīng)用場(chǎng)景的想象空間被打開(kāi),我們發(fā)現(xiàn)LLM的潛力不僅限于生成寫(xiě)得很好的副本、故事、文章和程序,它還可以作為一種強(qiáng)大的工具解決通用問(wèn)題。Agent System Overview—@Lilian Weng

Weng, Lilian. (Jun 2023). “LLM-powered Autonomous Agents”. 

Lil’Log. https://lilianweng.github.io/posts/2023-06-23-agent/.

Autonomous Agent系統(tǒng)由LLM驅(qū)動(dòng),LLM作為代理的大腦,輔以幾個(gè)關(guān)鍵的組件。

Fig.2. 由LLM驅(qū)動(dòng)的Autonomouse Agent 系統(tǒng)

a16z提出的LLM App的新型架構(gòu),與論文中的介紹也是異曲同工。究其本質(zhì),是生物性的發(fā)展過(guò)程和整體類(lèi)比的結(jié)果,將LLM進(jìn)行類(lèi)腦比較,定位為整體中樞,進(jìn)行分工合作。七月初流出的GPT4的設(shè)計(jì)也有類(lèi)似的影子,MOE的存在。

第一部分:Planning

一項(xiàng)復(fù)雜任務(wù)通常會(huì)包含很多步驟,Agent需要了解這些步驟是什么并提前規(guī)劃。

任務(wù)拆解:

Chain of thought (CoT; Wei et al. 2022) 已經(jīng)成為一種標(biāo)準(zhǔn)的Prompting技術(shù),用于提高模型在復(fù)雜任務(wù)中的性能。模型被要求“think step by step”利用更多的時(shí)間進(jìn)行計(jì)算,將艱難的任務(wù)分解成更小,更簡(jiǎn)單的步驟。CoT將大型任務(wù)轉(zhuǎn)化為多個(gè)可管理的任務(wù),并對(duì)模型的思維過(guò)程進(jìn)行了闡釋。

Tree of Thoughts  (Yao et al. 2023) 進(jìn)一步擴(kuò)展CoT,在每一步都探索多種推理的可能性。它首先將問(wèn)題分解為多個(gè)思考步驟,并在每個(gè)步驟中生成多個(gè)思考,從而創(chuàng)造一個(gè)樹(shù)形結(jié)構(gòu)。搜索過(guò)程可以是BFS(廣度優(yōu)先搜索)或DFS(深度優(yōu)先搜索),每個(gè)狀態(tài)由分類(lèi)器(通過(guò)一個(gè)prompt)或少數(shù)服從多數(shù)的投票原則來(lái)決定。

任務(wù)分解可通過(guò)以下幾種方式實(shí)現(xiàn):

  1. 給LLM一個(gè)簡(jiǎn)單的提示詞“Steps for XYZ.\n1.”,“What are the subgoals for achieving XYZ?”
  2. 使用針對(duì)具體任務(wù)的指令,例如對(duì)一個(gè)寫(xiě)小說(shuō)的任務(wù)先給出“Write a story outline.”指令
  3. 使用者直接輸入

Graph of Thoughts(Besta et al. 2023)同時(shí)支持多鏈、樹(shù)形以及任意圖形結(jié)構(gòu)的Prompt方案,支持各種基于圖形的思考轉(zhuǎn)換,如聚合、回溯、循環(huán)等,這在CoT和ToT中是不可表達(dá)的。將復(fù)雜問(wèn)題建模為操作圖(Graph of Operations,GoO),以LLM作為引擎自動(dòng)執(zhí)行,從而提供解決復(fù)雜問(wèn)題的能力。某種程度上,GoT囊括了單線條的CoT和多分枝的ToT。

Fig.4. GoT與其他Prompt策略的比較

無(wú)論是CoT還是ToT,本質(zhì)上是通過(guò)Prompt的精心設(shè)計(jì),激發(fā)出模型原有的Metacognition
只是如何通過(guò)某條神經(jīng)元的線索能更加精準(zhǔn)的調(diào)動(dòng)出大腦中最擅長(zhǎng)Planning的部分

另一種截然不同的方式,LLM+P?(Liu et al. 2023),通過(guò)借助一個(gè)外部的經(jīng)典Planner來(lái)進(jìn)行一個(gè)更加長(zhǎng)序列的整體規(guī)劃。這種方法利用規(guī)劃域定義語(yǔ)言(Planning Domain Definition Language, PDDL)作為中間接口來(lái)描述規(guī)劃問(wèn)題。整個(gè)使用過(guò)程,首先LLM將問(wèn)題翻譯成“問(wèn)題PDDL”,接著請(qǐng)求經(jīng)典Planner根據(jù)現(xiàn)有的“領(lǐng)域PDDL”生成一個(gè)PDDL Plan,最后將PDDL計(jì)劃翻譯回自然語(yǔ)言(LLM做的)。根本上講,Planning Step是外包給外部工具的,當(dāng)然也有一個(gè)前提:需要有特定領(lǐng)域的PDDL和合適的Planner。

Fig.5. LLM+P 利用大型語(yǔ)言模型 (LLM) 生成給定問(wèn)題的 PDDL 描述,然后利用經(jīng)典規(guī)劃器尋找最佳計(jì)劃,然后再次使用 LLM 將原始計(jì)劃翻譯回自然語(yǔ)言。

模型自我反省:

Self-reflection是非常重要的一環(huán),它允許Agent通過(guò)完善過(guò)去的行動(dòng)決策和糾正以前的錯(cuò)誤來(lái)不斷改進(jìn)。現(xiàn)實(shí)世界中的任務(wù)中,試錯(cuò)仍然是無(wú)法避免的,自我反思在其中發(fā)揮著至關(guān)重要的作用。

ReAct?(Yao et al. 2023)即Reson+Act通過(guò)將Action Space擴(kuò)展為特定任務(wù)的離散動(dòng)作和語(yǔ)言空間的組合,在LLM內(nèi)部整合了推理(Reasoning)和行動(dòng)(Action)。前者使LLM能夠與環(huán)境交互(例如,使用Wikipedia Search的 API),后者通過(guò)提示詞使得LLM用自然語(yǔ)言生成整體的推理過(guò)程。

ReAct提示詞模板包含了提供LLM思考的明確步驟,其大致格式為:

Thought: ...
Action: ...
Observation: ...

Fig.6. 知識(shí)密集型任務(wù)(如HotpotQA、FEVER)和決策型任務(wù)(如AlfWorld Env、WebShop)的推理軌跡示例

在知識(shí)密集型任務(wù)和決策任務(wù)的兩個(gè)實(shí)驗(yàn)中,ReAct的表現(xiàn)比去掉Thought...的單一Act...方式更加優(yōu)異。

Reflexion?(Shinn & Labash 2023)是一個(gè)讓Agent具備動(dòng)態(tài)記憶和自我反思能力以提高推理能力的框架。Reflexion采用標(biāo)準(zhǔn)的RL設(shè)置,其中獎(jiǎng)勵(lì)模型提供簡(jiǎn)單的二進(jìn)制獎(jiǎng)勵(lì),而Action Space則采用ReAct中的設(shè)置,即在特定任務(wù)的行動(dòng)空間中加入語(yǔ)言,以實(shí)現(xiàn)復(fù)雜的推理步驟。在每一個(gè)Action?at之后,Agent會(huì)計(jì)算一個(gè)啟發(fā)式函數(shù)ht,并根據(jù)自我反思的結(jié)果決定是否重置環(huán)境以開(kāi)始一個(gè)新的循環(huán)

Fig. 7. Reflexion的架構(gòu)示意圖

啟發(fā)式函數(shù)判斷何時(shí)整個(gè)循環(huán)軌跡是低效的或者何時(shí)因?yàn)榘嘶糜X(jué)需要停止。低效規(guī)劃指的是耗時(shí)過(guò)長(zhǎng)卻未成功的循環(huán)軌跡。幻覺(jué)是指在環(huán)境中遇到一連串相同的行動(dòng),而這些行動(dòng)會(huì)導(dǎo)致相同的觀察結(jié)果。

自我反思過(guò)程通過(guò)給LLM一個(gè)two-shot例子創(chuàng)造,每個(gè)例子都是一對(duì)(失敗的軌跡、在計(jì)劃中指導(dǎo)進(jìn)一步變化的理想反思)。接著,reflections將會(huì)被添加到Agent的工作記憶中作為查詢LLM的上下文,最多三個(gè)。

Fig. 8. AlfWorld Env 和 HotpotQA 實(shí)驗(yàn)。在 AlfWorld 中,幻覺(jué)是比低效規(guī)劃更常見(jiàn)失敗因素。

Chain of Hindsight (CoH; Liu et al. 2023) 通過(guò)向模型明確展示一系列過(guò)去的輸出結(jié)果,鼓勵(lì)模型改進(jìn)自己的輸出結(jié)果。人類(lèi)的反饋數(shù)據(jù)收集為,其中是提示詞,每個(gè)是一個(gè)模型生成的文本,表示人類(lèi)對(duì)的打分,是相應(yīng)的人類(lèi)對(duì)于過(guò)去輸出結(jié)果的反饋。假設(shè)反饋源按照獎(jiǎng)勵(lì)值來(lái)進(jìn)行排序,。這一過(guò)程本質(zhì)上是監(jiān)督微調(diào),在這個(gè)過(guò)程中數(shù)據(jù)是一個(gè)序列,形式如下,其中。這個(gè)模型被微調(diào)以前序列內(nèi)容為條件去預(yù)測(cè),這樣模型就能夠根據(jù)反饋序列進(jìn)行自我反思,以產(chǎn)生更好的輸出。在測(cè)試的時(shí)候,模型可以選擇接受人類(lèi)注釋者的多輪指導(dǎo)。

為了避免過(guò)擬合,CoH增加了一個(gè)正則化項(xiàng),來(lái)最大化預(yù)訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然概率。我為了避免捷徑化和復(fù)制(因?yàn)榉答佇蛄兄杏性S多常見(jiàn)單詞),在訓(xùn)練過(guò)程中他們隨機(jī)屏蔽了0%-5%的過(guò)去的token。

他們?cè)趯?shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)集是 WebGPT comparisons, summarization from human feedback和 human preference dataset。

Fig. 9. 在使用 CoH 進(jìn)行微調(diào)后,模型可以按照指令依次產(chǎn)生漸進(jìn)改進(jìn)的輸出結(jié)果。

CoH的理念是結(jié)合實(shí)際情況,展示連續(xù)改進(jìn)產(chǎn)出的歷史結(jié)果,并訓(xùn)練模型能夠順應(yīng)趨勢(shì),產(chǎn)生更好的輸出結(jié)果。Algorithm Distillation?(AD; Laskin et al. 2023)將同樣的理念應(yīng)用于強(qiáng)化學(xué)習(xí)任務(wù)中的跨周期軌跡,算法被封裝在一個(gè)長(zhǎng)歷史條件策略中。考慮到Agent會(huì)與環(huán)境多次交互,并且每個(gè)周期內(nèi)Agent都會(huì)變得更好,AD將這些學(xué)習(xí)歷史連接起來(lái)并將其喂到模型里。因此,我們應(yīng)該期待下一次預(yù)測(cè)的行動(dòng)會(huì)比之前的試驗(yàn)取得更好的結(jié)果。目標(biāo)是AD學(xué)習(xí)RL算法的過(guò)程,而不是訓(xùn)練特定任務(wù)的策略本身。

Fig. 10.  算法蒸餾 (AD) 工作原理示意圖。

這篇論文假設(shè),任何能生成一組學(xué)習(xí)歷史記錄的算法,都可以通過(guò)對(duì)action克隆提煉出一個(gè)神經(jīng)網(wǎng)絡(luò)。歷史數(shù)據(jù)由一組源策略生成,每個(gè)策略都針對(duì)特定任務(wù)進(jìn)行過(guò)訓(xùn)練。在訓(xùn)練階段,每次運(yùn)行RL時(shí),都會(huì)隨機(jī)抽取一個(gè)任務(wù)。并使用多集歷史數(shù)據(jù)的子序列進(jìn)行訓(xùn)練從而使學(xué)習(xí)到的策略與任務(wù)無(wú)關(guān)。

實(shí)際上,模型的上下文窗口長(zhǎng)度是有限的,所以每一小節(jié)應(yīng)該足夠短,以構(gòu)建更多的歷史小節(jié)。需要2-4個(gè)小節(jié)的多節(jié)上下文來(lái)學(xué)習(xí)一個(gè)接近最優(yōu)的上下文內(nèi)強(qiáng)化學(xué)習(xí)算法。上下文內(nèi)的強(qiáng)化學(xué)習(xí)的出現(xiàn)需要足夠長(zhǎng)的上下文內(nèi)容。

與其他三種基線相比較,a)ED(專(zhuān)家提煉,用專(zhuān)家軌跡代替學(xué)習(xí)歷史的行為克隆),b)源策略(用于生成UCB的蒸餾軌跡),c)(Duan et al. 2017;用作上限,但是他需要在線RL)AD展示了在上下文中的強(qiáng)化學(xué)習(xí),其性能接近RL^2,盡管只使用了離線強(qiáng)化學(xué)習(xí),并且比其他基線學(xué)習(xí)得更快。當(dāng)基于源策略的部分訓(xùn)練歷史進(jìn)行調(diào)節(jié)時(shí),AD的改進(jìn)速度也比ED基線快得多。

Fig. 11. 在需要記憶和探索的環(huán)境中,對(duì) AD、ED、源策略和 RL^2 進(jìn)行比較。只分配二進(jìn)制獎(jiǎng)勵(lì)。在 “黑暗 “環(huán)境中使用 A3C 對(duì)源策略進(jìn)行訓(xùn)練,在 “水迷宮 “環(huán)境中使用 DQN 對(duì)源策略進(jìn)行訓(xùn)練。

只有更好的Plan,沒(méi)有最好的Plan
一邊從歷史長(zhǎng)河中學(xué)習(xí),一邊向前思考向外求索

第二部分:Memory

記憶類(lèi)型:

記憶可以定義為用于獲取、存儲(chǔ)、保留和隨后檢索信息的過(guò)程。人腦中有多種類(lèi)型的記憶。

  1. 感官記憶:這是記憶的最早期階段,在接受了原始刺激后保留的感官信息(視覺(jué)、聽(tīng)覺(jué)等)印象的能力。感官記憶通常只能持續(xù)幾秒鐘。其中包含圖標(biāo)記憶(視覺(jué))、回聲記憶(聽(tīng)覺(jué))和觸碰記憶(觸覺(jué))。
  2. 短時(shí)記憶(STM)或工作記憶:它存儲(chǔ)了我們當(dāng)前意識(shí)到的信息,以及執(zhí)行復(fù)雜認(rèn)知任務(wù)(如學(xué)習(xí)和推理)所需的信息。短期記憶被認(rèn)為有大約7個(gè)項(xiàng)目的容量,并能夠持續(xù)20-30秒。
  3. 長(zhǎng)時(shí)記憶(LTM):長(zhǎng)時(shí)記憶可以將信息存儲(chǔ)很長(zhǎng)時(shí)間,從幾天到幾十年不等,存儲(chǔ)容量基本上是無(wú)限的。長(zhǎng)時(shí)記憶分為兩種:
  4. 顯性/陳述性記憶:對(duì)事實(shí)和事件的記憶,指那些可以有意識(shí)地回憶起的記憶,包括外顯記憶(事件和經(jīng)歷)和語(yǔ)義記憶(事實(shí)和概括)。
  5. 隱形/程序性記憶:這種記憶是無(wú)意識(shí)的,設(shè)計(jì)自動(dòng)執(zhí)行的技能和例行程序,如騎車(chē)、在鍵盤(pán)上打字。

Fig. 12. 人類(lèi)記憶的分類(lèi)

大致的將這些記憶內(nèi)容映射到LLM中

最大內(nèi)部產(chǎn)品搜索(Maximum Inner Product Search,MIPS)

通過(guò)使用外部存儲(chǔ)器可以緩解關(guān)注范圍有限的限制。一種標(biāo)準(zhǔn)的做法是將信息的嵌入表示法保存到向量數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)能夠支持快速的最大內(nèi)積搜索(MIPS)。為了優(yōu)化檢索速度,常見(jiàn)的選擇是近似相鄰(Approximate Nearest Neighbors,ANN)算法,返回近似的top k個(gè)近鄰,用損失少量的精度來(lái)?yè)Q取速度的巨大提升。

幾種常見(jiàn)的ANN算法選擇進(jìn)行快速M(fèi)IPS

Fig. 13. MIPS 算法的比較,以召回率@10 為衡量標(biāo)準(zhǔn)。(Image source: Google Blog, 2020)

在 ann-benchmarks.com 上查看更多 MIPS 算法和性能比較。

記憶的獲取在某種程度上會(huì)提高Planning整體質(zhì)量,但同時(shí)也會(huì)拉長(zhǎng)整體服務(wù)的時(shí)延,因此如何快速且精準(zhǔn)的捕捉相關(guān)的記憶至關(guān)重要。Vector Search和Attention Mechanism之間的平衡也是速度與準(zhǔn)確性之間的平衡
當(dāng)然都是因?yàn)闆](méi)有無(wú)限的上下文學(xué)習(xí)

第三部分:Tool Use

使用工具是人類(lèi)的一個(gè)顯著特點(diǎn),我們創(chuàng)造、修改和利用外部物體來(lái)完成超越我們身體和認(rèn)知極限的事情。為L(zhǎng)LM配備外部工具可以大大擴(kuò)展模型的功能。

Fig. 14.海豹使用工具工具的分類(lèi):

Fig. 15. 工具的四種分類(lèi)

確定性工具-API工具-專(zhuān)家模型-物理世界工具

讓語(yǔ)言模型只做語(yǔ)言模型該做的事兒,通過(guò)文字生成內(nèi)容傳遞邏輯。

借助各式各樣的工具完成邏輯的執(zhí)行

使用工具的方法:

MRKL?(Karpas et al. 2022),是 “模塊化推理、知識(shí)和語(yǔ)言 “(Modular Reasoning,Knowledge and Language)的簡(jiǎn)稱(chēng),是一種用于自主代理的神經(jīng)符號(hào)架構(gòu)。建議 MRKL 系統(tǒng)包含一系列 “專(zhuān)家 “模塊,而通用 LLM 則充當(dāng)路由器,將查詢路由到最合適的專(zhuān)家模塊。這些模塊可以是神經(jīng)模塊(如深度學(xué)習(xí)模型),也可以是符號(hào)模塊(如數(shù)學(xué)計(jì)算器、貨幣轉(zhuǎn)換器、天氣 API)。

他們用算術(shù)作為測(cè)試案例,做了一個(gè)微調(diào) LLM 以調(diào)用計(jì)算器的實(shí)驗(yàn)。他們的實(shí)驗(yàn)表明,由于 LLM(7B  Jurassic1-large 模型)無(wú)法可靠地提取基本算術(shù)的正確論據(jù),因此解決口算數(shù)學(xué)問(wèn)題比解決明確表述的數(shù)學(xué)問(wèn)題更難。這些結(jié)果突出表明,當(dāng)外部符號(hào)工具能夠可靠地發(fā)揮作用時(shí),了解何時(shí)以及如何使用這些工具至關(guān)重要,這取決于 LLM 的能力。

TALM?(工具增強(qiáng)型語(yǔ)言模型Tool Augmented Language Models; Parisi et al. 2022)和Toolformer?(Schick et al. 2023)都做了微調(diào)LM,學(xué)習(xí)使用外部工具。數(shù)據(jù)集的擴(kuò)展與否取決于新添加的API調(diào)用注釋能否提高模型輸出的質(zhì)量。更多詳情,參閱Prompt Engineering的 “External APIs” section。

ChatGPT Plugins 和 OpenAI API 函數(shù)調(diào)用就是增強(qiáng)了工具使用能力的 LLM 在實(shí)踐中發(fā)揮作用的良好范例。工具應(yīng)用程序接口集合可以由其他開(kāi)發(fā)人員提供(如插件)或自行定義(如函數(shù)調(diào)用)。

HuggingGPT?(Shen et al. 2023)是一個(gè)使用 ChatGPT 作為任務(wù)規(guī)劃器的框架,用于根據(jù)模型描述選擇 HuggingFace 平臺(tái)中可用的模型,并根據(jù)執(zhí)行結(jié)果總結(jié)響應(yīng)。

Fig. 16. HuggingGPT 工作原理示意圖

該系統(tǒng)包括4個(gè)階段:

(1)任務(wù)規(guī)劃(Task planning):LLM 充當(dāng)大腦,將用戶請(qǐng)求解析為多個(gè)任務(wù)。每個(gè)任務(wù)都有四個(gè)相關(guān)屬性:任務(wù)類(lèi)型、ID、依賴(lài)關(guān)系和參數(shù)。他們使用少量的示例來(lái)指導(dǎo) LLM 進(jìn)行任務(wù)解析和規(guī)劃。

(2)模型選擇(Model selection):LLM 將任務(wù)分配給專(zhuān)家模型,其中的要求是一個(gè)多選題。LLM 會(huì)收到一份可供選擇的模型列表。由于上下文長(zhǎng)度有限,因此需要進(jìn)行基于任務(wù)類(lèi)型的過(guò)濾。

(3)任務(wù)執(zhí)行(Task execution):專(zhuān)家模型執(zhí)行特定任務(wù)并記錄結(jié)果。

(4)返回結(jié)果(Response generation):LLM 接收?qǐng)?zhí)行結(jié)果,并向用戶提供匯總結(jié)果。

如果要將 HuggingGPT 投入實(shí)際應(yīng)用,需要解決幾個(gè)難題:

  1. 需要提高效率,因?yàn)?LLM 推理輪和與其他模型的交互都會(huì)減慢進(jìn)程;
  2. 它依賴(lài)于較長(zhǎng)的上下文窗口來(lái)交流復(fù)雜的任務(wù)內(nèi)容;
  3. 提高 LLM 輸出和外部模型服務(wù)的穩(wěn)定性。

模型評(píng)估:

API-Bank?(Li et al. 2023) 是評(píng)估工具增強(qiáng)型LLMs性能的基準(zhǔn)。它包含了53個(gè)常用的API工具,一個(gè)完整的工具增強(qiáng)型LLM的工作流,以及264個(gè)注釋對(duì)話其中涉及了568個(gè)API的調(diào)用。可供選擇的 API 種類(lèi)繁多,包括搜索引擎、計(jì)算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流程等。由于有大量的 API,LLM 首先可以訪問(wèn) API 搜索引擎,找到要調(diào)用的正確 API,然后使用相應(yīng)的文檔進(jìn)行調(diào)用。

Fig. 17. LLM 如何在 API-Bank 中調(diào)用 API 的偽代碼

在 API-Bank 工作流程中,LLM 需要做出幾個(gè)決定,我們可以在每個(gè)步驟中評(píng)估該決定的準(zhǔn)確性。

決策包括:

  1. 是否需要調(diào)用 API
  2. 確定要調(diào)用的正確 API:如果不夠好,LLM 需要反復(fù)修改 API 輸入(例如,決定搜索引擎 API 的搜索關(guān)鍵詞)。
  3. 根據(jù) API 結(jié)果做出響應(yīng):如果結(jié)果不滿意,模型可以選擇改進(jìn)并再次調(diào)用。

該基準(zhǔn)從三個(gè)層面對(duì)代理的工具使用能力進(jìn)行評(píng)估:

AgentBench(Liu et al. 2023)是一個(gè)多維度且不斷發(fā)展的Agent Benchmark,目前選擇8個(gè)不同的場(chǎng)景(操作系統(tǒng)、數(shù)據(jù)庫(kù)、知識(shí)圖譜、數(shù)字卡牌游戲、側(cè)向思維謎題、家務(wù)管理、網(wǎng)絡(luò)購(gòu)物和網(wǎng)頁(yè)瀏覽),用于評(píng)估LLM作為Agent在多輪開(kāi)放式生成環(huán)境中的推理和決策能力。系統(tǒng)性測(cè)試了25個(gè)LLM在八個(gè)環(huán)境中的表現(xiàn),從整體得分來(lái)看GPT4遙遙領(lǐng)先。在數(shù)據(jù)庫(kù),卡牌游戲,知識(shí)圖譜等復(fù)雜任務(wù)處理場(chǎng)景中也展現(xiàn)出潛力。

Fig. 18. ?不同LLM在AgentBench中的概覽,雖然LLMs表現(xiàn)出了在LLM-as-Agent方向的能力,但是開(kāi)源模型和閉源商業(yè)模型的差距還是巨大

案例研究:

Fig. 19. 基于LLM的Automous Agent 發(fā)展趨勢(shì)

ChatGPT爆火以來(lái)Agent相關(guān)領(lǐng)域的研究蓬勃發(fā)展,目前Agent方向的相關(guān)論文已累計(jì)高達(dá)160篇。其中的Agent根據(jù)其各自的能力共分為四類(lèi):

科學(xué)研究Agent:

ChemCrow (Bran et al. 2023)是一個(gè)針對(duì)特定領(lǐng)域的例子,其中LLM使用13種專(zhuān)家設(shè)計(jì)工具來(lái)完成有機(jī)合成,藥物發(fā)現(xiàn)和材料設(shè)計(jì)等任務(wù)。這個(gè)工作流在Langchain中實(shí)施,使用了ReAct和MRKL中之前描述的內(nèi)容,并將CoT推理與任務(wù)相關(guān)的工具相結(jié)合:

一個(gè)有趣的現(xiàn)象是,雖然基于 LLM 的評(píng)估認(rèn)為 GPT-4 和 ChemCrow 的性能幾乎相當(dāng),但由專(zhuān)家對(duì)解決方案的完成度和化學(xué)正確性進(jìn)行的人工評(píng)估顯示,ChemCrow 的性能遠(yuǎn)遠(yuǎn)超過(guò) GPT-4。這表明,在需要深厚專(zhuān)業(yè)知識(shí)的領(lǐng)域中,使用 LLM 評(píng)估自身性能存在潛在問(wèn)題。專(zhuān)業(yè)知識(shí)的缺乏可能導(dǎo)致 LLM 不知道自己的缺陷,從而無(wú)法很好地判斷任務(wù)結(jié)果的正確性。

Boiko et al. (2023)還研究了用于科學(xué)發(fā)現(xiàn)的 LLM-empowered Agent,以處理復(fù)雜科學(xué)實(shí)驗(yàn)的自主設(shè)計(jì)、規(guī)劃和執(zhí)行。這種代理可以使用工具瀏覽互聯(lián)網(wǎng)、閱讀文檔、執(zhí)行代碼、調(diào)用機(jī)器人實(shí)驗(yàn) API 并利用其他 LLM。

例如,當(dāng)要求 “開(kāi)發(fā)一種新型抗癌藥物 “時(shí),模型得出了以下推理步驟:

1、詢問(wèn)當(dāng)前抗癌藥物研發(fā)的趨勢(shì);

2、選擇一個(gè)靶點(diǎn);

3、要求提供針對(duì)這些化合物的支架;

4、確定化合物后,模型嘗試進(jìn)行合成。

這篇文章還討論了各種風(fēng)險(xiǎn),特別是非法藥物和生物武器的風(fēng)險(xiǎn)。他們開(kāi)發(fā)了一個(gè)測(cè)試集包含了一系列已知的化學(xué)武器制劑列表,并要求Agent合成這些制劑。在11項(xiàng)請(qǐng)求中,有4項(xiàng)(36%)被接受以獲得合成解決方案,Agent試圖查閱文件以執(zhí)行程序。被拒絕的7個(gè)例子中,5個(gè)是在網(wǎng)絡(luò)搜索后被拒絕的,2個(gè)是在prompt提交后就直接拒絕的。

生成式Agent模擬:

Generative Agents (Park, et al. 2023)是一個(gè)超級(jí)有趣的實(shí)驗(yàn),受《模擬人生》的啟發(fā),25 個(gè)虛擬角色在沙盒環(huán)境中生活和互動(dòng),每個(gè)角色都由一個(gè) LLM 驅(qū)動(dòng)的代理控制。生成代理為互動(dòng)應(yīng)用創(chuàng)建了可信的人類(lèi)行為模擬。

生成式代理的設(shè)計(jì)將 LLM 與記憶、規(guī)劃和反思機(jī)制結(jié)合起來(lái),使代理的行為以過(guò)去的經(jīng)驗(yàn)為條件,并與其他代理互動(dòng)。

Fig. 20. 生成式Agent的框架

這種有趣的模擬產(chǎn)生了新的社會(huì)行為,如信息擴(kuò)散、關(guān)系記憶(如兩個(gè)Agent繼續(xù)對(duì)話主題)和社會(huì)事件協(xié)調(diào)(如舉辦聚會(huì)并邀請(qǐng)?jiān)S多其他人)。

Chance 機(jī)會(huì)

Fig. 21. LLM Agent的應(yīng)用場(chǎng)景(左)和評(píng)估策略(右)。

Challenge 挑戰(zhàn)

在了解了構(gòu)建以 LLM 為中心的Agent的主要想法和Demo之后,也開(kāi)始發(fā)現(xiàn)一些共同的局限性:

本文章轉(zhuǎn)載微信公眾號(hào)@知識(shí)工場(chǎng)

上一篇:

手把手教你用LangChain實(shí)現(xiàn)大模型Agent

下一篇:

如何用LLM和自有知識(shí)庫(kù)搭建智能agent?
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)