
如何快速實(shí)現(xiàn)REST API集成以優(yōu)化業(yè)務(wù)流程
根據(jù)AI App的智能化能力和解決問(wèn)題的能力進(jìn)行等級(jí)劃分及整體描述,我們可以近似得到以上的能力劃分表。隨著智能化的程度遞增,App能解決的問(wèn)題范圍也逐漸在擴(kuò)大。
LLM的過(guò)渡狀態(tài):
操作工具
?建議者
?執(zhí)行者
?控制器(決策者)
?高級(jí)智能體
角色的變化背后是智能屬性的增強(qiáng),當(dāng)然也是AI能力類(lèi)腦發(fā)展的一個(gè)趨勢(shì)。如果這樣一個(gè)發(fā)展趨勢(shì)是成立的,那么已經(jīng)跑通了PMF的微軟Copilot已經(jīng)算是L3的頂級(jí)應(yīng)用了。他的Moat本質(zhì)上在于場(chǎng)景和深耕多年的B端資源。
當(dāng)場(chǎng)景的價(jià)值弱化,那么工程深度就需要增加“厚度”或技術(shù)增強(qiáng)來(lái)建立起整體的應(yīng)用,以保證此類(lèi)AI應(yīng)用的Moat足夠深。
在AutoGPT、BabyGPT和GPT-Engineer的demo爆火之后,以LLM作為核心控制器來(lái)構(gòu)建L4的Agent成為一個(gè)很酷的概念。應(yīng)用場(chǎng)景的想象空間被打開(kāi),我們發(fā)現(xiàn)LLM的潛力不僅限于生成寫(xiě)得很好的副本、故事、文章和程序,它還可以作為一種強(qiáng)大的工具解決通用問(wèn)題。Agent System Overview—@Lilian Weng
Weng, Lilian. (Jun 2023). “LLM-powered Autonomous Agents”.
Lil’Log. https://lilianweng.github.io/posts/2023-06-23-agent/.
Autonomous Agent系統(tǒng)由LLM驅(qū)動(dòng),LLM作為代理的大腦,輔以幾個(gè)關(guān)鍵的組件。
Fig.2. 由LLM驅(qū)動(dòng)的Autonomouse Agent 系統(tǒng)
a16z提出的LLM App的新型架構(gòu),與論文中的介紹也是異曲同工。究其本質(zhì),是生物性的發(fā)展過(guò)程和整體類(lèi)比的結(jié)果,將LLM進(jìn)行類(lèi)腦比較,定位為整體中樞,進(jìn)行分工合作。七月初流出的GPT4的設(shè)計(jì)也有類(lèi)似的影子,MOE的存在。
一項(xiàng)復(fù)雜任務(wù)通常會(huì)包含很多步驟,Agent需要了解這些步驟是什么并提前規(guī)劃。
任務(wù)拆解:
Chain of thought (CoT; Wei et al. 2022) 已經(jīng)成為一種標(biāo)準(zhǔn)的Prompting技術(shù),用于提高模型在復(fù)雜任務(wù)中的性能。模型被要求“think step by step”利用更多的時(shí)間進(jìn)行計(jì)算,將艱難的任務(wù)分解成更小,更簡(jiǎn)單的步驟。CoT將大型任務(wù)轉(zhuǎn)化為多個(gè)可管理的任務(wù),并對(duì)模型的思維過(guò)程進(jìn)行了闡釋。
Tree of Thoughts (Yao et al. 2023) 進(jìn)一步擴(kuò)展CoT,在每一步都探索多種推理的可能性。它首先將問(wèn)題分解為多個(gè)思考步驟,并在每個(gè)步驟中生成多個(gè)思考,從而創(chuàng)造一個(gè)樹(shù)形結(jié)構(gòu)。搜索過(guò)程可以是BFS(廣度優(yōu)先搜索)或DFS(深度優(yōu)先搜索),每個(gè)狀態(tài)由分類(lèi)器(通過(guò)一個(gè)prompt)或少數(shù)服從多數(shù)的投票原則來(lái)決定。
任務(wù)分解可通過(guò)以下幾種方式實(shí)現(xiàn):
Graph of Thoughts(Besta et al. 2023)同時(shí)支持多鏈、樹(shù)形以及任意圖形結(jié)構(gòu)的Prompt方案,支持各種基于圖形的思考轉(zhuǎn)換,如聚合、回溯、循環(huán)等,這在CoT和ToT中是不可表達(dá)的。將復(fù)雜問(wèn)題建模為操作圖(Graph of Operations,GoO),以LLM作為引擎自動(dòng)執(zhí)行,從而提供解決復(fù)雜問(wèn)題的能力。某種程度上,GoT囊括了單線條的CoT和多分枝的ToT。
Fig.4. GoT與其他Prompt策略的比較
無(wú)論是CoT還是ToT,本質(zhì)上是通過(guò)Prompt的精心設(shè)計(jì),激發(fā)出模型原有的Metacognition
只是如何通過(guò)某條神經(jīng)元的線索能更加精準(zhǔn)的調(diào)動(dòng)出大腦中最擅長(zhǎng)Planning的部分
另一種截然不同的方式,LLM+P?(Liu et al. 2023),通過(guò)借助一個(gè)外部的經(jīng)典Planner來(lái)進(jìn)行一個(gè)更加長(zhǎng)序列的整體規(guī)劃。這種方法利用規(guī)劃域定義語(yǔ)言(Planning Domain Definition Language, PDDL)作為中間接口來(lái)描述規(guī)劃問(wèn)題。整個(gè)使用過(guò)程,首先LLM將問(wèn)題翻譯成“問(wèn)題PDDL”,接著請(qǐng)求經(jīng)典Planner根據(jù)現(xiàn)有的“領(lǐng)域PDDL”生成一個(gè)PDDL Plan,最后將PDDL計(jì)劃翻譯回自然語(yǔ)言(LLM做的)。根本上講,Planning Step是外包給外部工具的,當(dāng)然也有一個(gè)前提:需要有特定領(lǐng)域的PDDL和合適的Planner。
Fig.5. LLM+P 利用大型語(yǔ)言模型 (LLM) 生成給定問(wèn)題的 PDDL 描述,然后利用經(jīng)典規(guī)劃器尋找最佳計(jì)劃,然后再次使用 LLM 將原始計(jì)劃翻譯回自然語(yǔ)言。
Self-reflection是非常重要的一環(huán),它允許Agent通過(guò)完善過(guò)去的行動(dòng)決策和糾正以前的錯(cuò)誤來(lái)不斷改進(jìn)。現(xiàn)實(shí)世界中的任務(wù)中,試錯(cuò)仍然是無(wú)法避免的,自我反思在其中發(fā)揮著至關(guān)重要的作用。
ReAct?(Yao et al. 2023)即Reson+Act
通過(guò)將Action Space擴(kuò)展為特定任務(wù)的離散動(dòng)作和語(yǔ)言空間的組合,在LLM內(nèi)部整合了推理(Reasoning)和行動(dòng)(Action)。前者使LLM能夠與環(huán)境交互(例如,使用Wikipedia Search的 API),后者通過(guò)提示詞使得LLM用自然語(yǔ)言生成整體的推理過(guò)程。
ReAct提示詞模板包含了提供LLM思考的明確步驟,其大致格式為:
Thought: ...
Action: ...
Observation: ...
Fig.6. 知識(shí)密集型任務(wù)(如HotpotQA、FEVER)和決策型任務(wù)(如AlfWorld Env、WebShop)的推理軌跡示例
在知識(shí)密集型任務(wù)和決策任務(wù)的兩個(gè)實(shí)驗(yàn)中,ReAct的表現(xiàn)比去掉Thought...
的單一Act...
方式更加優(yōu)異。
Reflexion?(Shinn & Labash 2023)是一個(gè)讓Agent具備動(dòng)態(tài)記憶和自我反思能力以提高推理能力的框架。Reflexion采用標(biāo)準(zhǔn)的RL設(shè)置,其中獎(jiǎng)勵(lì)模型提供簡(jiǎn)單的二進(jìn)制獎(jiǎng)勵(lì),而Action Space則采用ReAct中的設(shè)置,即在特定任務(wù)的行動(dòng)空間中加入語(yǔ)言,以實(shí)現(xiàn)復(fù)雜的推理步驟。在每一個(gè)Action?at之后,Agent會(huì)計(jì)算一個(gè)啟發(fā)式函數(shù)ht,并根據(jù)自我反思的結(jié)果決定是否重置環(huán)境以開(kāi)始一個(gè)新的循環(huán)
Fig. 7. Reflexion的架構(gòu)示意圖
啟發(fā)式函數(shù)判斷何時(shí)整個(gè)循環(huán)軌跡是低效的或者何時(shí)因?yàn)榘嘶糜X(jué)需要停止。低效規(guī)劃指的是耗時(shí)過(guò)長(zhǎng)卻未成功的循環(huán)軌跡。幻覺(jué)是指在環(huán)境中遇到一連串相同的行動(dòng),而這些行動(dòng)會(huì)導(dǎo)致相同的觀察結(jié)果。
自我反思過(guò)程通過(guò)給LLM一個(gè)two-shot例子創(chuàng)造,每個(gè)例子都是一對(duì)(失敗的軌跡、在計(jì)劃中指導(dǎo)進(jìn)一步變化的理想反思)。接著,reflections將會(huì)被添加到Agent的工作記憶中作為查詢LLM的上下文,最多三個(gè)。
Fig. 8. AlfWorld Env 和 HotpotQA 實(shí)驗(yàn)。在 AlfWorld 中,幻覺(jué)是比低效規(guī)劃更常見(jiàn)失敗因素。
Chain of Hindsight (CoH; Liu et al. 2023) 通過(guò)向模型明確展示一系列過(guò)去的輸出結(jié)果,鼓勵(lì)模型改進(jìn)自己的輸出結(jié)果。人類(lèi)的反饋數(shù)據(jù)收集為,其中是提示詞,每個(gè)是一個(gè)模型生成的文本,表示人類(lèi)對(duì)的打分,是相應(yīng)的人類(lèi)對(duì)于過(guò)去輸出結(jié)果的反饋。假設(shè)反饋源按照獎(jiǎng)勵(lì)值來(lái)進(jìn)行排序,。這一過(guò)程本質(zhì)上是監(jiān)督微調(diào),在這個(gè)過(guò)程中數(shù)據(jù)是一個(gè)序列,形式如下,其中。這個(gè)模型被微調(diào)以前序列內(nèi)容為條件去預(yù)測(cè),這樣模型就能夠根據(jù)反饋序列進(jìn)行自我反思,以產(chǎn)生更好的輸出。在測(cè)試的時(shí)候,模型可以選擇接受人類(lèi)注釋者的多輪指導(dǎo)。
為了避免過(guò)擬合,CoH增加了一個(gè)正則化項(xiàng),來(lái)最大化預(yù)訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然概率。我為了避免捷徑化和復(fù)制(因?yàn)榉答佇蛄兄杏性S多常見(jiàn)單詞),在訓(xùn)練過(guò)程中他們隨機(jī)屏蔽了0%-5%的過(guò)去的token。
他們?cè)趯?shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)集是 WebGPT comparisons, summarization from human feedback和 human preference dataset。
Fig. 9. 在使用 CoH 進(jìn)行微調(diào)后,模型可以按照指令依次產(chǎn)生漸進(jìn)改進(jìn)的輸出結(jié)果。
CoH的理念是結(jié)合實(shí)際情況,展示連續(xù)改進(jìn)產(chǎn)出的歷史結(jié)果,并訓(xùn)練模型能夠順應(yīng)趨勢(shì),產(chǎn)生更好的輸出結(jié)果。Algorithm Distillation?(AD; Laskin et al. 2023)將同樣的理念應(yīng)用于強(qiáng)化學(xué)習(xí)任務(wù)中的跨周期軌跡,算法被封裝在一個(gè)長(zhǎng)歷史條件策略中。考慮到Agent會(huì)與環(huán)境多次交互,并且每個(gè)周期內(nèi)Agent都會(huì)變得更好,AD將這些學(xué)習(xí)歷史連接起來(lái)并將其喂到模型里。因此,我們應(yīng)該期待下一次預(yù)測(cè)的行動(dòng)會(huì)比之前的試驗(yàn)取得更好的結(jié)果。目標(biāo)是AD學(xué)習(xí)RL算法的過(guò)程,而不是訓(xùn)練特定任務(wù)的策略本身。
Fig. 10. 算法蒸餾 (AD) 工作原理示意圖。
這篇論文假設(shè),任何能生成一組學(xué)習(xí)歷史記錄的算法,都可以通過(guò)對(duì)action克隆提煉出一個(gè)神經(jīng)網(wǎng)絡(luò)。歷史數(shù)據(jù)由一組源策略生成,每個(gè)策略都針對(duì)特定任務(wù)進(jìn)行過(guò)訓(xùn)練。在訓(xùn)練階段,每次運(yùn)行RL時(shí),都會(huì)隨機(jī)抽取一個(gè)任務(wù)。并使用多集歷史數(shù)據(jù)的子序列進(jìn)行訓(xùn)練從而使學(xué)習(xí)到的策略與任務(wù)無(wú)關(guān)。
實(shí)際上,模型的上下文窗口長(zhǎng)度是有限的,所以每一小節(jié)應(yīng)該足夠短,以構(gòu)建更多的歷史小節(jié)。需要2-4個(gè)小節(jié)的多節(jié)上下文來(lái)學(xué)習(xí)一個(gè)接近最優(yōu)的上下文內(nèi)強(qiáng)化學(xué)習(xí)算法。上下文內(nèi)的強(qiáng)化學(xué)習(xí)的出現(xiàn)需要足夠長(zhǎng)的上下文內(nèi)容。
與其他三種基線相比較,a)ED(專(zhuān)家提煉,用專(zhuān)家軌跡代替學(xué)習(xí)歷史的行為克隆),b)源策略(用于生成UCB的蒸餾軌跡),c)(Duan et al. 2017;用作上限,但是他需要在線RL)AD展示了在上下文中的強(qiáng)化學(xué)習(xí),其性能接近RL^2,盡管只使用了離線強(qiáng)化學(xué)習(xí),并且比其他基線學(xué)習(xí)得更快。當(dāng)基于源策略的部分訓(xùn)練歷史進(jìn)行調(diào)節(jié)時(shí),AD的改進(jìn)速度也比ED基線快得多。
Fig. 11. 在需要記憶和探索的環(huán)境中,對(duì) AD、ED、源策略和 RL^2 進(jìn)行比較。只分配二進(jìn)制獎(jiǎng)勵(lì)。在 “黑暗 “環(huán)境中使用 A3C 對(duì)源策略進(jìn)行訓(xùn)練,在 “水迷宮 “環(huán)境中使用 DQN 對(duì)源策略進(jìn)行訓(xùn)練。
只有更好的Plan,沒(méi)有最好的Plan
一邊從歷史長(zhǎng)河中學(xué)習(xí),一邊向前思考向外求索
記憶類(lèi)型:
記憶可以定義為用于獲取、存儲(chǔ)、保留和隨后檢索信息的過(guò)程。人腦中有多種類(lèi)型的記憶。
Fig. 12. 人類(lèi)記憶的分類(lèi)
大致的將這些記憶內(nèi)容映射到LLM中
通過(guò)使用外部存儲(chǔ)器可以緩解關(guān)注范圍有限的限制。一種標(biāo)準(zhǔn)的做法是將信息的嵌入表示法保存到向量數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)能夠支持快速的最大內(nèi)積搜索(MIPS)。為了優(yōu)化檢索速度,常見(jiàn)的選擇是近似相鄰(Approximate Nearest Neighbors,ANN)算法,返回近似的top k個(gè)近鄰,用損失少量的精度來(lái)?yè)Q取速度的巨大提升。
幾種常見(jiàn)的ANN算法選擇進(jìn)行快速M(fèi)IPS
Fig. 13. MIPS 算法的比較,以召回率@10 為衡量標(biāo)準(zhǔn)。(Image source: Google Blog, 2020)
在 ann-benchmarks.com 上查看更多 MIPS 算法和性能比較。
記憶的獲取在某種程度上會(huì)提高Planning整體質(zhì)量,但同時(shí)也會(huì)拉長(zhǎng)整體服務(wù)的時(shí)延,因此如何快速且精準(zhǔn)的捕捉相關(guān)的記憶至關(guān)重要。Vector Search和Attention Mechanism之間的平衡也是速度與準(zhǔn)確性之間的平衡
當(dāng)然都是因?yàn)闆](méi)有無(wú)限的上下文學(xué)習(xí)
使用工具是人類(lèi)的一個(gè)顯著特點(diǎn),我們創(chuàng)造、修改和利用外部物體來(lái)完成超越我們身體和認(rèn)知極限的事情。為L(zhǎng)LM配備外部工具可以大大擴(kuò)展模型的功能。
Fig. 14.海豹使用工具工具的分類(lèi):
Fig. 15. 工具的四種分類(lèi)
確定性工具-API工具-專(zhuān)家模型-物理世界工具
讓語(yǔ)言模型只做語(yǔ)言模型該做的事兒,通過(guò)文字生成內(nèi)容傳遞邏輯。
借助各式各樣的工具完成邏輯的執(zhí)行
MRKL?(Karpas et al. 2022),是 “模塊化推理、知識(shí)和語(yǔ)言 “(Modular Reasoning,Knowledge and Language)的簡(jiǎn)稱(chēng),是一種用于自主代理的神經(jīng)符號(hào)架構(gòu)。建議 MRKL 系統(tǒng)包含一系列 “專(zhuān)家 “模塊,而通用 LLM 則充當(dāng)路由器,將查詢路由到最合適的專(zhuān)家模塊。這些模塊可以是神經(jīng)模塊(如深度學(xué)習(xí)模型),也可以是符號(hào)模塊(如數(shù)學(xué)計(jì)算器、貨幣轉(zhuǎn)換器、天氣 API)。
他們用算術(shù)作為測(cè)試案例,做了一個(gè)微調(diào) LLM 以調(diào)用計(jì)算器的實(shí)驗(yàn)。他們的實(shí)驗(yàn)表明,由于 LLM(7B Jurassic1-large 模型)無(wú)法可靠地提取基本算術(shù)的正確論據(jù),因此解決口算數(shù)學(xué)問(wèn)題比解決明確表述的數(shù)學(xué)問(wèn)題更難。這些結(jié)果突出表明,當(dāng)外部符號(hào)工具能夠可靠地發(fā)揮作用時(shí),了解何時(shí)以及如何使用這些工具至關(guān)重要,這取決于 LLM 的能力。
TALM?(工具增強(qiáng)型語(yǔ)言模型Tool Augmented Language Models; Parisi et al. 2022)和Toolformer?(Schick et al. 2023)都做了微調(diào)LM,學(xué)習(xí)使用外部工具。數(shù)據(jù)集的擴(kuò)展與否取決于新添加的API調(diào)用注釋能否提高模型輸出的質(zhì)量。更多詳情,參閱Prompt Engineering的 “External APIs” section。
ChatGPT Plugins 和 OpenAI API 函數(shù)調(diào)用就是增強(qiáng)了工具使用能力的 LLM 在實(shí)踐中發(fā)揮作用的良好范例。工具應(yīng)用程序接口集合可以由其他開(kāi)發(fā)人員提供(如插件)或自行定義(如函數(shù)調(diào)用)。
HuggingGPT?(Shen et al. 2023)是一個(gè)使用 ChatGPT 作為任務(wù)規(guī)劃器的框架,用于根據(jù)模型描述選擇 HuggingFace 平臺(tái)中可用的模型,并根據(jù)執(zhí)行結(jié)果總結(jié)響應(yīng)。
Fig. 16. HuggingGPT 工作原理示意圖
該系統(tǒng)包括4個(gè)階段:
(1)任務(wù)規(guī)劃(Task planning):LLM 充當(dāng)大腦,將用戶請(qǐng)求解析為多個(gè)任務(wù)。每個(gè)任務(wù)都有四個(gè)相關(guān)屬性:任務(wù)類(lèi)型、ID、依賴(lài)關(guān)系和參數(shù)。他們使用少量的示例來(lái)指導(dǎo) LLM 進(jìn)行任務(wù)解析和規(guī)劃。
(2)模型選擇(Model selection):LLM 將任務(wù)分配給專(zhuān)家模型,其中的要求是一個(gè)多選題。LLM 會(huì)收到一份可供選擇的模型列表。由于上下文長(zhǎng)度有限,因此需要進(jìn)行基于任務(wù)類(lèi)型的過(guò)濾。
(3)任務(wù)執(zhí)行(Task execution):專(zhuān)家模型執(zhí)行特定任務(wù)并記錄結(jié)果。
(4)返回結(jié)果(Response generation):LLM 接收?qǐng)?zhí)行結(jié)果,并向用戶提供匯總結(jié)果。
如果要將 HuggingGPT 投入實(shí)際應(yīng)用,需要解決幾個(gè)難題:
模型評(píng)估:
API-Bank?(Li et al. 2023) 是評(píng)估工具增強(qiáng)型LLMs性能的基準(zhǔn)。它包含了53個(gè)常用的API工具,一個(gè)完整的工具增強(qiáng)型LLM的工作流,以及264個(gè)注釋對(duì)話其中涉及了568個(gè)API的調(diào)用。可供選擇的 API 種類(lèi)繁多,包括搜索引擎、計(jì)算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流程等。由于有大量的 API,LLM 首先可以訪問(wèn) API 搜索引擎,找到要調(diào)用的正確 API,然后使用相應(yīng)的文檔進(jìn)行調(diào)用。
Fig. 17. LLM 如何在 API-Bank 中調(diào)用 API 的偽代碼
在 API-Bank 工作流程中,LLM 需要做出幾個(gè)決定,我們可以在每個(gè)步驟中評(píng)估該決定的準(zhǔn)確性。
決策包括:
該基準(zhǔn)從三個(gè)層面對(duì)代理的工具使用能力進(jìn)行評(píng)估:
AgentBench(Liu et al. 2023)是一個(gè)多維度且不斷發(fā)展的Agent Benchmark,目前選擇8個(gè)不同的場(chǎng)景(操作系統(tǒng)、數(shù)據(jù)庫(kù)、知識(shí)圖譜、數(shù)字卡牌游戲、側(cè)向思維謎題、家務(wù)管理、網(wǎng)絡(luò)購(gòu)物和網(wǎng)頁(yè)瀏覽),用于評(píng)估LLM作為Agent在多輪開(kāi)放式生成環(huán)境中的推理和決策能力。系統(tǒng)性測(cè)試了25個(gè)LLM在八個(gè)環(huán)境中的表現(xiàn),從整體得分來(lái)看GPT4遙遙領(lǐng)先。在數(shù)據(jù)庫(kù),卡牌游戲,知識(shí)圖譜等復(fù)雜任務(wù)處理場(chǎng)景中也展現(xiàn)出潛力。
Fig. 18. ?不同LLM在AgentBench中的概覽,雖然LLMs表現(xiàn)出了在LLM-as-Agent方向的能力,但是開(kāi)源模型和閉源商業(yè)模型的差距還是巨大
Fig. 19. 基于LLM的Automous Agent 發(fā)展趨勢(shì)
自ChatGPT爆火以來(lái)Agent相關(guān)領(lǐng)域的研究蓬勃發(fā)展,目前Agent方向的相關(guān)論文已累計(jì)高達(dá)160篇。其中的Agent根據(jù)其各自的能力共分為四類(lèi):
科學(xué)研究Agent:
ChemCrow (Bran et al. 2023)是一個(gè)針對(duì)特定領(lǐng)域的例子,其中LLM使用13種專(zhuān)家設(shè)計(jì)工具來(lái)完成有機(jī)合成,藥物發(fā)現(xiàn)和材料設(shè)計(jì)等任務(wù)。這個(gè)工作流在Langchain中實(shí)施,使用了ReAct和MRKL中之前描述的內(nèi)容,并將CoT推理與任務(wù)相關(guān)的工具相結(jié)合:
Thought-Action-Action Input-Observation
一個(gè)有趣的現(xiàn)象是,雖然基于 LLM 的評(píng)估認(rèn)為 GPT-4 和 ChemCrow 的性能幾乎相當(dāng),但由專(zhuān)家對(duì)解決方案的完成度和化學(xué)正確性進(jìn)行的人工評(píng)估顯示,ChemCrow 的性能遠(yuǎn)遠(yuǎn)超過(guò) GPT-4。這表明,在需要深厚專(zhuān)業(yè)知識(shí)的領(lǐng)域中,使用 LLM 評(píng)估自身性能存在潛在問(wèn)題。專(zhuān)業(yè)知識(shí)的缺乏可能導(dǎo)致 LLM 不知道自己的缺陷,從而無(wú)法很好地判斷任務(wù)結(jié)果的正確性。
Boiko et al. (2023)還研究了用于科學(xué)發(fā)現(xiàn)的 LLM-empowered Agent,以處理復(fù)雜科學(xué)實(shí)驗(yàn)的自主設(shè)計(jì)、規(guī)劃和執(zhí)行。這種代理可以使用工具瀏覽互聯(lián)網(wǎng)、閱讀文檔、執(zhí)行代碼、調(diào)用機(jī)器人實(shí)驗(yàn) API 并利用其他 LLM。
例如,當(dāng)要求 “開(kāi)發(fā)一種新型抗癌藥物 “時(shí),模型得出了以下推理步驟:
1、詢問(wèn)當(dāng)前抗癌藥物研發(fā)的趨勢(shì);
2、選擇一個(gè)靶點(diǎn);
3、要求提供針對(duì)這些化合物的支架;
4、確定化合物后,模型嘗試進(jìn)行合成。
這篇文章還討論了各種風(fēng)險(xiǎn),特別是非法藥物和生物武器的風(fēng)險(xiǎn)。他們開(kāi)發(fā)了一個(gè)測(cè)試集包含了一系列已知的化學(xué)武器制劑列表,并要求Agent合成這些制劑。在11項(xiàng)請(qǐng)求中,有4項(xiàng)(36%)被接受以獲得合成解決方案,Agent試圖查閱文件以執(zhí)行程序。被拒絕的7個(gè)例子中,5個(gè)是在網(wǎng)絡(luò)搜索后被拒絕的,2個(gè)是在prompt提交后就直接拒絕的。
生成式Agent模擬:
Generative Agents (Park, et al. 2023)是一個(gè)超級(jí)有趣的實(shí)驗(yàn),受《模擬人生》的啟發(fā),25 個(gè)虛擬角色在沙盒環(huán)境中生活和互動(dòng),每個(gè)角色都由一個(gè) LLM 驅(qū)動(dòng)的代理控制。生成代理為互動(dòng)應(yīng)用創(chuàng)建了可信的人類(lèi)行為模擬。
生成式代理的設(shè)計(jì)將 LLM 與記憶、規(guī)劃和反思機(jī)制結(jié)合起來(lái),使代理的行為以過(guò)去的經(jīng)驗(yàn)為條件,并與其他代理互動(dòng)。
{Intro of an agent X}. Here is X's plan today in broad strokes: 1)
Fig. 20. 生成式Agent的框架
這種有趣的模擬產(chǎn)生了新的社會(huì)行為,如信息擴(kuò)散、關(guān)系記憶(如兩個(gè)Agent繼續(xù)對(duì)話主題)和社會(huì)事件協(xié)調(diào)(如舉辦聚會(huì)并邀請(qǐng)?jiān)S多其他人)。
Fig. 21. LLM Agent的應(yīng)用場(chǎng)景(左)和評(píng)估策略(右)。
在了解了構(gòu)建以 LLM 為中心的Agent的主要想法和Demo之后,也開(kāi)始發(fā)現(xiàn)一些共同的局限性:
本文章轉(zhuǎn)載微信公眾號(hào)@知識(shí)工場(chǎng)
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)