九九热亚洲精品综合视频,欧美一级特黄aaaaaa在线看片,在线观看免费人成在卡视频成

根據(jù)AI App的智能化能力和解決問(wèn)題的能力進(jìn)行等級(jí)劃分及整體描述，我們可以近似得到以上的能力劃分表。隨著智能化的程度遞增，App能解決的問(wèn)題范圍也逐漸在擴(kuò)大。

LLM的過(guò)渡狀態(tài)：

操作工具?建議者?執(zhí)行者?控制器（決策者）?高級(jí)智能體

角色的變化背后是智能屬性的增強(qiáng)，當(dāng)然也是AI能力類(lèi)腦發(fā)展的一個(gè)趨勢(shì)。如果這樣一個(gè)發(fā)展趨勢(shì)是成立的，那么已經(jīng)跑通了PMF的微軟Copilot已經(jīng)算是L3的頂級(jí)應(yīng)用了。他的Moat本質(zhì)上在于場(chǎng)景和深耕多年的B端資源。

當(dāng)場(chǎng)景的價(jià)值弱化，那么工程深度就需要增加“厚度”或技術(shù)增強(qiáng)來(lái)建立起整體的應(yīng)用，以保證此類(lèi)AI應(yīng)用的Moat足夠深。

在AutoGPT、BabyGPT和GPT-Engineer的demo爆火之后，以LLM作為核心控制器來(lái)構(gòu)建L4的Agent成為一個(gè)很酷的概念。應(yīng)用場(chǎng)景的想象空間被打開(kāi)，我們發(fā)現(xiàn)LLM的潛力不僅限于生成寫(xiě)得很好的副本、故事、文章和程序，它還可以作為一種強(qiáng)大的工具解決通用問(wèn)題。Agent System Overview—@Lilian Weng

Weng, Lilian. (Jun 2023). “LLM-powered Autonomous Agents”.

Lil’Log. https://lilianweng.github.io/posts/2023-06-23-agent/.

Autonomous Agent系統(tǒng)由LLM驅(qū)動(dòng)，LLM作為代理的大腦，輔以幾個(gè)關(guān)鍵的組件。

Fig.2. 由LLM驅(qū)動(dòng)的Autonomouse Agent 系統(tǒng)

Planning
拆解子目標(biāo)和任務(wù)分解：Agent能夠?qū)⒋笮腿蝿?wù)分解為較小，易于管理的子目標(biāo)，從而高效地處理復(fù)雜任務(wù)。
自查與自糾：Agent能夠?qū)^(guò)去的actions進(jìn)行自我批評(píng)和自我反省，從錯(cuò)誤中吸取教訓(xùn)，并在今后的工作中加以改進(jìn)，從而提高最終結(jié)果的質(zhì)量（本質(zhì)上是產(chǎn)生RL的數(shù)據(jù)，RL并不需要HF）
Memory
短期記憶：所有in-context learning都是利用模型的短期記憶來(lái)進(jìn)行學(xué)習(xí)的。（在這背后的主要支撐是Prompt Engineering）
長(zhǎng)期記憶：為Agent提供了在較長(zhǎng)時(shí)間內(nèi)保留和recall（無(wú)限）信息的能力，通常是利用外部的向量存儲(chǔ)和快速檢索（借助向量數(shù)據(jù)庫(kù)的力量實(shí)現(xiàn)）[召回率的高低也直接決定了Agent復(fù)雜內(nèi)容記憶及檢索的效果]
Tool Use
Agent學(xué)習(xí)調(diào)用外部應(yīng)用程序的API，以獲取模型訓(xùn)練數(shù)據(jù)權(quán)重中缺失的“額外信息”（任務(wù)相關(guān)，預(yù)訓(xùn)練后通常難以更改），包含當(dāng)前信息、代碼執(zhí)行能、專(zhuān)有信息源的訪問(wèn)權(quán)限等。（code interpreter的出現(xiàn)本質(zhì)上也是OpenAI繼plugin之后對(duì)于Agent的進(jìn)一步探索）

a16z提出的LLM App的新型架構(gòu)，與論文中的介紹也是異曲同工。究其本質(zhì)，是生物性的發(fā)展過(guò)程和整體類(lèi)比的結(jié)果，將LLM進(jìn)行類(lèi)腦比較，定位為整體中樞，進(jìn)行分工合作。七月初流出的GPT4的設(shè)計(jì)也有類(lèi)似的影子，MOE的存在。

第一部分：Planning

一項(xiàng)復(fù)雜任務(wù)通常會(huì)包含很多步驟，Agent需要了解這些步驟是什么并提前規(guī)劃。

任務(wù)拆解：

Chain of thought (CoT; Wei et al. 2022) 已經(jīng)成為一種標(biāo)準(zhǔn)的Prompting技術(shù)，用于提高模型在復(fù)雜任務(wù)中的性能。模型被要求“think step by step”利用更多的時(shí)間進(jìn)行計(jì)算，將艱難的任務(wù)分解成更小，更簡(jiǎn)單的步驟。CoT將大型任務(wù)轉(zhuǎn)化為多個(gè)可管理的任務(wù)，并對(duì)模型的思維過(guò)程進(jìn)行了闡釋。

Tree of Thoughts (Yao et al. 2023) 進(jìn)一步擴(kuò)展CoT，在每一步都探索多種推理的可能性。它首先將問(wèn)題分解為多個(gè)思考步驟，并在每個(gè)步驟中生成多個(gè)思考，從而創(chuàng)造一個(gè)樹(shù)形結(jié)構(gòu)。搜索過(guò)程可以是BFS(廣度優(yōu)先搜索）或DFS（深度優(yōu)先搜索），每個(gè)狀態(tài)由分類(lèi)器（通過(guò)一個(gè)prompt）或少數(shù)服從多數(shù)的投票原則來(lái)決定。

任務(wù)分解可通過(guò)以下幾種方式實(shí)現(xiàn)：

給LLM一個(gè)簡(jiǎn)單的提示詞“Steps for XYZ.\n1.”，“What are the subgoals for achieving XYZ?”
使用針對(duì)具體任務(wù)的指令，例如對(duì)一個(gè)寫(xiě)小說(shuō)的任務(wù)先給出“Write a story outline.”指令
使用者直接輸入

Graph of Thoughts（Besta et al. 2023）同時(shí)支持多鏈、樹(shù)形以及任意圖形結(jié)構(gòu)的Prompt方案，支持各種基于圖形的思考轉(zhuǎn)換,如聚合、回溯、循環(huán)等,這在CoT和ToT中是不可表達(dá)的。將復(fù)雜問(wèn)題建模為操作圖（Graph of Operations，GoO),以LLM作為引擎自動(dòng)執(zhí)行，從而提供解決復(fù)雜問(wèn)題的能力。某種程度上，GoT囊括了單線條的CoT和多分枝的ToT。

Fig.4. GoT與其他Prompt策略的比較

無(wú)論是CoT還是ToT，本質(zhì)上是通過(guò)Prompt的精心設(shè)計(jì)，激發(fā)出模型原有的Metacognition
只是如何通過(guò)某條神經(jīng)元的線索能更加精準(zhǔn)的調(diào)動(dòng)出大腦中最擅長(zhǎng)Planning的部分

另一種截然不同的方式，LLM+P?(Liu et al. 2023)，通過(guò)借助一個(gè)外部的經(jīng)典Planner來(lái)進(jìn)行一個(gè)更加長(zhǎng)序列的整體規(guī)劃。這種方法利用規(guī)劃域定義語(yǔ)言（Planning Domain Definition Language, PDDL）作為中間接口來(lái)描述規(guī)劃問(wèn)題。整個(gè)使用過(guò)程，首先LLM將問(wèn)題翻譯成“問(wèn)題PDDL”，接著請(qǐng)求經(jīng)典Planner根據(jù)現(xiàn)有的“領(lǐng)域PDDL”生成一個(gè)PDDL Plan，最后將PDDL計(jì)劃翻譯回自然語(yǔ)言（LLM做的）。根本上講，Planning Step是外包給外部工具的，當(dāng)然也有一個(gè)前提：需要有特定領(lǐng)域的PDDL和合適的Planner。

Fig.5. LLM+P 利用大型語(yǔ)言模型 (LLM) 生成給定問(wèn)題的 PDDL 描述，然后利用經(jīng)典規(guī)劃器尋找最佳計(jì)劃，然后再次使用 LLM 將原始計(jì)劃翻譯回自然語(yǔ)言。

模型自我反省:

Self-reflection是非常重要的一環(huán)，它允許Agent通過(guò)完善過(guò)去的行動(dòng)決策和糾正以前的錯(cuò)誤來(lái)不斷改進(jìn)。現(xiàn)實(shí)世界中的任務(wù)中，試錯(cuò)仍然是無(wú)法避免的，自我反思在其中發(fā)揮著至關(guān)重要的作用。

ReAct?(Yao et al. 2023)即Reson+Act通過(guò)將Action Space擴(kuò)展為特定任務(wù)的離散動(dòng)作和語(yǔ)言空間的組合，在LLM內(nèi)部整合了推理（Reasoning）和行動(dòng)（Action）。前者使LLM能夠與環(huán)境交互（例如，使用Wikipedia Search的 API），后者通過(guò)提示詞使得LLM用自然語(yǔ)言生成整體的推理過(guò)程。

ReAct提示詞模板包含了提供LLM思考的明確步驟，其大致格式為：

Thought: ...

Action: ...

Observation: ...

Fig.6. 知識(shí)密集型任務(wù)（如HotpotQA、FEVER）和決策型任務(wù)（如AlfWorld Env、WebShop）的推理軌跡示例

在知識(shí)密集型任務(wù)和決策任務(wù)的兩個(gè)實(shí)驗(yàn)中，ReAct的表現(xiàn)比去掉Thought...的單一Act...方式更加優(yōu)異。

Reflexion?(Shinn & Labash 2023)是一個(gè)讓Agent具備動(dòng)態(tài)記憶和自我反思能力以提高推理能力的框架。Reflexion采用標(biāo)準(zhǔn)的RL設(shè)置，其中獎(jiǎng)勵(lì)模型提供簡(jiǎn)單的二進(jìn)制獎(jiǎng)勵(lì)，而Action Space則采用ReAct中的設(shè)置，即在特定任務(wù)的行動(dòng)空間中加入語(yǔ)言，以實(shí)現(xiàn)復(fù)雜的推理步驟。在每一個(gè)Action?a_{_t}之后，Agent會(huì)計(jì)算一個(gè)啟發(fā)式函數(shù)h_{_t}，并根據(jù)自我反思的結(jié)果決定是否重置環(huán)境以開(kāi)始一個(gè)新的循環(huán)

Fig. 7. Reflexion的架構(gòu)示意圖

啟發(fā)式函數(shù)判斷何時(shí)整個(gè)循環(huán)軌跡是低效的或者何時(shí)因?yàn)榘嘶糜X(jué)需要停止。低效規(guī)劃指的是耗時(shí)過(guò)長(zhǎng)卻未成功的循環(huán)軌跡。幻覺(jué)是指在環(huán)境中遇到一連串相同的行動(dòng)，而這些行動(dòng)會(huì)導(dǎo)致相同的觀察結(jié)果。

自我反思過(guò)程通過(guò)給LLM一個(gè)two-shot例子創(chuàng)造，每個(gè)例子都是一對(duì)（失敗的軌跡、在計(jì)劃中指導(dǎo)進(jìn)一步變化的理想反思）。接著，reflections將會(huì)被添加到Agent的工作記憶中作為查詢LLM的上下文，最多三個(gè)。

Fig. 8. AlfWorld Env 和 HotpotQA 實(shí)驗(yàn)。在 AlfWorld 中，幻覺(jué)是比低效規(guī)劃更常見(jiàn)失敗因素。

Chain of Hindsight (CoH; Liu et al. 2023) 通過(guò)向模型明確展示一系列過(guò)去的輸出結(jié)果，鼓勵(lì)模型改進(jìn)自己的輸出結(jié)果。人類(lèi)的反饋數(shù)據(jù)收集為，其中是提示詞，每個(gè)是一個(gè)模型生成的文本，表示人類(lèi)對(duì)的打分，是相應(yīng)的人類(lèi)對(duì)于過(guò)去輸出結(jié)果的反饋。假設(shè)反饋源按照獎(jiǎng)勵(lì)值來(lái)進(jìn)行排序，。這一過(guò)程本質(zhì)上是監(jiān)督微調(diào)，在這個(gè)過(guò)程中數(shù)據(jù)是一個(gè)序列，形式如下，其中。這個(gè)模型被微調(diào)以前序列內(nèi)容為條件去預(yù)測(cè)，這樣模型就能夠根據(jù)反饋序列進(jìn)行自我反思，以產(chǎn)生更好的輸出。在測(cè)試的時(shí)候，模型可以選擇接受人類(lèi)注釋者的多輪指導(dǎo)。

為了避免過(guò)擬合，CoH增加了一個(gè)正則化項(xiàng)，來(lái)最大化預(yù)訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然概率。我為了避免捷徑化和復(fù)制（因?yàn)榉答佇蛄兄杏性S多常見(jiàn)單詞），在訓(xùn)練過(guò)程中他們隨機(jī)屏蔽了0%-5%的過(guò)去的token。

他們?cè)趯?shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)集是 WebGPT comparisons, summarization from human feedback和 human preference dataset。

Fig. 9. 在使用 CoH 進(jìn)行微調(diào)后，模型可以按照指令依次產(chǎn)生漸進(jìn)改進(jìn)的輸出結(jié)果。

CoH的理念是結(jié)合實(shí)際情況，展示連續(xù)改進(jìn)產(chǎn)出的歷史結(jié)果，并訓(xùn)練模型能夠順應(yīng)趨勢(shì)，產(chǎn)生更好的輸出結(jié)果。Algorithm Distillation?(AD; Laskin et al. 2023）將同樣的理念應(yīng)用于強(qiáng)化學(xué)習(xí)任務(wù)中的跨周期軌跡，算法被封裝在一個(gè)長(zhǎng)歷史條件策略中。考慮到Agent會(huì)與環(huán)境多次交互，并且每個(gè)周期內(nèi)Agent都會(huì)變得更好，AD將這些學(xué)習(xí)歷史連接起來(lái)并將其喂到模型里。因此，我們應(yīng)該期待下一次預(yù)測(cè)的行動(dòng)會(huì)比之前的試驗(yàn)取得更好的結(jié)果。目標(biāo)是AD學(xué)習(xí)RL算法的過(guò)程，而不是訓(xùn)練特定任務(wù)的策略本身。

Fig. 10. 算法蒸餾 (AD) 工作原理示意圖。

這篇論文假設(shè)，任何能生成一組學(xué)習(xí)歷史記錄的算法，都可以通過(guò)對(duì)action克隆提煉出一個(gè)神經(jīng)網(wǎng)絡(luò)。歷史數(shù)據(jù)由一組源策略生成，每個(gè)策略都針對(duì)特定任務(wù)進(jìn)行過(guò)訓(xùn)練。在訓(xùn)練階段，每次運(yùn)行RL時(shí)，都會(huì)隨機(jī)抽取一個(gè)任務(wù)。并使用多集歷史數(shù)據(jù)的子序列進(jìn)行訓(xùn)練從而使學(xué)習(xí)到的策略與任務(wù)無(wú)關(guān)。

實(shí)際上，模型的上下文窗口長(zhǎng)度是有限的，所以每一小節(jié)應(yīng)該足夠短，以構(gòu)建更多的歷史小節(jié)。需要2-4個(gè)小節(jié)的多節(jié)上下文來(lái)學(xué)習(xí)一個(gè)接近最優(yōu)的上下文內(nèi)強(qiáng)化學(xué)習(xí)算法。上下文內(nèi)的強(qiáng)化學(xué)習(xí)的出現(xiàn)需要足夠長(zhǎng)的上下文內(nèi)容。

與其他三種基線相比較，a）ED（專(zhuān)家提煉，用專(zhuān)家軌跡代替學(xué)習(xí)歷史的行為克隆），b）源策略（用于生成UCB的蒸餾軌跡），c）（Duan et al. 2017;用作上限，但是他需要在線RL）AD展示了在上下文中的強(qiáng)化學(xué)習(xí)，其性能接近RL^2，盡管只使用了離線強(qiáng)化學(xué)習(xí)，并且比其他基線學(xué)習(xí)得更快。當(dāng)基于源策略的部分訓(xùn)練歷史進(jìn)行調(diào)節(jié)時(shí)，AD的改進(jìn)速度也比ED基線快得多。

Fig. 11. 在需要記憶和探索的環(huán)境中，對(duì) AD、ED、源策略和 RL^2 進(jìn)行比較。只分配二進(jìn)制獎(jiǎng)勵(lì)。在 “黑暗 “環(huán)境中使用 A3C 對(duì)源策略進(jìn)行訓(xùn)練，在 “水迷宮 “環(huán)境中使用 DQN 對(duì)源策略進(jìn)行訓(xùn)練。

只有更好的Plan，沒(méi)有最好的Plan
一邊從歷史長(zhǎng)河中學(xué)習(xí)，一邊向前思考向外求索

第二部分：Memory

記憶類(lèi)型：

記憶可以定義為用于獲取、存儲(chǔ)、保留和隨后檢索信息的過(guò)程。人腦中有多種類(lèi)型的記憶。

感官記憶：這是記憶的最早期階段，在接受了原始刺激后保留的感官信息（視覺(jué)、聽(tīng)覺(jué)等）印象的能力。感官記憶通常只能持續(xù)幾秒鐘。其中包含圖標(biāo)記憶（視覺(jué)）、回聲記憶（聽(tīng)覺(jué)）和觸碰記憶（觸覺(jué)）。
短時(shí)記憶（STM)或工作記憶：它存儲(chǔ)了我們當(dāng)前意識(shí)到的信息，以及執(zhí)行復(fù)雜認(rèn)知任務(wù)（如學(xué)習(xí)和推理）所需的信息。短期記憶被認(rèn)為有大約7個(gè)項(xiàng)目的容量，并能夠持續(xù)20-30秒。
長(zhǎng)時(shí)記憶（LTM）：長(zhǎng)時(shí)記憶可以將信息存儲(chǔ)很長(zhǎng)時(shí)間，從幾天到幾十年不等，存儲(chǔ)容量基本上是無(wú)限的。長(zhǎng)時(shí)記憶分為兩種：
顯性/陳述性記憶：對(duì)事實(shí)和事件的記憶，指那些可以有意識(shí)地回憶起的記憶，包括外顯記憶（事件和經(jīng)歷）和語(yǔ)義記憶（事實(shí)和概括）。
隱形/程序性記憶：這種記憶是無(wú)意識(shí)的，設(shè)計(jì)自動(dòng)執(zhí)行的技能和例行程序，如騎車(chē)、在鍵盤(pán)上打字。

Fig. 12. 人類(lèi)記憶的分類(lèi)

大致的將這些記憶內(nèi)容映射到LLM中

感官記憶作為對(duì)原始輸入（包括文本、圖像或其他模態(tài)）的學(xué)習(xí)嵌入表示
短期記憶作為上下文學(xué)習(xí)。它是短暫且有限的，因?yàn)樗艿搅藅ransformer結(jié)構(gòu)的上下文窗口長(zhǎng)度的限制
長(zhǎng)期記憶作為Agent在查詢時(shí)可以關(guān)注的外部向量存儲(chǔ)，可以通過(guò)快速檢索來(lái)進(jìn)行訪問(wèn)

最大內(nèi)部產(chǎn)品搜索（Maximum Inner Product Search，MIPS）

通過(guò)使用外部存儲(chǔ)器可以緩解關(guān)注范圍有限的限制。一種標(biāo)準(zhǔn)的做法是將信息的嵌入表示法保存到向量數(shù)據(jù)庫(kù)中，該數(shù)據(jù)庫(kù)能夠支持快速的最大內(nèi)積搜索（MIPS）。為了優(yōu)化檢索速度，常見(jiàn)的選擇是近似相鄰（Approximate Nearest Neighbors，ANN）算法，返回近似的top k個(gè)近鄰，用損失少量的精度來(lái)?yè)Q取速度的巨大提升。

幾種常見(jiàn)的ANN算法選擇進(jìn)行快速M(fèi)IPS

LSH (Locality-Sensitive Hashing，局部敏感的哈希算法)：它引入了一種哈希函數(shù)，這種哈希函數(shù)能夠最大限度地將相似的輸入項(xiàng)映射到同一個(gè)桶中，其中桶的數(shù)量要遠(yuǎn)小于輸入內(nèi)容的數(shù)量。
ANNOY (Approximate Nearest Neighbors Oh Yeah)：核心數(shù)據(jù)結(jié)構(gòu)是隨機(jī)投影樹(shù),它是一個(gè)二叉樹(shù)集合,每個(gè)非葉子節(jié)點(diǎn)表示將輸入空間劃分為兩半的一個(gè)超平面,每個(gè)葉子節(jié)點(diǎn)存儲(chǔ)一個(gè)數(shù)據(jù)點(diǎn)。這些樹(shù)是獨(dú)立隨機(jī)構(gòu)建的,在某種程度上,它模擬了一個(gè)哈希函數(shù)的作用。ANNOY 的搜索發(fā)生在所有樹(shù)中,迭代地搜索最接近查詢的那一半,然后聚合結(jié)果。其思想與 KD 樹(shù)非常相關(guān),但是可擴(kuò)展性更強(qiáng)。
HNSW (Hierarchical Navigable Small World)：HNSW的設(shè)計(jì)思想來(lái)源于小世界網(wǎng)絡(luò)，在小世界網(wǎng)絡(luò)中，每個(gè)節(jié)點(diǎn)只需要通過(guò)很少的步數(shù)就可以連接到任何其他節(jié)點(diǎn)。比如社交網(wǎng)絡(luò)中的“六度分隔”理論。HNSW構(gòu)建了多層的小世界網(wǎng)絡(luò)結(jié)構(gòu),底層包含實(shí)際的數(shù)據(jù)點(diǎn)。中間層創(chuàng)建了一些“快捷鍵”來(lái)加速搜索過(guò)程。在進(jìn)行搜索時(shí)，HNSW從頂層的一個(gè)隨機(jī)節(jié)點(diǎn)開(kāi)始，逐步導(dǎo)航向目標(biāo)節(jié)點(diǎn)移動(dòng)。如果在一層無(wú)法接近目標(biāo)，它就會(huì)下降到下一層，直到到達(dá)底層。在上層每一步導(dǎo)航都能潛在地跨越數(shù)據(jù)空間中的大距離,而在下層每一步導(dǎo)航可以提高搜索的質(zhì)量。
FAISS (Facebook AI Similarity Search)：它基于這樣一個(gè)假設(shè),即在高維空間中,節(jié)點(diǎn)之間的距離遵循高斯分布,因此應(yīng)該存在數(shù)據(jù)聚類(lèi)。FAISS通過(guò)向量量化來(lái)實(shí)現(xiàn),先將向量空間劃分為若干集群,然后在每個(gè)集群內(nèi)進(jìn)行更精細(xì)的量化。在搜索時(shí),首先使用粗粒度的量化查找可能的集群候選,然后在每個(gè)候選集群內(nèi)使用更細(xì)致的量化進(jìn)行進(jìn)一步查找。
ScaNN (Scalable Nearest Neighbors)：ScaNN算法的主要?jiǎng)?chuàng)新在于使用了各向異性向量量化。他對(duì)數(shù)據(jù)點(diǎn)到進(jìn)行向量化，使得內(nèi)積<q,>盡可能與∠q和的原始距離相似，而不是選擇最接近的量化質(zhì)心點(diǎn)。

Fig. 13. MIPS 算法的比較，以召回率@10 為衡量標(biāo)準(zhǔn)。(Image source: Google Blog, 2020)

在 ann-benchmarks.com 上查看更多 MIPS 算法和性能比較。

記憶的獲取在某種程度上會(huì)提高Planning整體質(zhì)量，但同時(shí)也會(huì)拉長(zhǎng)整體服務(wù)的時(shí)延，因此如何快速且精準(zhǔn)的捕捉相關(guān)的記憶至關(guān)重要。Vector Search和Attention Mechanism之間的平衡也是速度與準(zhǔn)確性之間的平衡
當(dāng)然都是因?yàn)闆](méi)有無(wú)限的上下文學(xué)習(xí)

第三部分：Tool Use

使用工具是人類(lèi)的一個(gè)顯著特點(diǎn)，我們創(chuàng)造、修改和利用外部物體來(lái)完成超越我們身體和認(rèn)知極限的事情。為L(zhǎng)LM配備外部工具可以大大擴(kuò)展模型的功能。

Fig. 14.海豹使用工具工具的分類(lèi)：

Fig. 15. 工具的四種分類(lèi)

確定性工具-API工具-專(zhuān)家模型-物理世界工具

讓語(yǔ)言模型只做語(yǔ)言模型該做的事兒，通過(guò)文字生成內(nèi)容傳遞邏輯。

借助各式各樣的工具完成邏輯的執(zhí)行

使用工具的方法：

MRKL?(Karpas et al. 2022)，是 “模塊化推理、知識(shí)和語(yǔ)言 “（Modular Reasoning,Knowledge and Language)的簡(jiǎn)稱(chēng)，是一種用于自主代理的神經(jīng)符號(hào)架構(gòu)。建議 MRKL 系統(tǒng)包含一系列 “專(zhuān)家 “模塊，而通用 LLM 則充當(dāng)路由器，將查詢路由到最合適的專(zhuān)家模塊。這些模塊可以是神經(jīng)模塊（如深度學(xué)習(xí)模型），也可以是符號(hào)模塊（如數(shù)學(xué)計(jì)算器、貨幣轉(zhuǎn)換器、天氣 API）。

他們用算術(shù)作為測(cè)試案例，做了一個(gè)微調(diào) LLM 以調(diào)用計(jì)算器的實(shí)驗(yàn)。他們的實(shí)驗(yàn)表明，由于 LLM（7B Jurassic1-large 模型）無(wú)法可靠地提取基本算術(shù)的正確論據(jù)，因此解決口算數(shù)學(xué)問(wèn)題比解決明確表述的數(shù)學(xué)問(wèn)題更難。這些結(jié)果突出表明，當(dāng)外部符號(hào)工具能夠可靠地發(fā)揮作用時(shí)，了解何時(shí)以及如何使用這些工具至關(guān)重要，這取決于 LLM 的能力。

TALM?(工具增強(qiáng)型語(yǔ)言模型Tool Augmented Language Models; Parisi et al. 2022)和Toolformer?(Schick et al. 2023)都做了微調(diào)LM，學(xué)習(xí)使用外部工具。數(shù)據(jù)集的擴(kuò)展與否取決于新添加的API調(diào)用注釋能否提高模型輸出的質(zhì)量。更多詳情，參閱Prompt Engineering的 “External APIs” section。

ChatGPT Plugins 和 OpenAI API 函數(shù)調(diào)用就是增強(qiáng)了工具使用能力的 LLM 在實(shí)踐中發(fā)揮作用的良好范例。工具應(yīng)用程序接口集合可以由其他開(kāi)發(fā)人員提供（如插件）或自行定義（如函數(shù)調(diào)用）。

HuggingGPT?(Shen et al. 2023)是一個(gè)使用 ChatGPT 作為任務(wù)規(guī)劃器的框架，用于根據(jù)模型描述選擇 HuggingFace 平臺(tái)中可用的模型，并根據(jù)執(zhí)行結(jié)果總結(jié)響應(yīng)。

Fig. 16. HuggingGPT 工作原理示意圖

該系統(tǒng)包括4個(gè)階段：

（1）任務(wù)規(guī)劃(Task planning)：LLM 充當(dāng)大腦，將用戶請(qǐng)求解析為多個(gè)任務(wù)。每個(gè)任務(wù)都有四個(gè)相關(guān)屬性：任務(wù)類(lèi)型、ID、依賴(lài)關(guān)系和參數(shù)。他們使用少量的示例來(lái)指導(dǎo) LLM 進(jìn)行任務(wù)解析和規(guī)劃。

（2）模型選擇(Model selection):LLM 將任務(wù)分配給專(zhuān)家模型，其中的要求是一個(gè)多選題。LLM 會(huì)收到一份可供選擇的模型列表。由于上下文長(zhǎng)度有限，因此需要進(jìn)行基于任務(wù)類(lèi)型的過(guò)濾。

（3）任務(wù)執(zhí)行(Task execution):專(zhuān)家模型執(zhí)行特定任務(wù)并記錄結(jié)果。

（4）返回結(jié)果(Response generation)：LLM 接收?qǐng)?zhí)行結(jié)果，并向用戶提供匯總結(jié)果。

如果要將 HuggingGPT 投入實(shí)際應(yīng)用，需要解決幾個(gè)難題：

需要提高效率，因?yàn)?LLM 推理輪和與其他模型的交互都會(huì)減慢進(jìn)程；
它依賴(lài)于較長(zhǎng)的上下文窗口來(lái)交流復(fù)雜的任務(wù)內(nèi)容；
提高 LLM 輸出和外部模型服務(wù)的穩(wěn)定性。

模型評(píng)估：

API-Bank?(Li et al. 2023) 是評(píng)估工具增強(qiáng)型LLMs性能的基準(zhǔn)。它包含了53個(gè)常用的API工具，一個(gè)完整的工具增強(qiáng)型LLM的工作流，以及264個(gè)注釋對(duì)話其中涉及了568個(gè)API的調(diào)用。可供選擇的 API 種類(lèi)繁多，包括搜索引擎、計(jì)算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流程等。由于有大量的 API，LLM 首先可以訪問(wèn) API 搜索引擎，找到要調(diào)用的正確 API，然后使用相應(yīng)的文檔進(jìn)行調(diào)用。

Fig. 17. LLM 如何在 API-Bank 中調(diào)用 API 的偽代碼

在 API-Bank 工作流程中，LLM 需要做出幾個(gè)決定，我們可以在每個(gè)步驟中評(píng)估該決定的準(zhǔn)確性。

決策包括：

是否需要調(diào)用 API。
確定要調(diào)用的正確 API：如果不夠好，LLM 需要反復(fù)修改 API 輸入（例如，決定搜索引擎 API 的搜索關(guān)鍵詞）。
根據(jù) API 結(jié)果做出響應(yīng)：如果結(jié)果不滿意，模型可以選擇改進(jìn)并再次調(diào)用。

該基準(zhǔn)從三個(gè)層面對(duì)代理的工具使用能力進(jìn)行評(píng)估：

Level1-評(píng)估調(diào)用 API 的能力。根據(jù) API 的描述，模型需要確定是否調(diào)用給定的 API、正確調(diào)用 API 以及正確響應(yīng) API 的返回。
Level2-檢查檢索 API 的能力。模型需要搜索可能解決用戶需求的 API，并通過(guò)閱讀文檔學(xué)習(xí)如何使用這些 API。
Level3-評(píng)估除檢索和調(diào)用外規(guī)劃 API 的能力。對(duì)于不明確的用戶請(qǐng)求（如安排小組會(huì)議、預(yù)訂旅行機(jī)票/酒店/餐廳），模型可能需要調(diào)用多個(gè) API 才能解決。

AgentBench（Liu et al. 2023）是一個(gè)多維度且不斷發(fā)展的Agent Benchmark，目前選擇8個(gè)不同的場(chǎng)景（操作系統(tǒng)、數(shù)據(jù)庫(kù)、知識(shí)圖譜、數(shù)字卡牌游戲、側(cè)向思維謎題、家務(wù)管理、網(wǎng)絡(luò)購(gòu)物和網(wǎng)頁(yè)瀏覽），用于評(píng)估LLM作為Agent在多輪開(kāi)放式生成環(huán)境中的推理和決策能力。系統(tǒng)性測(cè)試了25個(gè)LLM在八個(gè)環(huán)境中的表現(xiàn)，從整體得分來(lái)看GPT4遙遙領(lǐng)先。在數(shù)據(jù)庫(kù)，卡牌游戲，知識(shí)圖譜等復(fù)雜任務(wù)處理場(chǎng)景中也展現(xiàn)出潛力。

Fig. 18. ?不同LLM在AgentBench中的概覽，雖然LLMs表現(xiàn)出了在LLM-as-Agent方向的能力，但是開(kāi)源模型和閉源商業(yè)模型的差距還是巨大

案例研究：

Fig. 19. 基于LLM的Automous Agent 發(fā)展趨勢(shì)

自ChatGPT爆火以來(lái)Agent相關(guān)領(lǐng)域的研究蓬勃發(fā)展，目前Agent方向的相關(guān)論文已累計(jì)高達(dá)160篇。其中的Agent根據(jù)其各自的能力共分為四類(lèi)：

Tool Agent（工具Agent）：利用各種外部工具（如搜索引擎，知識(shí)庫(kù)等）來(lái)輔助完成任務(wù)，代表論文有WebGPT、Toolformer等
Simulation Agent（仿真Agent）：用于構(gòu)建仿真環(huán)境，通常包含多個(gè)代理用于多角色互動(dòng)、對(duì)話等。代表論文有Social Simulacra、Generative Agents等
General Agent（通用代理）：追求通用性，可應(yīng)用于多領(lǐng)域任務(wù)。代表論文有AutoGPT、LangChain等
Domain Agent（領(lǐng)域Agent）：針對(duì)特定領(lǐng)域或任務(wù)進(jìn)行優(yōu)化設(shè)計(jì)。代表論文有ChemCrow（化學(xué)），ChatDev（軟件開(kāi)發(fā)）等

科學(xué)研究Agent：

ChemCrow (Bran et al. 2023)是一個(gè)針對(duì)特定領(lǐng)域的例子，其中LLM使用13種專(zhuān)家設(shè)計(jì)工具來(lái)完成有機(jī)合成，藥物發(fā)現(xiàn)和材料設(shè)計(jì)等任務(wù)。這個(gè)工作流在Langchain中實(shí)施，使用了ReAct和MRKL中之前描述的內(nèi)容，并將CoT推理與任務(wù)相關(guān)的工具相結(jié)合：

LLM 會(huì)收到一份工具名稱(chēng)清單、工具用途說(shuō)明以及預(yù)期輸入/輸出的詳細(xì)信息。
然后指示它在必要時(shí)使用所提供的工具回答用戶給出的提示。指示建議該模型遵循 ReAct 格式
Thought-Action-Action Input-Observation

一個(gè)有趣的現(xiàn)象是，雖然基于 LLM 的評(píng)估認(rèn)為 GPT-4 和 ChemCrow 的性能幾乎相當(dāng)，但由專(zhuān)家對(duì)解決方案的完成度和化學(xué)正確性進(jìn)行的人工評(píng)估顯示，ChemCrow 的性能遠(yuǎn)遠(yuǎn)超過(guò) GPT-4。這表明，在需要深厚專(zhuān)業(yè)知識(shí)的領(lǐng)域中，使用 LLM 評(píng)估自身性能存在潛在問(wèn)題。專(zhuān)業(yè)知識(shí)的缺乏可能導(dǎo)致 LLM 不知道自己的缺陷，從而無(wú)法很好地判斷任務(wù)結(jié)果的正確性。

Boiko et al. (2023)還研究了用于科學(xué)發(fā)現(xiàn)的 LLM-empowered Agent，以處理復(fù)雜科學(xué)實(shí)驗(yàn)的自主設(shè)計(jì)、規(guī)劃和執(zhí)行。這種代理可以使用工具瀏覽互聯(lián)網(wǎng)、閱讀文檔、執(zhí)行代碼、調(diào)用機(jī)器人實(shí)驗(yàn) API 并利用其他 LLM。

例如，當(dāng)要求 “開(kāi)發(fā)一種新型抗癌藥物 “時(shí)，模型得出了以下推理步驟：

1、詢問(wèn)當(dāng)前抗癌藥物研發(fā)的趨勢(shì)；

2、選擇一個(gè)靶點(diǎn)；

3、要求提供針對(duì)這些化合物的支架；

4、確定化合物后，模型嘗試進(jìn)行合成。

這篇文章還討論了各種風(fēng)險(xiǎn)，特別是非法藥物和生物武器的風(fēng)險(xiǎn)。他們開(kāi)發(fā)了一個(gè)測(cè)試集包含了一系列已知的化學(xué)武器制劑列表，并要求Agent合成這些制劑。在11項(xiàng)請(qǐng)求中，有4項(xiàng)（36%）被接受以獲得合成解決方案，Agent試圖查閱文件以執(zhí)行程序。被拒絕的7個(gè)例子中，5個(gè)是在網(wǎng)絡(luò)搜索后被拒絕的，2個(gè)是在prompt提交后就直接拒絕的。

生成式Agent模擬:

Generative Agents (Park, et al. 2023)是一個(gè)超級(jí)有趣的實(shí)驗(yàn)，受《模擬人生》的啟發(fā)，25 個(gè)虛擬角色在沙盒環(huán)境中生活和互動(dòng)，每個(gè)角色都由一個(gè) LLM 驅(qū)動(dòng)的代理控制。生成代理為互動(dòng)應(yīng)用創(chuàng)建了可信的人類(lèi)行為模擬。

生成式代理的設(shè)計(jì)將 LLM 與記憶、規(guī)劃和反思機(jī)制結(jié)合起來(lái)，使代理的行為以過(guò)去的經(jīng)驗(yàn)為條件，并與其他代理互動(dòng)。

Memory stream（記憶流）：這是一個(gè)長(zhǎng)期記憶的模塊（外部數(shù)據(jù)庫(kù)），用自然語(yǔ)言記錄了一系列Agent的經(jīng)驗(yàn)
每個(gè)元素都是觀察結(jié)果，由Agent直接提供的事件。-Agent之間的交流可以觸發(fā)新的自然語(yǔ)言語(yǔ)句
Retrieval model（檢索模型）：根據(jù)相關(guān)性，就近原則和重要性，取出上下文為Agent的行為提供信息
近期性：近期事件得分較高
重要性：區(qū)分普通記憶和核心記憶。直接詢問(wèn) LM
相關(guān)性：基于它與當(dāng)前情況/查詢的相關(guān)程度
Reflection mechanism（反思機(jī)制）：隨著時(shí)間推移，將記憶合成為更高層次的推理，指導(dǎo)Agent未來(lái)行為。這些內(nèi)容是對(duì)過(guò)去事件的更高層次的總結(jié)（注意，這與在上下文中的自我反思有些不同）
Prompt LM提出 100 個(gè)最新的觀察結(jié)果，并根據(jù)一組觀察結(jié)果/陳述提出 3 個(gè)最突出的高層次問(wèn)題。然后請(qǐng) LM 回答這些問(wèn)題。
Planning & Reacting（規(guī)劃和反應(yīng)）：將反思和環(huán)境信息轉(zhuǎn)化為行動(dòng)
Planning本質(zhì)上是為了優(yōu)化當(dāng)下和未來(lái)的可信度
Prompt模板：{Intro of an agent X}. Here is X's plan today in broad strokes: 1)
Agent之間的關(guān)系以及一個(gè)Agent對(duì)另一個(gè)Agent的觀察結(jié)果都會(huì)被納入到規(guī)劃和反應(yīng)的考慮范圍
環(huán)境信息以樹(shù)形結(jié)構(gòu)呈現(xiàn)

Fig. 20. 生成式Agent的框架

這種有趣的模擬產(chǎn)生了新的社會(huì)行為，如信息擴(kuò)散、關(guān)系記憶（如兩個(gè)Agent繼續(xù)對(duì)話主題）和社會(huì)事件協(xié)調(diào)（如舉辦聚會(huì)并邀請(qǐng)?jiān)S多其他人）。

Chance 機(jī)會(huì)

Fig. 21. LLM Agent的應(yīng)用場(chǎng)景（左）和評(píng)估策略（右）。

Challenge 挑戰(zhàn)

在了解了構(gòu)建以 LLM 為中心的Agent的主要想法和Demo之后，也開(kāi)始發(fā)現(xiàn)一些共同的局限性：

Finite context length（有限的上下文長(zhǎng)度）：有限的上下文容量限制了歷史信息、詳細(xì)指令、API 調(diào)用上下文和響應(yīng)的包含。系統(tǒng)的設(shè)計(jì)必須考慮到有限的通信帶寬，而從過(guò)去的錯(cuò)誤中吸取教訓(xùn)的自我反省等機(jī)制將從較長(zhǎng)或無(wú)限的上下文窗口中受益匪淺。雖然矢量存儲(chǔ)和檢索可以提供對(duì)更大知識(shí)庫(kù)的訪問(wèn)，但其表示能力不如attention那么強(qiáng)大
Challenges in long-term planning and task decomposition（長(zhǎng)序列規(guī)劃和任務(wù)拆解）：長(zhǎng)期規(guī)劃和有效探索解決方案空間仍然具有挑戰(zhàn)性。LLM 在遇到意外錯(cuò)誤時(shí)很難調(diào)整計(jì)劃，這使得它們的魯棒性不如從試驗(yàn)和錯(cuò)誤中學(xué)習(xí)的人類(lèi)
Reliability of nature language interface（自然語(yǔ)言界面的可靠性）：當(dāng)前的Agent System依賴(lài)自然語(yǔ)言作為 LLM 與存儲(chǔ)器和工具等外部組件之間鏈接的界面。然而，模型輸出的可靠性值得懷疑，因?yàn)?LLM 可能會(huì)出現(xiàn)格式錯(cuò)誤，偶爾還會(huì)表現(xiàn)出反叛行為（rebellious behavior，如：拒絕執(zhí)行指令）。因此，大部分Agent demo code都集中在解析模型輸出上。

本文章轉(zhuǎn)載微信公眾號(hào)@知識(shí)工場(chǎng)