
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
上圖展示了MALLM(多智能體大型語(yǔ)言模型)與單個(gè)模型的思維鏈對(duì)比。MALLM包含三個(gè)主要部分:自動(dòng)角色分配、協(xié)作討論和決策制定。多智能體LLM用戶模擬社會(huì)互動(dòng),能在對(duì)話場(chǎng)景中提升解決問(wèn)題的能力,其優(yōu)勢(shì)包括:? 首先,智能體在推理任務(wù)上能提升系統(tǒng)相對(duì)于單個(gè)LLM的響應(yīng)。? 其次,每個(gè)智能體的不同觀點(diǎn)能減輕響應(yīng)中的偏差。? 第三,基于反饋的交流促成一種自我反思機(jī)制,減少幻覺(jué)內(nèi)容。? 第四,多智能體討論通過(guò)提供智能體之間有價(jià)值的討論日志來(lái)解決LLMs的黑箱問(wèn)題。? 最后,新穎的多智能體系統(tǒng)為解決像心理理論這類單個(gè)模型無(wú)法處理的固有多智能體任務(wù)奠定了基礎(chǔ)。
本文作者提出了構(gòu)成多智能體 LLM 的三個(gè)主要支柱:智能體(Agent)、討論(Discussion)和決策(Decision)。
如下圖,作者將智能體分為兩類:? 1.參與討論的智能體稱為參與者(Participants):以特定的風(fēng)格或格式交流,這往往會(huì)塑造出一種角色形象。比如,角色形象可以是領(lǐng)域?qū)<遥员愀行У乩糜?xùn)練數(shù)據(jù)中的知識(shí),或者是某種個(gè)性,讓討論更具活力。? 2.另外一些稱為支持人(Moderator):比如提出解決方案、控制輪流發(fā)言或者確保智能體在討論中維持其角色形象。
一些應(yīng)用/研究引入了一個(gè)中心智能體(Moderator)。這個(gè)中心智能體的目的在不同研究中有所不同。通常,主持人通過(guò)提示或架構(gòu)設(shè)計(jì)保持中立,不給討論帶來(lái)主觀性。
對(duì)于某些決策機(jī)制,需要反復(fù)起草。在這種情況下,可以利用主持人在考慮其他代理的反饋時(shí)提出新的解決方案。草案提議者不影響決策,在交流過(guò)程中保持客觀。因此,它會(huì)被提示將已提出的想法總結(jié)成旨在滿足最多代理的草案。
定義智能體的輪流順序無(wú)需預(yù)先設(shè)定。受脫口秀或商務(wù)會(huì)議等人類互動(dòng)的啟發(fā),采用了一個(gè)主持人擁有權(quán)力決定就某個(gè)問(wèn)題咨詢哪個(gè)專業(yè)代理。必要時(shí),它還能讓額外的專家代理參與解決問(wèn)題。這種方式讓討論充滿動(dòng)態(tài),不遵循通常采用的定義輪流發(fā)言的方案。
智能體在討論中可能難以找到共識(shí)或遵守預(yù)定義的準(zhǔn)則。此時(shí),政策反饋機(jī)制能夠鼓勵(lì)智能體的某些行為。? 采用監(jiān)督智能體來(lái)檢查討論中的智能體在討論時(shí)是否忘記了其被塑造的個(gè)性。? 在談判游戲中使用觀察智能體向個(gè)別智能體提供關(guān)于如何改進(jìn)談判策略的書(shū)面反饋。
用戶輸入和相應(yīng)的任務(wù)可能非常詳細(xì)且難以被多智能體系統(tǒng)理解(例如在軟件開(kāi)發(fā)中)。比如,不直接把用戶輸入傳遞給智能體。而是在執(zhí)行前,進(jìn)一步明確用戶給定的任務(wù)。這個(gè)步驟能夠提供一個(gè)計(jì)劃,指示代理如何解決更復(fù)雜的任務(wù),比如開(kāi)發(fā)應(yīng)用程序。
多智能體的一個(gè)關(guān)鍵挑戰(zhàn)是決定何時(shí)結(jié)束交流。比如,采用話語(yǔ)狀態(tài)分類器來(lái)判斷討論是正在進(jìn)行、已完成還是代理之間達(dá)成一致的可能性不大。雖然將此分類器用于相對(duì)簡(jiǎn)單的談判游戲,但話語(yǔ)狀態(tài)分類器的概念也能應(yīng)用于其他任務(wù),有可能在似乎難以達(dá)成共識(shí)的討論中節(jié)省計(jì)算資源。
參與者是通過(guò)提供反饋和改進(jìn)當(dāng)前方案為討論做出貢獻(xiàn)的智能體。通常,參與者有獨(dú)特的偏好和信念,并基于這些偏好為討論貢獻(xiàn)力量。
每個(gè)參與者都配備了一個(gè) LLM 作為核心,生成思維過(guò)程并為討論出力。LLM 為其他智能體生成建設(shè)性的反饋,改進(jìn)當(dāng)前草案,并能通過(guò)提示提出新想法。像 GPT-4 這樣具有高推理能力的模型,能夠?yàn)橛懻撎峁└鼉?yōu)的貢獻(xiàn),從而在需要強(qiáng)大協(xié)作的任務(wù)中獲得更高分?jǐn)?shù)。
參與討論的每個(gè)智能體都可以被提示代表一種個(gè)性、專家角色或類似的屬性。這些屬性被稱為智能體的角色形象。角色形象通過(guò)提供更獨(dú)特的想法和有主見(jiàn)的反饋來(lái)強(qiáng)化討論。它們能夠提升推理和知識(shí)密集型任務(wù)的表現(xiàn),比如解謎、創(chuàng)意故事寫作和數(shù)學(xué)推理。選擇正確的角色形象還能產(chǎn)生偏差較小的結(jié)果[69]。
為了遵循更類似人類的互動(dòng),P采用了一個(gè)存儲(chǔ)每個(gè)代理討論日志的記憶模塊。根據(jù)討論格式或要解決的任務(wù),不同的智能體可以有不同的討論日志可用,無(wú)法獲取全部信息。這些動(dòng)態(tài)還有待進(jìn)一步探索,因?yàn)橹悄荏w之間信息差異的影響在多代理問(wèn)題解決的背景下尚未得到研究。
由于復(fù)雜性或模塊性,某些問(wèn)題對(duì)于 LLM 代理可能頗具挑戰(zhàn)或無(wú)法解決。對(duì)于此類情況,為智能體配備了外部工具。理想情況下,參與者能夠根據(jù)情況從一組工具中選擇正確的工具。雖然當(dāng)前的 LLM 代理往往在正確評(píng)估情況方面存在問(wèn)題,但數(shù)據(jù)集 ToolQA 可用于微調(diào) LLM 代理在正確情況下使用哪些工具。
智能體之間的交互需要遵循一些準(zhǔn)則。這些準(zhǔn)則明確了輪到哪個(gè)智能體參與討論,以及誰(shuí)能獲取哪些信息。
范式:要明確討論的結(jié)構(gòu),就得確定智能體是以何種概念進(jìn)行交流。這往往涉及架構(gòu)的修改以及討論順序處理的實(shí)現(xiàn)。概述了四種不同的范式,在輪次順序和信息可見(jiàn)性方面存在差異。這些范式分別被稱為記憶(memory)、接力(relay)、報(bào)告(report)、和辯論(debate)。
每個(gè)范式的關(guān)鍵方面之一是討論中各個(gè)智能體的輪次順序。討論可以簡(jiǎn)單地進(jìn)行,即每個(gè)智能體都有機(jī)會(huì)依次參與。更復(fù)雜的范式會(huì)打亂輪次順序,從而影響信息流向各個(gè)代理的速度。
可以對(duì)范式進(jìn)行調(diào)整,以限制各個(gè)智能體的信息訪問(wèn)權(quán)限。范式中智能體之間的消息可見(jiàn)性可能不同。例如,一種范式可能允許所有智能體之間交換的消息完全可見(jiàn),而另一種范式可能將其限制為僅直接交換消息的智能體可見(jiàn)。
在考慮多輪的討論時(shí),輸入給智能體的提示詞會(huì)變得越來(lái)越大。即便是最新的LLM也難以有效地利用長(zhǎng)上下文信息。可以使用了一個(gè)總結(jié)模塊,將冗長(zhǎng)的初步討論濃縮為關(guān)鍵要點(diǎn)。與長(zhǎng)上下文輸入相比,對(duì)討論記憶進(jìn)行總結(jié)能提高性能。
參與討論的智能體數(shù)量對(duì)討論的展開(kāi)方式有重要影響。增加討論中的參與者數(shù)量,推理任務(wù)的性能會(huì)更好,這可能是由于產(chǎn)生了更多的推理步驟。將他們的角色分配器與固定和靈活數(shù)量的生成角色進(jìn)行了比較。使用靈活數(shù)量的角色優(yōu)于固定方法,表明 LLM 能夠自行決定一些討論參數(shù)。
大多數(shù)多智能體系統(tǒng)將指令調(diào)整后的 LLM 用作討論的智能體。將這些模型置于推理模式后,會(huì)用一般討論設(shè)置、任務(wù)指令、先前的討論日志以及其他信息(如分配的角色)對(duì)其進(jìn)行提示。提示技術(shù)在不同的成果中差異很大,且取決于系統(tǒng)應(yīng)用。
為讓 LLM 參與討論,每個(gè)提示中都包含初步討論。較長(zhǎng)的提示會(huì)導(dǎo)致正確答案的收斂速度變慢。然而,最終共識(shí)的質(zhì)量表現(xiàn)會(huì)更好。表面模型性能和效率之間的權(quán)衡。
使用 LLM 的多智能體系統(tǒng)不使用或僅使用單個(gè)角色。不同的任務(wù)可能需要或受益于專門的角色,而這些角色的手動(dòng)定義是勞動(dòng)密集型的。LLM 能夠自行找到合適的角色。因此,可以有效地提示 LLM 為任務(wù)和示例生成一系列合適的角色。
決策制定可以分為三種:投票、共識(shí)和樹(shù)搜索。? 投票對(duì)類似分類或標(biāo)注(如多項(xiàng)選擇問(wèn)答)這類任務(wù)頗有用處。若智能體預(yù)先給出可能的解決方案,投票機(jī)制也能應(yīng)對(duì)生成任務(wù)。? 共識(shí)主要用于生成任務(wù),比如創(chuàng)意故事創(chuàng)作。通過(guò)迭代反饋循環(huán),所有智能體都對(duì)最新草案加以改進(jìn)。一旦每個(gè)智能體都認(rèn)同最新草案且無(wú)需再作修改,便達(dá)成了共識(shí)。? 樹(shù)搜索有助于遍歷討論中的多種可能路徑以尋得最優(yōu)解。在將多智能體系統(tǒng)應(yīng)用于多步驟任務(wù)時(shí)也能發(fā)揮作用。
智能體在討論期間可提出自身草案作為解決生成任務(wù)的方案。其他任務(wù)可能本身就提供了一組可選標(biāo)簽(多項(xiàng)選擇)。基于投票的決策制定,代理各自對(duì)青睞的解決方案進(jìn)行投票。
每個(gè)智能體能將可能的解決方案從優(yōu)至劣進(jìn)行排序。允許權(quán)衡優(yōu)選方案。通過(guò)排名投票,能找到一個(gè)在合理程度上滿足眾多智能體的折衷辦法。在先前的工作中,排名投票對(duì)人類集體行為的估量頗為有力。
采用累積投票,每個(gè)代理有固定數(shù)量的點(diǎn)數(shù)可分配給提出的解決方案。獲點(diǎn)數(shù)最多的解決方案當(dāng)選為最終決策。對(duì)于 LLMs,若期望代理間高度一致,累積投票相較排名投票是更優(yōu)選擇。這是因?yàn)槔鄯e分配一定數(shù)量的點(diǎn)數(shù)能通過(guò)表明每個(gè)代理的(不)同意強(qiáng)度產(chǎn)生一致結(jié)果。
每個(gè)智能體可選擇固定數(shù)量的解決方案予以批準(zhǔn)。迫使智能體批準(zhǔn)固定數(shù)量的解決方案或許能減少 LLMs 在決策時(shí)的執(zhí)拗,利于在更開(kāi)放的任務(wù)上更快收斂。批準(zhǔn)投票的變體可以寬松些,允許智能體批準(zhǔn)較少或不批準(zhǔn)解決方案。更具動(dòng)態(tài)性的批準(zhǔn)機(jī)制在有明確參照的任務(wù)上可能展現(xiàn)出更優(yōu)的情境表現(xiàn)。
生成任務(wù)可通過(guò)協(xié)作創(chuàng)建草案來(lái)解決。其直覺(jué)在于通過(guò)考慮多個(gè)智能體的想法來(lái)創(chuàng)建草案以生成更優(yōu)解。共識(shí)與投票的不同在于,不是從一組草案中挑選最佳方案,而是對(duì)當(dāng)前草案進(jìn)行完善,直至滿足共識(shí)要求。
當(dāng)反復(fù)向一個(gè)或多個(gè)智能體提示相同任務(wù)時(shí),能獲取一組可能的解決方案。Self-Consistency獲取可能的解決方案并檢查其一致性。選取與其他所有解決方案最相似的最一致的方案作為最終答案。Self-Consistency最初是基于單智能體 LLM 提出的,但該機(jī)制也能應(yīng)用于多智能體系統(tǒng)。
迭代共識(shí)并非一次性生成多個(gè)解決方案,而是接連提出新方案。通過(guò)持續(xù)討論來(lái)優(yōu)化輸出,直至一定數(shù)量的智能體滿意。這一理念在諸如 Solo Performance Prompting的提示技術(shù)和 PEER等協(xié)作模型中得到運(yùn)用。
智能體針對(duì)一個(gè)問(wèn)題給出若干解決方案。從集合中選出最佳方案并非易事。討論過(guò)程中提出的各種解決方案可繪制成決策樹(shù),且存在多種遍歷此樹(shù)以獲取最優(yōu)解的方法。多智能體 LLMs 中樹(shù)搜索方法帶來(lái)的效率問(wèn)題。探索率過(guò)高時(shí),最終解決方案的生成可能會(huì)慢許多倍,阻礙其在現(xiàn)實(shí)中的應(yīng)用。因此,搜索樹(shù)的方法對(duì)效率和性能至關(guān)重要。
利用循環(huán)中的評(píng)論家來(lái)挑選被認(rèn)為是最佳的草案。在每一輪中,智能體制定一組可能的解決方案。評(píng)論家(可以是經(jīng)提示的 LLM 或人類)隨后選出最優(yōu)解。樹(shù)規(guī)劃器在執(zhí)行前生成若干任務(wù)計(jì)劃。若任務(wù)規(guī)劃器在遍歷決策樹(shù)時(shí)出錯(cuò),它會(huì)在前一個(gè)分叉節(jié)點(diǎn)繼續(xù)遍歷。這兩種變體都不同于蒙特卡羅樹(shù)搜索等啟發(fā)式方法,因?yàn)樵u(píng)論家的選擇標(biāo)準(zhǔn)基于提示工程或人類偏好。
多智能體對(duì)話的決策樹(shù)也能以啟發(fā)式進(jìn)行探索。運(yùn)用啟發(fā)式方法,無(wú)需額外模型來(lái)遍歷此樹(shù)。比如,將蒙特卡羅樹(shù)搜索適配到多智能體場(chǎng)景中,并通過(guò)開(kāi)發(fā)與探索率來(lái)把控問(wèn)題解決流程。依次執(zhí)行六個(gè)步驟(選擇、擴(kuò)展、評(píng)估、模擬、反向傳播和反思),直至任務(wù)完成或達(dá)到限制。在借助已知的樹(shù)搜索算法用于多智能體交互方面,還有諸如波束搜索或最佳優(yōu)先樹(shù)搜索等其他嘗試。雖然這些算法在性能和速度上存在差異,但由于總體概念仍是對(duì)樹(shù)的啟發(fā)式探索,所以它們?nèi)詺w為此類。
本篇論文作者提出了一個(gè)名為 MALLM(MultiAgent LLM)的開(kāi)源框架,用于處理多智能體。MALLM 提供了一個(gè)可定制且模塊化的接口,便于研究多智能體 LLM 的特性與組件。通過(guò)調(diào)整簡(jiǎn)單參數(shù)或定義自定義子類,能測(cè)試新的構(gòu)想。提示模板設(shè)計(jì)得只要有指令就能支持眾多任務(wù)。同時(shí),該框架抗錯(cuò)性強(qiáng),因并行化的 API 調(diào)用而高效,還自帶集成評(píng)估管道。作者使用MALLM框架,對(duì)多智能體系統(tǒng)的范式等內(nèi)容進(jìn)行深入評(píng)估。
上標(biāo)展示了單個(gè)智能體(COT)相比的結(jié)果:多智能體 LLM 比具有 CoT 的單個(gè) LLM 展現(xiàn)出更強(qiáng)的推理能力,但由于問(wèn)題漂移,無(wú)法完成像翻譯這樣的基本任務(wù)。
上圖對(duì)簡(jiǎn)單倫理問(wèn)題和 StrategyQA 數(shù)據(jù)集的討論范式性能進(jìn)行了比較。對(duì)于戰(zhàn)略 QA 和倫理 QA 等復(fù)雜任務(wù),多智能體系統(tǒng)比 CoT 基線有改進(jìn)。所有范式都將戰(zhàn)略推理能力比 CoT 提高了高達(dá) 4.0%的準(zhǔn)確率,表面智能體對(duì)解決方案的迭代改進(jìn)的優(yōu)勢(shì)。按照任務(wù)要求,多智能體系統(tǒng)顯示出逐步規(guī)劃的能力,優(yōu)于常用的 CoT 方法。這與之前的工作一致,表明多智能體系統(tǒng)的表現(xiàn)與 CoT 提示相當(dāng)或更優(yōu)[5, 60, 71]。對(duì)于基本任務(wù),如抽取式 QA、總結(jié)、翻譯和釋義類型生成,并未觀察到多智能體討論相對(duì)于基線有顯著改進(jìn)。
集中式討論范式能夠提高多智能體 LLM 的倫理一致性。多智能體討論還使簡(jiǎn)單倫理問(wèn)題數(shù)據(jù)集的準(zhǔn)確率提高了高達(dá) 6.6%。表明多智能體系統(tǒng)通常可以改善倫理決策。報(bào)告范式顯著促進(jìn)了性能提升。在智能體之間的信息可見(jiàn)性方面與其他范式不同。使用報(bào)告范式,一個(gè)智能體可以查看正在交換的所有消息,而另外兩個(gè)智能體彼此從不交互。使用其他范式(記憶、中繼、辯論),個(gè)體智能體的偏好可能在討論期間更多地影響其他智能體的信念。因此,一個(gè)更集中的會(huì)話結(jié)構(gòu),將其他智能體視為顧問(wèn),可以鼓勵(lì)更一致的決策過(guò)程。
上圖展示了在抽取式問(wèn)答數(shù)據(jù)集 SQuAD 2.0 中回答能力的評(píng)估得分。表明系統(tǒng)對(duì)于源文檔不支持的無(wú)法回答問(wèn)題的能力。確定問(wèn)題的回答能力對(duì)于系統(tǒng)減輕或明確不合格答案中的幻覺(jué)十分關(guān)鍵。然而,在識(shí)別無(wú)法回答的問(wèn)題方面,多智能體討論與 CoT 提示相比,表現(xiàn)既沒(méi)有明顯更差,也沒(méi)有明顯更好。最佳范式(中繼)僅將回答能力檢測(cè)的準(zhǔn)確率提高了 0.5%。
因任務(wù)而異。推理任務(wù)得益于更多的討論輪次,而長(zhǎng)時(shí)間的討論則會(huì)導(dǎo)致倫理一致性崩塌。
上圖展示了智能體都同意解決方案(即達(dá)成共識(shí))之前交換的消息數(shù)量。棕色虛線報(bào)告了基于交換消息數(shù)量的所有范式的平均表現(xiàn)。對(duì)于所有范式和數(shù)據(jù)集,討論都迅速收斂,在得出最終解決方案之前僅交換了少量消息。通常,智能體對(duì)第一個(gè)智能體提出的第一個(gè)草案感到滿意。對(duì)于記憶、接力和報(bào)告范式,討論在三條消息后結(jié)束(每個(gè)智能體一條消息)。辯論范式在再次檢查是否達(dá)成一致之前強(qiáng)制兩個(gè)智能體進(jìn)行兩輪辯論。因此,這里的辯論范式在五條和十條消息后(分別為 1 輪和 2 輪,每輪五條消息)提前結(jié)束。大多數(shù)其他討論在前三輪內(nèi)結(jié)束。表明專家角色的智能體彼此高度一致。發(fā)現(xiàn)對(duì)于大多數(shù)任務(wù)(總結(jié)、翻譯、釋義類型生成、抽取式問(wèn)答),評(píng)估分?jǐn)?shù)不會(huì)因討論的長(zhǎng)度而提升,與基線性能相比還略有下降。似乎是基本任務(wù)的常見(jiàn)特征。或許,多智能體系統(tǒng)在幾條消息后就能很快達(dá)到可能的最佳結(jié)果。然而,個(gè)體智能體的偏好卻不必要地拉長(zhǎng)了討論,
所有智能體的全面信息獲取有助于更快達(dá)成共識(shí)。
上圖展示了每個(gè)范式在達(dá)成共識(shí)之前按輪數(shù)和交換消息數(shù)量計(jì)算的討論平均長(zhǎng)度。最右側(cè)的列表明了范式的輪次順序以及智能體之間的信息獲取情況,范式影響信息吞吐量。在記憶范式下,智能體交換 4.79 條消息后能最快達(dá)成共識(shí)。辯論范式需要交換最多的消息(7.58),因?yàn)樗竺總€(gè)輪次兩個(gè)智能體各進(jìn)行兩輪內(nèi)部辯論。與具有相同輪次順序的記憶范式相比,中繼范式的信息吞吐量明顯更差,平均要交換 7 條消息后中繼討論才結(jié)束。表明智能體對(duì)討論日志的可見(jiàn)性受限會(huì)致使達(dá)成共識(shí)的速度變慢。同時(shí),記憶和中繼的表現(xiàn)相近。所以,如果響應(yīng)速度至關(guān)重要,討論應(yīng)采用智能體之間完全透明的范式。
角色有益于像戰(zhàn)略QA 或道德QA 這類復(fù)雜任務(wù)。但在像翻譯這樣的簡(jiǎn)單任務(wù)中,可能會(huì)使設(shè)置過(guò)于復(fù)雜,損害性能。
上圖對(duì)比了使用三個(gè)人物角色和使用兩個(gè)人物角色與一個(gè)中立草案提議者智能體時(shí)的任務(wù)表現(xiàn)。專家角色的影響因任務(wù)而異。當(dāng)用草案提議者替換一位專家時(shí),像簡(jiǎn)單道德問(wèn)題或 StrategyQA 這樣的復(fù)雜任務(wù)的性能會(huì)受影響。
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/10hR3yPYQwE0oaEDdXNQzg
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
實(shí)測(cè)告訴你:DeepSeek-R1 7B、32B、671B差距有多大
6個(gè)大模型的核心技術(shù)介紹
太強(qiáng)了!各個(gè)行業(yè)的AI大模型!金融、教育、醫(yī)療、法律
在Sealos 平臺(tái)的幫助下一個(gè)人維護(hù)著 6000 個(gè)數(shù)據(jù)庫(kù)
通義萬(wàn)相,開(kāi)源!
使用Cursor 和 Devbox 一鍵搞定開(kāi)發(fā)環(huán)境
DeepSeekMath:挑戰(zhàn)大語(yǔ)言模型的數(shù)學(xué)推理極限
新型脈沖神經(jīng)網(wǎng)絡(luò)+大模型研究進(jìn)展!
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)