Coze的Bot構(gòu)建頁面

在實際操作中,智能體工作流的應(yīng)用模式比我們通常所知的四種模式要豐富得多。例如,Coze平臺不僅提供了多智能體和工作流功能,還擴(kuò)展到了圖像流領(lǐng)域。

通過插件、大型模型、代碼、知識庫、工作流、圖像流、選擇器、文本處理、消息、變量、數(shù)據(jù)庫等多種元素構(gòu)建的工作流,最終會被整合到“技能”模塊中,形成一個智能體(Coze稱之為Bot)。這些智能體能夠執(zhí)行更多任務(wù),并參與到更復(fù)雜的業(yè)務(wù)流程中。

仔細(xì)觀察可以發(fā)現(xiàn),在大型語言模型(LLM)應(yīng)用日益普及的背景下,許多工作流都是將傳統(tǒng)業(yè)務(wù)流程與智能體工作流相結(jié)合的。這些工作流不僅包括了“四種模式”,還包括了將傳統(tǒng)應(yīng)用與生成式AI(GenAI)結(jié)合的工作流,以及直接應(yīng)用大型語言模型的簡單工作流。

一個典型的例子是,目前通過AI代理構(gòu)建平臺構(gòu)建的智能體工作流還無法處理操作企業(yè)管理軟件等復(fù)雜業(yè)務(wù)流程(受到API和連接能力的限制),而通過RPA等超自動化工具連接更多的簡單智能體工作流是一種有效的解決方案。

同時,RPA等超自動化工具現(xiàn)在已經(jīng)發(fā)展成為RPA Agent,使用RPA本身也是智能體工作流應(yīng)用的一種形式。這種應(yīng)用方式正在越來越多地被用于企業(yè)級業(yè)務(wù)場景。

在王吉偉頻道的觀點中,Agentic Workflow不僅僅是智能體工作流,它是一個包含傳統(tǒng)軟件(工具、解決方案)、大型語言模型、AI代理等在內(nèi)的新型業(yè)務(wù)流程的集合。當(dāng)傳統(tǒng)業(yè)務(wù)流程包含了LLM工作流或Agent工作流時,都可以被視為Agentic Workflow。

特別是在大型語言模型代理化以及智能助手(如Copilot,具備反思、規(guī)劃、工具使用能力,并能調(diào)用代理)代理化的趨勢下,它們更符合Agentic Workflow的定義。

因此,研究Agentic Workflow不僅要關(guān)注AI代理和Agentic Workflow本身,還要關(guān)注大型語言模型及RPA等傳統(tǒng)業(yè)務(wù)流程在LLM和Workflow方面的進(jìn)展。

為了幫助大家更好地學(xué)習(xí)和理解Agentic Workflow,本文精選了25篇與智能體工作流相關(guān)的論文,并將其分為技術(shù)框架、系統(tǒng)(套件與工具)、評估測試基準(zhǔn)、編程語言、模型與工作流及方法論六大類別,希望對讀者有所啟發(fā)。

一、技術(shù)框架

1、Sibyl:用于復(fù)雜現(xiàn)實世界推理的簡單而有效的智能體框架

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

論文地址:https://arxiv.org/abs/2407.10718

大型語言模型(LLM)集成了固有知識、上下文學(xué)習(xí)和零樣本能力,展現(xiàn)出強大的問題解決能力。然而,現(xiàn)有智能體在長期推理和工具潛力利用方面存在不足,導(dǎo)致現(xiàn)實世界推理任務(wù)中的缺陷。為克服這些限制,Sibyl作為一個新型的LLM智能體框架,通過最少工具有效處理復(fù)雜推理任務(wù)。

Sibyl從全球工作空間理論中獲取靈感,整合了全球工作空間,加強了系統(tǒng)知識和對話歷史的管理與共享。在心智理論的指導(dǎo)下,Sibyl通過多主體辯論的陪審團(tuán)機制自我完善答案,確保全面性和平衡性。這一設(shè)計旨在簡化系統(tǒng)復(fù)雜性,拓寬問題解決范圍,促進(jìn)從系統(tǒng)1到系統(tǒng)2的思維轉(zhuǎn)變。

Sibyl注重可擴(kuò)展性和易調(diào)試性,采用函數(shù)式編程中的重入概念,以無縫集成到其他LLM應(yīng)用中。在GAIA基準(zhǔn)測試集中,Sibyl實現(xiàn)了34.55%的平均得分,展現(xiàn)了其先進(jìn)性能。論文作者期望Sibyl能推動開發(fā)更可靠和可重用的LLM智能體,以應(yīng)對復(fù)雜的現(xiàn)實世界推理挑戰(zhàn)。

2、PEER:使用多智能體框架和調(diào)優(yōu)方法對特定領(lǐng)域的任務(wù)進(jìn)行專業(yè)化

PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods

論文地址:https://arxiv.org/abs/2407.06985

在專業(yè)領(lǐng)域應(yīng)用中,GPT-4 通過精確的提示和檢索增強生成(RAG)技術(shù)展現(xiàn)出巨大潛力,但同時也面臨性能、成本和數(shù)據(jù)隱私的三重困境。高性能需求往往需要復(fù)雜的技術(shù)處理,而要管理多個智能體在復(fù)雜工作流程中的表現(xiàn),不僅成本高,難度也大。

為應(yīng)對這些挑戰(zhàn),論文提出了 PEER(規(guī)劃、執(zhí)行、表達(dá)、審查)多智能體框架。該框架通過整合精細(xì)的問題拆解、高效的信息檢索、綜合的總結(jié)能力以及嚴(yán)格的自我評估,系統(tǒng)化地處理專業(yè)領(lǐng)域任務(wù)。

考慮到成本和數(shù)據(jù)隱私的顧慮,許多企業(yè)正從 GPT-4 等專有模型轉(zhuǎn)向定制模型,以期在成本、安全性與性能之間找到平衡點。團(tuán)隊利用在線數(shù)據(jù)和用戶反饋,開發(fā)了一套行業(yè)實踐,旨在實現(xiàn)模型的高效調(diào)整。

本研究提供了一套最佳實踐指南,用于在特定領(lǐng)域問題解決中應(yīng)用多智能體系統(tǒng),并實施有效的智能體調(diào)優(yōu)策略。特別是在金融問答領(lǐng)域的實證研究表明,該方法達(dá)到了 GPT-4 性能的 95.0%,同時在成本控制和數(shù)據(jù)隱私保護(hù)方面表現(xiàn)出色。

3、BMW Agents——通過多智能體協(xié)作實現(xiàn)任務(wù)自動化的框架

BMW Agents — A Framework For Task Automation Through Multi-Agent Collaboration

論文地址:https://arxiv.org/abs/2406.20041

由大型語言模型(LLM)驅(qū)動的自主智能體展現(xiàn)了自動化的巨大潛力。技術(shù)的初步成效已在多個演示中顯現(xiàn),其中包括智能體解決復(fù)雜任務(wù)、與外部系統(tǒng)交互以擴(kuò)展知識,以及觸發(fā)必要操作。

特別是,多個智能體以協(xié)作方式共同解決復(fù)雜任務(wù)的場景,彰顯了它們在非嚴(yán)格和非明確環(huán)境下的運作能力。因此,多智能體方法在許多工業(yè)應(yīng)用中具有極大的應(yīng)用潛力,無論是構(gòu)建復(fù)雜的知識檢索系統(tǒng)還是開發(fā)下一代機器人流程自動化。

考慮到當(dāng)前LLM一代的推理能力,處理復(fù)雜流程需要采取多步驟策略,這包括制定明確定義的模塊化任務(wù)計劃。這些任務(wù)可以由單一智能體或一組智能體根據(jù)其復(fù)雜性執(zhí)行。在本項研究中,團(tuán)隊專注于構(gòu)建一個靈活的智能體工程框架,特別關(guān)注規(guī)劃和執(zhí)行階段,以應(yīng)對跨不同領(lǐng)域的復(fù)雜應(yīng)用案例。

該框架能夠為工業(yè)應(yīng)用提供了所需的可靠性,并且為確保多個自主智能體能夠協(xié)同工作、共同解決問題提供了一套可擴(kuò)展、靈活且協(xié)作的技術(shù)流程。

4、Trace是新的AutoDiff——解鎖計算工作流的高效優(yōu)化

Trace is the New AutoDiff — Unlocking Efficient Optimization of Computational Workflows

論文地址:https://arxiv.org/abs/2406.16218

項目地址:https://microsoft.github.io/Trace

論文探索了一種針對自動化編碼助手、機器人和副駕駛等人工智能系統(tǒng)的優(yōu)化問題,研究團(tuán)隊開發(fā)了一個名為Trace的端到端優(yōu)化框架,它將AI系統(tǒng)的計算流程視為神經(jīng)網(wǎng)絡(luò)圖,并基于反向傳播的泛化進(jìn)行優(yōu)化。這種優(yōu)化處理了包括豐富反饋、異構(gòu)參數(shù)和復(fù)雜目標(biāo)在內(nèi)的多種因素,并能適應(yīng)動態(tài)變化的計算圖。

Trace框架通過一種新的迭代優(yōu)化數(shù)學(xué)設(shè)置——使用跟蹤預(yù)言機優(yōu)化(OPTO)——來捕獲和抽象AI系統(tǒng)的特性,以設(shè)計跨領(lǐng)域的優(yōu)化器。在OPTO中,優(yōu)化器通過接收執(zhí)行跟蹤和輸出反饋來迭代更新參數(shù)。Trace提供了一個Python接口,利用類似PyTorch的接口高效地將計算流程轉(zhuǎn)換為OPTO實例。

利用Trace,團(tuán)隊開發(fā)了一個名為OptoPrime的通用優(yōu)化器,它基于LLM,能夠解決多種OPTO問題,包括數(shù)值優(yōu)化、提示優(yōu)化、超參數(shù)調(diào)優(yōu)、機器人控制器設(shè)計和代碼調(diào)試等,且性能可與領(lǐng)域內(nèi)專業(yè)優(yōu)化器相媲美。論文認(rèn)為,Trace、OptoPrime和OPTO框架將推動下一代交互式智能體的發(fā)展,使其能夠利用各種反饋實現(xiàn)自動適應(yīng)。

  5、RCAgent:使用工具增強型大型語言模型的自治智能體進(jìn)行云根本原因分析

RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models

https://arxiv.org/abs/2310.16340

近期,云根本原因分析(RCA)領(lǐng)域?qū)Υ笮驼Z言模型(LLM)的應(yīng)用進(jìn)行了積極探索。但現(xiàn)有方法仍依賴手動設(shè)置工作流,未能充分發(fā)揮LLM在決策和環(huán)境交互方面的能力。為此,研究團(tuán)隊推出了RCAgent,這是一個工具增強的LLM自治智能體框架,專為實用且注重隱私的工業(yè)RCA設(shè)計。

RCAgent不依賴外部模型如GPT系列,而是在內(nèi)部部署的模型上運行,能夠自主進(jìn)行自由格式的數(shù)據(jù)收集和綜合分析。該框架融合了多項增強功能,包括行動軌跡的自洽性,以及一系列用于上下文管理、穩(wěn)定性提升和領(lǐng)域知識導(dǎo)入的方法。

實驗結(jié)果表明,RCAgent在RCA的多個方面(如預(yù)測根本原因、解決方案、證據(jù)和責(zé)任)以及規(guī)則內(nèi)外任務(wù)上均顯示出顯著且一致的優(yōu)勢,這些優(yōu)勢已通過自動化指標(biāo)和人工評估得到驗證。此外,RCAgent已成功集成至阿里云Apache Flink實時計算平臺的診斷和問題發(fā)現(xiàn)工作流程中,進(jìn)一步提升了工業(yè)RCA的效率和準(zhǔn)確性。

二、系統(tǒng)、套件與工具

  1、AgileCoder:基于敏捷方法論的軟件開發(fā)動態(tài)協(xié)作智能體

AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology

論文地址:https://arxiv.org/abs/2406.11912

軟件智能體正成為解決復(fù)雜軟件工程任務(wù)的有前景的工具。然而,現(xiàn)有研究常常過于簡化軟件開發(fā)流程,而現(xiàn)實世界中的這些流程往往更為復(fù)雜。

為了應(yīng)對這一挑戰(zhàn),研究團(tuán)隊設(shè)計了AgileCoder,這是一個將敏捷方法論(AM)整合進(jìn)框架的多智能體系統(tǒng)。該系統(tǒng)將特定的AM角色,如產(chǎn)品經(jīng)理、開發(fā)人員和測試人員,分配給不同的智能體,它們根據(jù)用戶輸入?yún)f(xié)作開發(fā)軟件。

AgileCoder通過組織工作為一系列沖刺(sprint),提高開發(fā)效率,并專注于逐步完成軟件的開發(fā)。此外,還引入了一個動態(tài)代碼圖生成器,該模塊能夠在代碼庫更新時動態(tài)創(chuàng)建代碼依賴圖。這使得智能體能夠更深入地理解代碼庫,從而在軟件開發(fā)過程中實現(xiàn)更精確的代碼生成和修改。

AgileCoder在性能上超越了現(xiàn)有的基準(zhǔn),如ChatDev和MetaGPT,樹立了新的標(biāo)準(zhǔn),并展現(xiàn)了多智能體系統(tǒng)在高級軟件工程環(huán)境中的強大能力。這標(biāo)志著軟件開發(fā)向更自動化、智能化方向邁出了重要一步。

  2、Parrot:使用語義變量高效提供基于LLM的應(yīng)用程序

Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

論文地址:https://arxiv.org/abs/2405.19888

LLM的興起催生了基于LLM與傳統(tǒng)軟件優(yōu)勢的新型應(yīng)用程序——AI智能體(也叫副駕駛),這是一種軟件新范式。

不同租戶的LLM應(yīng)用程序通過多個LLM請求設(shè)計復(fù)雜工作流以完成任務(wù),但受限于當(dāng)前公共LLM服務(wù)提供的簡化請求級API,丟失了關(guān)鍵的應(yīng)用程序級信息。這些服務(wù)只能盲目優(yōu)化單個LLM請求,導(dǎo)致應(yīng)用程序的整體性能不佳。

該論文介紹了Parrot,這是一個專注于LLM應(yīng)用程序端到端體驗的服務(wù)系統(tǒng)。Parrot引入了語義變量的概念,這是一種統(tǒng)一的抽象,將應(yīng)用程序級知識暴露給公共LLM服務(wù)。語義變量在請求提示中標(biāo)注輸入/輸出變量,并在連接多個LLM請求時形成數(shù)據(jù)管道,提供了一種自然的LLM應(yīng)用程序編程方式。

公開語義變量給公共LLM服務(wù),使其能夠執(zhí)行數(shù)據(jù)流分析,揭示多個LLM請求間的相關(guān)性,為LLM應(yīng)用程序的整體性能優(yōu)化開辟了新空間。廣泛的評估顯示,Parrot針對流行和實際的LLM應(yīng)用程序用例實現(xiàn)了顯著的性能提升。

  3、使用基礎(chǔ)模型實現(xiàn)企業(yè)自動化

Automating the Enterprise with Foundation Models

論文地址:https://arxiv.org/abs/2405.03710

項目地址:https://github.com/HazyResearch/eclair-agents

企業(yè)工作流程自動化每年可帶來 4 萬億美元的生產(chǎn)力提升。盡管這一領(lǐng)域已受到數(shù)據(jù)管理社區(qū)數(shù)十年的關(guān)注,但實現(xiàn)端到端工作流自動化的終極目標(biāo)仍然具有挑戰(zhàn)性。現(xiàn)有解決方案主要依賴流程挖掘和機器人流程自動化(RPA),這些機器人通常被硬編碼以遵循預(yù)設(shè)規(guī)則。

通過對醫(yī)院和大型B2B企業(yè)的案例研究,研究團(tuán)隊發(fā)現(xiàn)RPA的普及受到諸如高設(shè)置成本(12-18個月)、執(zhí)行不可靠(初始準(zhǔn)確率60%)和維護(hù)繁重等問題的制約。新一代多模態(tài)基礎(chǔ)模型(FM),如GPT-4,以其卓越的推理和規(guī)劃能力,為工作流自動化提供了新的可能性。

為此,論文提出了ECLAIR系統(tǒng),它在最少人工監(jiān)督下實現(xiàn)企業(yè)工作流程自動化。初步實驗顯示,ECLAIR通過多模態(tài)FM實現(xiàn)了接近人類水平的工作流理解(準(zhǔn)確率93%),并基于工作流的自然語言描述即可快速設(shè)置,實現(xiàn)了40%的端到端完成率。論文認(rèn)為,人與AI的協(xié)作、驗證和自我改進(jìn)是未來研究的開放性挑戰(zhàn),并提出利用數(shù)據(jù)管理技術(shù)來解決這些問題。

  4、S-Agents:開放環(huán)境中的自組織智能體

S-Agents: Self-organizing Agents in Open-ended Environments

https://arxiv.org/abs/2402.04578

利用LLM,自主智能體在處理各類任務(wù)上取得了顯著進(jìn)步。在開放環(huán)境中,為了提升協(xié)作的效率和有效性,需要靈活調(diào)整策略。然而,現(xiàn)有研究多聚焦于固定且任務(wù)導(dǎo)向的工作流程,而忽視了以智能體為中心的組織結(jié)構(gòu)。

受人類組織行為的啟發(fā),該團(tuán)隊提出了一種自組織智能體系統(tǒng)(S-Agents),它包括動態(tài)工作流的“智能體樹”結(jié)構(gòu)、用于平衡信息優(yōu)先級的“沙漏智能體架構(gòu)”,以及支持智能體間異步任務(wù)執(zhí)行的“非阻礙協(xié)作”方法。這一結(jié)構(gòu)使得一組智能體能在無人為干預(yù)下,有效應(yīng)對開放和動態(tài)環(huán)境的挑戰(zhàn)。

團(tuán)隊的實驗在Minecraft環(huán)境中進(jìn)行,S-Agent系統(tǒng)在執(zhí)行協(xié)作建造和資源收集任務(wù)時表現(xiàn)出了熟練和高效,從而驗證了其組織結(jié)構(gòu)和協(xié)作方法的有效性。這一研究成果為智能體在復(fù)雜環(huán)境中的自組織協(xié)作提供了新的視角和解決方案。

  5、一種人機協(xié)作工具,用于通過幾個示例將單個大型語言模型智能體訓(xùn)練到網(wǎng)絡(luò)中

A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples

論文地址:https://arxiv.org/abs/2404.15974

單個大型語言模型(LLM)智能體在解決復(fù)雜任務(wù)時能力有限。通過將多個LLM智能體連接成網(wǎng)絡(luò),可以顯著提升整體性能。然而,構(gòu)建這樣的LLM智能體網(wǎng)絡(luò)(LAN)是一項耗時且復(fù)雜的過程。

在本研究中,團(tuán)隊推出了EasyLAN,這是一個旨在幫助開發(fā)者構(gòu)建智能體網(wǎng)絡(luò)的人機協(xié)作工具。EasyLAN首先根據(jù)任務(wù)描述生成一個只包含單個智能體的網(wǎng)絡(luò)。然后,它利用訓(xùn)練樣本來逐步優(yōu)化網(wǎng)絡(luò)。EasyLAN會分析輸出與實際值之間的差異,診斷錯誤原因,并采取策略進(jìn)行修正。用戶可以參與EasyLAN的工作流程,或直接對網(wǎng)絡(luò)進(jìn)行調(diào)整。

最終,網(wǎng)絡(luò)從單一智能體發(fā)展成為一個成熟的LLM智能體網(wǎng)絡(luò)。實驗結(jié)果表明,使用EasyLAN,開發(fā)者能夠迅速構(gòu)建出性能優(yōu)異的智能體網(wǎng)絡(luò)。這一工具極大地簡化了智能體網(wǎng)絡(luò)的構(gòu)建過程,提高了開發(fā)效率。

  6、PromptRPA:根據(jù)文本提示在智能手機上生成機器人流程自動化

PromptRPA: Generating Robotic Process Automation on Smartphones from Textual Prompts

論文地址:https://arxiv.org/abs/2404.02475

機器人流程自動化(RPA)通過模擬人機交互,在不修改現(xiàn)有代碼的基礎(chǔ)上,為自動化圖形用戶界面(GUI)上的任務(wù)提供了有效的解決方案。但RPA的廣泛應(yīng)用受限于對腳本語言和工作流設(shè)計專業(yè)知識的需求。

為解決這一問題,研究團(tuán)隊提出了PromptRPA,這是一個能夠理解與任務(wù)相關(guān)的各種文本提示(如目標(biāo)、程序)并生成及執(zhí)行相應(yīng)RPA任務(wù)的系統(tǒng)。

PromptRPA由一系列智能體組成,它們模仿人類的認(rèn)知功能,專門用于解讀用戶意圖、管理由RPA生成的外部信息,并在智能手機上執(zhí)行操作。這些智能體能夠從用戶反饋中學(xué)習(xí),并根據(jù)積累的知識不斷提升性能。

實驗結(jié)果顯示,使用PromptRPA后,性能從基線的22.28%顯著提升至95.21%,且每個新任務(wù)平均僅需1.66次用戶干預(yù)。

PromptRPA在創(chuàng)建教程、智能輔助以及客戶服務(wù)等領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景,為RPA技術(shù)的進(jìn)一步普及和應(yīng)用提供了新的可能性。

  7、ProAgent:從機器人流程自動化到智能體流程自動化

ProAgent: From Robotic Process Automation to Agentic Process Automation

論文地址:https://arxiv.org/abs/2311.10751

項目地址:https://github.com/OpenBMB/ProAgent

自動化技術(shù)從古代的水車發(fā)展到今天的RPA,一直在解放人類從事繁重任務(wù)。但RPA在處理需要人類智能的任務(wù)時面臨挑戰(zhàn),尤其是在精心設(shè)計工作流和執(zhí)行中的動態(tài)決策方面。

隨著大型語言模型(LLM)的出現(xiàn),研究團(tuán)隊提出了智能體流程自動化(APA),這是一種革命性的自動化新范式,利用基于LLM的智能體實現(xiàn)高級自動化,通過將任務(wù)分配給負(fù)責(zé)構(gòu)建和執(zhí)行的智能體來減輕人力負(fù)擔(dān)。

論文具體實現(xiàn)了ProAgent,這是一個基于LLM的智能體,它可以根據(jù)人工指令創(chuàng)建工作流程,并通過協(xié)調(diào)專業(yè)的智能體做出復(fù)雜決策。

通過實證實驗,論文詳細(xì)展示了APA在工作流構(gòu)建和執(zhí)行方面的過程,證明了APA的可行性,并展現(xiàn)了由智能體驅(qū)動的自動化新范式的巨大潛力。這不僅為自動化領(lǐng)域帶來了新的視角,也為未來智能自動化的發(fā)展提供了新的方向。

  8、基于LLM的智能體調(diào)查:常見工作流和可重用的LLM分析組件

A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components

論文地址:https://arxiv.org/abs/2406.05804

大型語言模型(LLM)的最新進(jìn)展推動了基于LLM的復(fù)雜智能體框架的開發(fā)。然而,這些框架的復(fù)雜性在一定程度上阻礙了細(xì)粒度差異化的實現(xiàn),這對于在不同框架間高效實現(xiàn)功能和推動未來研究至關(guān)重要。因此,該調(diào)查的主要目標(biāo)是通過識別通用工作流程和可重用的LLM分析組件(LMPC),來促進(jìn)對近期提出的多種框架的統(tǒng)一理解。

這項工作旨在簡化不同智能體框架之間的差異,通過提取共通的工作流程和分析組件,為研究者和開發(fā)者提供一個更加清晰和一致的視角。通過這種方式,論文希望能夠降低開發(fā)和維護(hù)智能體框架的難度,同時為未來的研究和創(chuàng)新打下堅實的基礎(chǔ)。

三、評估測試基準(zhǔn)

  1、WorkArena++:邁向基于作文規(guī)劃和推理的常識性工作任務(wù)

WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks

論文地址:https://arxiv.org/abs/2407.05291

基準(zhǔn)測試項目:https://github.com/ServiceNow/WorkArena/tree/workarena-plus-plus

大型語言模型(LLM)因其模仿人類智能的能力而備受關(guān)注,這促使基于LLM的自主智能體數(shù)量激增。盡管最新的LLM展現(xiàn)出根據(jù)用戶指令進(jìn)行規(guī)劃和推理的潛力,但它們在自主任務(wù)解決方面的實際應(yīng)用效果尚待深入研究。特別是在企業(yè)環(huán)境中,自動化智能體的應(yīng)用被寄予厚望,期望能夠帶來顯著的影響。

為了解決這一研究空白,論文提出了WorkArena++,這是一個創(chuàng)新的基準(zhǔn)測試套件,包含682個任務(wù),覆蓋知識工作者日常執(zhí)行的實際工作流程。WorkArena++的目標(biāo)是全面評估網(wǎng)絡(luò)智能體在規(guī)劃、問題解決、邏輯/算術(shù)推理、信息檢索以及上下文理解等方面的能力。

通過對最先進(jìn)的LLM、視覺語言模型(VLM)以及人類工作者的實證研究,論文揭示了這些模型在職場中作為有效助手所面臨的若干挑戰(zhàn)。

除了基準(zhǔn)測試,論文還提供了一種機制,能夠輕松生成數(shù)千條基于真實情境的觀察/動作軌跡,這些軌跡可以用于微調(diào)現(xiàn)有的智能體模型,并期望這項工作能夠成為推動社區(qū)向有能力的自主智能體發(fā)展的重要資源。

  2、FlowBench:重新審視基于LLM的智能體工作流引導(dǎo)規(guī)劃并對其進(jìn)行基準(zhǔn)測試

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agent

論文地址:https://arxiv.org/abs/2406.14884

大型語言模型(LLM)驅(qū)動的智能體已成為執(zhí)行復(fù)雜任務(wù)的有前途工具,它們通過迭代規(guī)劃和行動來完成任務(wù)。但當(dāng)缺乏對專業(yè)知識密集型任務(wù)的深入理解時,這些智能體可能會產(chǎn)生不切實際的規(guī)劃幻想。為提高規(guī)劃的可靠性,該團(tuán)隊嘗試整合與工作流相關(guān)的外部知識。

盡管這一方法有潛力,但整合的知識往往雜亂無章、形式多樣,缺乏嚴(yán)格的形式化和全面評估。因此,該團(tuán)隊對不同格式的工作流知識進(jìn)行形式化處理,并推出了FlowBench——首個工作流引導(dǎo)規(guī)劃的基準(zhǔn)測試。FlowBench覆蓋6個領(lǐng)域的51個不同場景,以多種形式展現(xiàn)知識。

為了在FlowBench上評估不同的LLM,團(tuán)隊設(shè)計了一個多層評估框架,評估了工作流知識在多種格式下的有效性。結(jié)果表明,現(xiàn)有的LLM智能體在規(guī)劃方面還有很大的提升空間。論文期望FlowBench這一具有挑戰(zhàn)性的基準(zhǔn)測試能夠為未來智能體規(guī)劃研究提供參考,推動相關(guān)技術(shù)的進(jìn)步。

  3、多模態(tài)基礎(chǔ)模型是否了解企業(yè)工作流?業(yè)務(wù)流程管理任務(wù)的基準(zhǔn)

Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks

論文地址:https://arxiv.org/abs/2406.13264

數(shù)據(jù)集和實驗項目地址:https://github.com/HazyResearch/wonderbread

現(xiàn)有的機器學(xué)習(xí)(ML)基準(zhǔn)測試在評估業(yè)務(wù)流程管理(BPM)任務(wù)時,缺乏足夠的深度和多樣性的注釋。BPM 是一種旨在記錄、衡量、改進(jìn)和自動化企業(yè)工作流的實踐。

目前的研究幾乎完全集中在單一任務(wù)上,即利用多模態(tài)基礎(chǔ)模型(FM)如 GPT-4 實現(xiàn)端到端的自動化。這種對自動化的專注忽視了大多數(shù)BPM工具的實際應(yīng)用情況——在典型的流程優(yōu)化項目中,僅僅記錄相關(guān)工作流就占據(jù)了60%的時間。

為了填補這一空白,研究團(tuán)隊推出了WONDERBREAD,這是首個用于評估BPM任務(wù)的多模態(tài)FM基準(zhǔn)測試,它超越了自動化的范疇。該論文的貢獻(xiàn)包括:

團(tuán)隊期望WONDERBREAD能夠激勵開發(fā)更多以人為中心的AI工具,用于企業(yè)應(yīng)用程序,并進(jìn)一步探索多模態(tài)FM在更廣泛的BPM任務(wù)中的應(yīng)用。

四、編程語言

  APPL:一種提示編程語言,用于程序和大型語言模型提示的和諧集成

APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts

論文地址:https://arxiv.org/abs/2406.13161

大型語言模型(LLM)通過精心設(shè)計的提示和外部工具的集成,日益展現(xiàn)出處理各類任務(wù)的能力。然而,隨著任務(wù)復(fù)雜性的提升,涉及LLM的工作流程可能變得復(fù)雜,難以實現(xiàn)和維護(hù)。為解決這一難題,研究團(tuán)隊提出了APPL,一種新穎的提示編程語言,它作為計算機程序與LLM之間的橋梁,支持將提示無縫嵌入Python函數(shù),反之亦然。

APPL具備直觀的Python原生語法,擁有異步語義的高效并行化運行時環(huán)境,并且配備了無需額外成本的跟蹤模塊,以支持有效的故障診斷和重放。論文通過三個典型場景——自一致性的思維鏈(CoT-SC)、ReAct工具使用的智能體,以及多智能體聊天——證明了APPL程序的直觀性、簡潔性和高效性。

此外,對三個可并行化工作流的實驗進(jìn)一步證實了APPL在并行化獨立LLM調(diào)用方面的有效性,并實現(xiàn)了與預(yù)期估算相匹配的顯著加速比。這表明APPL是一個強大的工具,能夠提升LLM在復(fù)雜任務(wù)中的性能和可用性。

五、模型與工作流

  1、Granite Code Models:用于代碼智能的開放基礎(chǔ)模型系列

Granite Code Models: A Family of Open Foundation Models for Code Intelligence

論文地址:https://arxiv.org/abs/2405.04324

項目地址:https://github.com/ibm-granite/granite-code-models

LLM在代碼訓(xùn)練方面取得了突破性進(jìn)展,正深刻改變著軟件開發(fā)的生態(tài)。越來越多的代碼LLM被融入到軟件開發(fā)工具中,以提升程序員的工作效率。同時,基于LLM的智能體也開始展現(xiàn)出獨立處理復(fù)雜編碼任務(wù)的能力。

要充分發(fā)揮代碼LLM的潛力,需要它們具備廣泛的能力,如代碼生成、錯誤修復(fù)、代碼解釋、文檔編寫和代碼庫維護(hù)等。在本項研究中,團(tuán)隊推出了Granite系列僅解碼器代碼模型,專門用于代碼生成任務(wù)。這些模型經(jīng)過了116種編程語言的代碼訓(xùn)練,覆蓋了從30億到340億參數(shù)大小不等的多種模型,能夠滿足從復(fù)雜的應(yīng)用現(xiàn)代化到設(shè)備內(nèi)存受限的各種場景。

通過一系列綜合任務(wù)的評估,團(tuán)隊發(fā)現(xiàn)Granite Code模型在所有可用的開源代碼LLM中始終保持最先進(jìn)的性能。

該模型系列針對企業(yè)級軟件開發(fā)流程進(jìn)行了特別優(yōu)化,在代碼生成、修復(fù)和解釋等多項編碼任務(wù)中均有出色表現(xiàn),成為一個多功能的全能型代碼模型。所有Granite Code模型均在Apache 2.0許可下發(fā)布,既適用于研究也適用于商業(yè)用途,為軟件開發(fā)領(lǐng)域帶來了前所未有的靈活性和創(chuàng)新潛力。

  2、邁向?qū)崿F(xiàn)零樣本提示優(yōu)化的分層多智能體工作流程

Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization

論文地址:https://arxiv.org/abs/2405.20252

大型語言模型(LLM)在解答用戶問題上取得了顯著進(jìn)步,支撐了多樣化的應(yīng)用場景。但LLM的回答質(zhì)量極大程度上依賴于提示的質(zhì)量,一個精心設(shè)計的提示能夠引導(dǎo)LLM準(zhǔn)確回答極具挑戰(zhàn)性的問題。

盡管已有研究開發(fā)了多種策略來優(yōu)化提示,包括手工制作和領(lǐng)域內(nèi)優(yōu)化,它們在開放場景下的有效性仍受限,因為前者依賴于人類對問題的理解,而后者對未見過場景的泛化能力不足。

為克服這些限制,研究團(tuán)隊提出了一種讓LLM自主設(shè)計最佳提示的方法。具體來說,團(tuán)隊構(gòu)建了一個分層的提示生成框架,首先創(chuàng)建包含精確指令和準(zhǔn)確措辭的提示,再基于此生成最終答案。這一流程稱為分層多智能體工作流(HMAW)。

與現(xiàn)有方法相比,HMAW不受任何人類預(yù)設(shè)限制,無需訓(xùn)練,完全任務(wù)獨立,同時能夠適應(yīng)任務(wù)的細(xì)微差別。通過跨多個基準(zhǔn)的實驗,證實了HMAW雖然簡單,卻能創(chuàng)建出詳盡且合適的提示,進(jìn)一步提升了LLM的性能。

  3、面向混合現(xiàn)實的多模態(tài)細(xì)粒度培訓(xùn)助手的自主工作流

Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality

論文地址:https://arxiv.org/abs/2405.13034

自主人工智能智能體(Autonomous Agent)在自動理解基于語言的環(huán)境中展現(xiàn)出巨大潛力,尤其是在大型語言模型(LLM)迅猛發(fā)展的背景下。然而,對多模態(tài)環(huán)境的深入理解尚待進(jìn)一步探索。本研究設(shè)計了一個自主工作流程,旨在將AI智能體無障礙地集成到擴(kuò)展現(xiàn)實(XR)應(yīng)用中,實現(xiàn)細(xì)粒度訓(xùn)練。

論文展示了一個在XR環(huán)境中用于樂高積木組裝的多模態(tài)細(xì)粒度培訓(xùn)助手的案例。該智能體結(jié)合了LLM、記憶、規(guī)劃功能以及與XR工具的交互能力,能夠根據(jù)歷史經(jīng)驗做出決策。此外,論文介紹了LEGO-MRTA,這是一個多模態(tài)細(xì)粒度裝配對話數(shù)據(jù)集,它能夠在商業(yè)LLM服務(wù)的工作流程中自動合成,包含多模態(tài)說明、對話、XR響應(yīng)和視覺問答。

研究團(tuán)隊選取了幾個流行的開放資源LLM作為基準(zhǔn),評估它們在微調(diào)和未微調(diào)狀態(tài)下對團(tuán)隊提出的數(shù)據(jù)集的性能。論文期望這一工作流程能夠推動更智能助手的開發(fā),實現(xiàn)XR環(huán)境中的無縫用戶交互,并促進(jìn)AI和人機交互(HCI)社區(qū)的研究。

六、方法論

  1、利用多AI智能體進(jìn)行跨領(lǐng)域知識發(fā)現(xiàn)

Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery

論文地址:https://arxiv.org/abs/2404.08511

在迅速發(fā)展的人工智能領(lǐng)域,跨領(lǐng)域知識的整合與應(yīng)用是一項關(guān)鍵的挑戰(zhàn)與機遇。本研究提出了一種新方法,通過部署專注于不同知識領(lǐng)域的多人工智能智能體,實現(xiàn)跨學(xué)科的知識發(fā)現(xiàn)。每個智能體都像特定領(lǐng)域的專家,在統(tǒng)一框架下協(xié)同工作,提供綜合的、超越單一領(lǐng)域限制的深入見解。

研究團(tuán)隊的平臺通過促進(jìn)智能體間的無縫互動,利用每個智能體的獨特優(yōu)勢,增強了知識發(fā)現(xiàn)和決策過程。通過對比分析不同的多智能體工作流場景,評估了它們在效率、準(zhǔn)確性和知識整合廣度上的表現(xiàn)。實驗結(jié)果表明,這些特定領(lǐng)域的多智能體系統(tǒng)在識別和填補知識空白方面表現(xiàn)出色。

這項研究不僅凸顯了協(xié)作智能在促進(jìn)創(chuàng)新中的關(guān)鍵作用,也為人工智能推動的跨學(xué)科研究和應(yīng)用的發(fā)展奠定了基礎(chǔ)。團(tuán)隊在小規(guī)模試點數(shù)據(jù)上評估了其方法,結(jié)果顯示出預(yù)期趨勢,隨著自定義訓(xùn)練智能體的數(shù)據(jù)量增加,這些趨勢預(yù)計將變得更加明顯。

  2、從頭開始為類似計劃的任務(wù)開發(fā)基礎(chǔ)模型的案例

The Case for Developing a Foundation Model for Planning-like Tasks from Scratch

論文地址:https://arxiv.org/abs/2404.04540

基礎(chǔ)模型 (FM) 徹底改變了許多計算領(lǐng)域,包括自動規(guī)劃和調(diào)度 (APS)。例如,最近的一項研究發(fā)現(xiàn)它們對規(guī)劃問題很有用:計劃生成、語言翻譯、模型構(gòu)建、多智能體規(guī)劃、交互式規(guī)劃、啟發(fā)式優(yōu)化、工具集成和大腦啟發(fā)規(guī)劃。

除了APS,還有許多任務(wù)涉及生成一系列行動,這些行動對于達(dá)成目標(biāo)的可執(zhí)行性有不同的保障,團(tuán)隊統(tǒng)稱這些為類似計劃(PL)任務(wù),例如業(yè)務(wù)流程、程序編寫、工作流管理和指南制定。研究人員正考慮將FM應(yīng)用于這些領(lǐng)域。

然而,以往的研究多集中在使用現(xiàn)成的預(yù)訓(xùn)練FM,并可能對它們進(jìn)行微調(diào)。該論文討論了為PL任務(wù)從頭開始設(shè)計全面的FM的必要性,并探討了設(shè)計時需考慮的因素。論文認(rèn)為,這樣的FM將為PL問題提供新的有效解決方案,正如大型語言模型(LLM)為APS領(lǐng)域所做的那樣。

  3、Transformations時代的轉(zhuǎn)變

Transformations in the Time of The Transformer

論文地址:https://arxiv.org/abs/2401.10897

基礎(chǔ)模型為以人工智能為主導(dǎo)的視角重新設(shè)計現(xiàn)有系統(tǒng)和工作流程提供了新的機遇。然而,實現(xiàn)這一轉(zhuǎn)型面臨著挑戰(zhàn)和需要權(quán)衡的問題。本文旨在提供一個結(jié)構(gòu)化的框架,幫助企業(yè)在向以AI為優(yōu)先的組織轉(zhuǎn)型過程中做出明智的決策。所提供的建議旨在幫助企業(yè)全面、有意識地做出知情的選擇,同時避免受到不必要的干擾。

盡管這個領(lǐng)域看似發(fā)展迅猛,但其中一些核心的基礎(chǔ)要素發(fā)展步伐相對較慢。團(tuán)隊專注于這些穩(wěn)定不變的因素,以此構(gòu)建論證的邏輯基礎(chǔ)。通過深入理解這些不變的基本面,企業(yè)可以更穩(wěn)健地把握AI轉(zhuǎn)型的方向和步驟。

  4、協(xié)同人機交互:與基于LLM的智能體進(jìn)行服務(wù)共創(chuàng)的23種啟發(fā)式指南

Synergizing Human-AI Agency: A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents

論文地址:https://arxiv.org/abs/2310.15065

本項實證研究為服務(wù)供應(yīng)商提供了入門知識,幫助他們確定是否以及如何將大型語言模型(LLM)技術(shù)集成到其從業(yè)者和更廣泛社區(qū)的工作之中。通過CoAGent——一種與基于LLM的智能體共同創(chuàng)造服務(wù)的工具,研究團(tuán)隊探索了非AI專家與AI相互學(xué)習(xí)的過程。

這項研究通過與23位來自美國公共圖書館的領(lǐng)域?qū)<液献鳎?jīng)歷了一個三階段的參與式設(shè)計流程,揭示了將AI集成到人類工作流程中所面臨的根本性挑戰(zhàn)。

研究結(jié)果提供了23種可操作的“與AI共同創(chuàng)造服務(wù)的啟發(fā)式方法”,這些方法突出了人類與AI之間微妙的共同責(zé)任。并進(jìn)一步提出了人工智能的9個基本智能體方面,強調(diào)了所有權(quán)、公平待遇和言論自由等基本要素。這種創(chuàng)新方法通過將AI視為關(guān)鍵利益相關(guān)者,并利用AI與AI的交互來識別盲點,從而豐富了參與式設(shè)計模型。

這些見解為服務(wù)環(huán)境中協(xié)同和道德的人類與AI共創(chuàng)鋪平了道路,為人工智能共存的勞動力生態(tài)系統(tǒng)做好了準(zhǔn)備。這不僅為服務(wù)供應(yīng)商提供了實用的指導(dǎo),也為構(gòu)建人機協(xié)作的未來提供了寶貴的洞見。

  5、計算管理的基礎(chǔ):將人工智能集成到現(xiàn)有工作流程中的任務(wù)自動化的系統(tǒng)方法

The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows

論文地址:https://arxiv.org/abs/2402.05142

在AI迅猛發(fā)展的今天,組織面臨一個核心問題:如何將AI技術(shù)有效融入現(xiàn)有運營?為解答這一問題、調(diào)控期望并減少挑戰(zhàn),該論文引入了計算管理——一種系統(tǒng)化的任務(wù)自動化方法,旨在增強組織利用AI的潛力。計算管理融合了管理科學(xué)的戰(zhàn)略洞察與計算思維的分析精確性,架設(shè)了二者之間的橋梁。

論文提供三個分步流程,以助于在工作流中啟動AI的集成。

首先是任務(wù)(重新)制定,它將工作活動拆解為基本單元,每個單元由智能體執(zhí)行,包括明確行動并產(chǎn)生多樣結(jié)果。

第二,評估任務(wù)自動化潛力,通過任務(wù)自動化指數(shù)對任務(wù)進(jìn)行評估,依據(jù)其標(biāo)準(zhǔn)化輸入、規(guī)則明確性、重復(fù)性、數(shù)據(jù)依賴性和客觀輸出進(jìn)行排序。

第三,任務(wù)規(guī)范模板詳述了16個關(guān)鍵組件,作為選擇或調(diào)整AI解決方案以適應(yīng)現(xiàn)有工作流程的清單。

這些流程結(jié)合了手動和自動方法,并為現(xiàn)有的大型語言模型(LLM)提供了使用提示,以輔助完成這些步驟。計算管理為人與AI的協(xié)同提供了路線圖和工具,提升了組織效率和創(chuàng)新力,為人機共榮的未來鋪平了道路。

注:本文論文敘述部分配圖,皆來自論文截圖,具體內(nèi)容請參考論文詳情。

本文轉(zhuǎn)自 微信公眾號@王吉偉

上一篇:

生成式 AI 在電商領(lǐng)域究竟有多牛,這款產(chǎn)品給出了回答

下一篇:

AI+銷售類產(chǎn)品大盤點,紅杉正在押注這個賽道
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費