圖2:總體研究結(jié)構(gòu)框架

為什么工具學(xué)習(xí)是有益的?

一方面,將工具整合到LLMs中可以增強(qiáng)多個(gè)領(lǐng)域內(nèi)的能力,即知識(shí)獲取、專業(yè)技能提升、自動(dòng)化與效率以及交互增強(qiáng)。另一方面,采用工具學(xué)習(xí)范式可以增強(qiáng)響應(yīng)的穩(wěn)健性和生成過(guò)程的透明度,從而提高可解釋性和用戶信任度,以及改善系統(tǒng)的穩(wěn)健性和適應(yīng)性

  1. 知識(shí)獲取(Knowledge Acquisition)
    1. LLMs 的能力受限于預(yù)訓(xùn)練期間學(xué)習(xí)的知識(shí)范圍,這些知識(shí)是固定的,不能動(dòng)態(tài)更新。
    2. 通過(guò)集成外部工具,如搜索引擎、數(shù)據(jù)庫(kù)和知識(shí)圖譜、天氣或地圖工具,LLMs 能夠動(dòng)態(tài)獲取和整合外部知識(shí),從而提供更準(zhǔn)確、與上下文相關(guān)的輸出。
  2. 專業(yè)知識(shí)增強(qiáng)(Expertise Enhancement)
    1. LLMs 在特定領(lǐng)域缺乏專業(yè)知識(shí),例如復(fù)雜數(shù)學(xué)計(jì)算、編程和科學(xué)問(wèn)題解決。
    2. 通過(guò)使用在線計(jì)算器、數(shù)學(xué)工具、Python解釋器等工具,LLMs 能夠執(zhí)行復(fù)雜計(jì)算、解決方程式、分析統(tǒng)計(jì)數(shù)據(jù),從而增強(qiáng)其在專業(yè)領(lǐng)域的能力。
  3. 自動(dòng)化和效率(Automation and Efficiency)
    1. LLMs 本質(zhì)上是語(yǔ)言處理器,缺乏獨(dú)立執(zhí)行外部操作的能力,如預(yù)訂會(huì)議室或機(jī)票。
    2. 通過(guò)與外部工具集成,LLMs 可以自動(dòng)化執(zhí)行任務(wù),如日程安排、設(shè)置提醒、過(guò)濾電子郵件等,提高實(shí)用性和用戶交互的效率。
  4. 交互增強(qiáng)(Interaction Enhancement)
    1. 用戶查詢具有多樣性和多模態(tài)性,LLMs 在理解不同類型輸入時(shí)面臨挑戰(zhàn)。
    2. 利用多模態(tài)工具和機(jī)器翻譯工具,LLMs 可以更好地理解和響應(yīng)更廣泛的用戶輸入,優(yōu)化對(duì)話管理和意圖識(shí)別。
  5. 增強(qiáng)的可解釋性和用戶信任(Enhanced Interpretability and User Trust)
    1. 當(dāng)前LLMs的“黑箱”特性導(dǎo)致其決策過(guò)程對(duì)用戶不透明,缺乏可解釋性。
    2. 通過(guò)工具學(xué)習(xí),LLMs可以展示決策過(guò)程的每一步,增加操作透明度,使用戶能夠快速識(shí)別和理解錯(cuò)誤來(lái)源,增強(qiáng)對(duì)LLMs決策的信任。
  6. 改進(jìn)的魯棒性和適應(yīng)性(Improved Robustness and Adaptability)
    1. LLMs 對(duì)用戶輸入非常敏感,微小的變化可能導(dǎo)致響應(yīng)的大幅變化,顯示出缺乏魯棒性。
    2. 集成專用工具可以減少對(duì)訓(xùn)練數(shù)據(jù)中統(tǒng)計(jì)模式的依賴,提高對(duì)輸入擾動(dòng)的抵抗力和對(duì)新環(huán)境的適應(yīng)性。

如何實(shí)現(xiàn)工具學(xué)習(xí)?

圖3:使用大型語(yǔ)言模型進(jìn)行工具學(xué)習(xí)的整體工作流程。左側(cè)部分展示了工具學(xué)習(xí)的四個(gè)階段:任務(wù)規(guī)劃、工具選擇、工具調(diào)用和響應(yīng)生成。右側(cè)部分展示了兩種工具學(xué)習(xí)范式:一步式任務(wù)解決的工具學(xué)習(xí)和迭代式任務(wù)解決的工具學(xué)習(xí)。

任務(wù)規(guī)劃(Task Planning )

  1. 任務(wù)規(guī)劃的重要性:
    1. 任務(wù)規(guī)劃是工具學(xué)習(xí)過(guò)程中的首要階段,它涉及對(duì)用戶查詢的全面分析,以理解用戶意圖。
    2. 用戶的問(wèn)題往往包含復(fù)雜的意圖,需要被分解為多個(gè)可執(zhí)行的子問(wèn)題。
  2. 任務(wù)規(guī)劃的步驟:
    1. 任務(wù)分解:將用戶的問(wèn)題分解為多個(gè)子問(wèn)題,這有助于逐步解決復(fù)雜問(wèn)題。
    2. 依賴關(guān)系和執(zhí)行順序:確定子問(wèn)題之間的依賴關(guān)系以及它們應(yīng)該被執(zhí)行的順序。
  3. 任務(wù)規(guī)劃的方法:
    1. 無(wú)需調(diào)整的方法(Tuning-free Methods):利用LLMs的內(nèi)在能力,通過(guò)少量示例或零示例提示來(lái)實(shí)現(xiàn)任務(wù)規(guī)劃。例如,使用CoT(Chain of Thought)或ReACT等框架來(lái)引導(dǎo)LLMs逐步思考和規(guī)劃。
    2. 基于調(diào)整的方法(Tuning-based Methods):通過(guò)在特定任務(wù)上微調(diào)LLMs來(lái)提高任務(wù)規(guī)劃能力。例如,Toolformer等方法通過(guò)微調(diào)來(lái)增強(qiáng)LLMs對(duì)工具使用的意識(shí)和能力。

工具選擇(Tool Selection)

工具選擇的重要性:

工具選擇的分類:

  1. 基于檢索器的工具選擇(Retriever-based Tool Selection)
  2. 基于LLM的工具選擇(LLM-based Tool Selection)

工具選擇的方法:

工具調(diào)用(Tool Calling)

工具調(diào)用的重要性:

工具調(diào)用的步驟:

  1. 參數(shù)提取:LLMs必須能夠從用戶查詢中提取出符合工具描述中指定格式的參數(shù)。
  2. 調(diào)用工具:使用提取的參數(shù)向工具服務(wù)器發(fā)送請(qǐng)求,并接收響應(yīng)。

工具調(diào)用的方法:

響應(yīng)生成(Response Generation)

響應(yīng)生成的重要性:

響應(yīng)生成的方法:

  1. 直接插入方法(Direct Insertion Methods)
  2. 信息整合方法(Information Integration Methods)

信息整合的策略:

工具學(xué)習(xí)范式(Paradigms of Tool Learning)

工具學(xué)習(xí)范式:

  1. 一步任務(wù)解決(Tool Learning with One-step Task Solving):
    • 這種范式涉及到在收到用戶問(wèn)題后,LLMs立即分析用戶請(qǐng)求,理解用戶意圖,并規(guī)劃出所有需要的子任務(wù)來(lái)解決問(wèn)題。
    • 在這個(gè)過(guò)程中,LLMs會(huì)直接生成一個(gè)基于選定工具返回結(jié)果的響應(yīng),而不會(huì)考慮過(guò)程中可能出現(xiàn)的錯(cuò)誤或根據(jù)工具的反饋調(diào)整計(jì)劃。
  2. 迭代任務(wù)解決(Tool Learning with Iterative Task Solving):
    • 這種范式允許LLMs與工具進(jìn)行迭代交互,不預(yù)先承諾一個(gè)完整的任務(wù)計(jì)劃。
    • 相反,它允許基于工具的反饋逐步調(diào)整子任務(wù),使LLMs能夠一步步地解決問(wèn)題,并根據(jù)工具返回的結(jié)果不斷完善計(jì)劃。
    • 這種方法增強(qiáng)了LLMs的問(wèn)題解決能力,因?yàn)樗试S模型在響應(yīng)工具反饋時(shí)進(jìn)行適應(yīng)和學(xué)習(xí)。

范式的特點(diǎn):

工具學(xué)習(xí)評(píng)估基準(zhǔn)與指標(biāo)

評(píng)估指標(biāo)(Evaluation)

任務(wù)規(guī)劃評(píng)估(Task Planning Evaluation):

工具選擇評(píng)估(Tool Selection Evaluation):

工具調(diào)用評(píng)估(Tool Calling Evaluation):

響應(yīng)生成評(píng)估(Response Generation Evaluation):

圖4:不同基準(zhǔn)測(cè)試及其具體配置的詳細(xì)列表。符號(hào)①、②、③和④分別代表工具學(xué)習(xí)的四個(gè)階段——任務(wù)規(guī)劃、工具選擇、工具調(diào)用和響應(yīng)生成

Tool Learning with Large Language Models: A Survey
https://arxiv.org/pdf/2405.17935
https://github.com/quchangle1/LLM-Tool-Surve

本文轉(zhuǎn)自微信公眾號(hào)@PaperAgent

#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)