這4個子系統(tǒng)共同工作,使TaskMatrix.AI能夠理解用戶目標,并為特定任務執(zhí)行基于 API 的可執(zhí)行代碼。多模態(tài)會話基礎(chǔ)模型(MCFM)作為用戶交流的主要接口,可以理解多模態(tài)上下文。API 平臺提供了一個統(tǒng)一的 API 文檔模式和一個存儲數(shù)百萬 API 的地方。API 選擇器使用 MCFM 對用戶目標的理解來推薦相關(guān)的 API。最后,API 執(zhí)行器執(zhí)行由相關(guān) API 生成的操作代碼并返回結(jié)果。此外,該團隊還利用人工反饋(RLHF)技術(shù)的強化學習來訓練一種獎勵模型,該模型可以優(yōu)化任務矩陣(taskMatrix)。該方法可以幫助 MCFM 和 API 選擇器找到最優(yōu)策略,提高復雜任務的性能。

3.1 多模態(tài)會話基礎(chǔ)模型(MCFM)

MCFM 有四個輸入:基礎(chǔ)模型的參數(shù)、API 平臺、用戶指令和會話上下文。使用這些輸入,模型生成操作代碼來完成用戶的指令。此外,理想的多模式會話框架模型 (MCFM) 應該具有以下四個主要功能:

ChatGPT 和 GPT-4 是具有 MCFM 所需的這些能力的兩個模型示例。然而,GPT-4 更適合,因為它支持多模態(tài)輸入。

3.2 API 平臺

API 平臺有兩個主要功能: 存儲 API 和管理 API 的開發(fā)者或所有者。API 平臺有一個統(tǒng)一的 API 文檔模板,包括每個 API 文檔的五個方面:

API 描述示例:

API Name: open_local_file
API Parameter: (file_path:string, model:string="r").
file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.
mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.

API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.

Usage Example: f = open_local_file("example.txt", "w")

Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.

3.3 API 選擇器

API選擇器旨在從API平臺中識別和選擇最適合任務需求的API。它可以通過檢索語義相關(guān)的API來減少API平臺可能擁有的過多API。API選擇器可以利用模塊策略來快速定位相關(guān)的API。

模塊策略是指根據(jù)API的領(lǐng)域?qū)PI組織成特定的包或模塊的方法。每個模塊對應于一個特定的區(qū)域,例如可視化模型、數(shù)學、特定的軟件或物理設(shè)備。通過使用這種策略,API選擇器可以快速定位符合MCFM所理解的任務需求和解決方案大綱的相關(guān)API。這種方法有助于簡化API選擇過程,并使從API平臺檢索語義相關(guān)的API變得更加容易。

3.4 動作執(zhí)行器

動作執(zhí)行器被設(shè)計用來執(zhí)行動作代碼。AI 使用一個動作執(zhí)行器來運行各種 API,從簡單的 HTTP 請求到需要多個輸入?yún)?shù)的復雜算法或 AI 模型。

動作執(zhí)行器還需要一個驗證機制來提高準確性和可靠性,并確認生成的代碼的結(jié)果是否符合人類指定的任務。

3.5 以人為本的強化學習(RLHF)

TaskMatrix.AI 將利用 RLHF 來增強 MCFM 和 API 選擇器,以便在復雜任務中提供更好的性能。

RLHF 將專門用于優(yōu)化 API 選擇器,使用基于 API 反饋的訓練有素的獎勵模型:

這將允許以最優(yōu)化的方式創(chuàng)建 API 文檔來使用給定的 API。

4. TaskMatrix 的用例

TaskMatrix. AI 可以幫助解決哪些任務呢?

TaskMatrix. AI 與基礎(chǔ)模型、云服務、機器人技術(shù)和物聯(lián)網(wǎng)的持續(xù)發(fā)展相結(jié)合,有潛力創(chuàng)造一個生產(chǎn)力和創(chuàng)造力都有所提高的未來世界。

4.1 可視化任務

基于MCFM的多模態(tài)特性,TaskMatrix.AI可以執(zhí)行可視化任務,并且能夠?qū)⒄Z言和圖像作為輸入。它可以執(zhí)行的一些視覺任務,下圖顯示了TaskMatrix.AI如何構(gòu)建在VisualChatGPT之上,并能夠更好地處理VQA任務。

圖像編輯,可以刪除或替換圖像中的對象,也可以通過TaskMatrix.AI進行。使用圖像處理技術(shù)或計算機算法Image-to-Sketch/Depth/Hed/Line,可以將圖像轉(zhuǎn)換為草圖、深度、整體嵌套的邊緣檢測或線。Sketch/Depth/Hed/Line-to-Image與上面的相反,它將根據(jù)給定的選項生成圖像。

下圖顯示了TaskMatrix.AI如何使用三個API調(diào)用(圖像問答、圖像字幕和替換圖像中的對象)在解決方案大綱上定義和執(zhí)行的示例。

4.2 多模態(tài)長內(nèi)容生成

TaskMatrix.AI 的另一個用例是創(chuàng)建大型多模式(圖像和文本)內(nèi)容,以消除其他模型的字符限制。

在下面的例子中,我們可以看到 TaskMatrix.AI如何從用戶那里獲得高級指令并生成合理的響應。

4.3 辦公自動化

TaskMatrix.AI 可以通過理解通過語音接收的用戶指令并使任務自動化來輕松減少辦公的工作量。此外,它還可以在沒有大量培訓的情況下使用復雜的軟件,從而讓員工能夠?qū)W⒂诟o急的任務。

下面的例子展示了 TaskMatrix.AI 和創(chuàng)建 PowerPoint 幻燈片時使用不同 API 的人之間的對話。

4.4 云服務的利用

TaskMatrix.AI 可以像智能家居自動化一樣工作,能夠與家里的所有設(shè)備通訊,并作為它們之間的中心連接點。下面的圖片顯示了一個人和 TaskMatrix.AI 之間的對話,TaskMatrix.AI 利用內(nèi)部機器人的軟件和硬件來完成日常任務。

此外,TaskMatrix.AI 可以在許多其他場景中使用,唯一的要求是它可以利用 API,例如訪問元宇宙或 Web3。

5. TaskMatrix.AI的挑戰(zhàn)

TaskMatrix.AI 仍然有相當多的缺點和局限性需要解決和處理, 例如:

6. 小結(jié)

回顧摩爾定律,或許,“AI的數(shù)量每18個月翻一番”會成為一個新的定律。

TaskMatrix.AI 將基礎(chǔ)模型與數(shù)以百萬計的現(xiàn)有模型和系統(tǒng) API集成起來,從而產(chǎn)生一個能夠執(zhí)行各種數(shù)字和物理任務的“超級人工智能”。作為一個AI平臺,允許人類利用大模型和 API 執(zhí)行大量多樣化的任務。它能夠處理每一個普通的任務(例如,制作 PPT 幻燈片或者按時間表運行清潔機器人來打掃房間) ,讓我們更有生產(chǎn)力和創(chuàng)造力。

【參考文獻】 

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs,https://arxiv.org/pdf/2303.16434.pdf

譯文轉(zhuǎn)自 解讀TaskMatrix.AI-51CTO.COM

上一篇:

開放API領(lǐng)域的領(lǐng)導者:冪簡集成

下一篇:

eDRV的EV充電應用API:革新電動汽車即插即充體驗
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費