
9 個用于英國、歐盟和全球驗證的增值稅 API
1、AI Agent的譜系:簡單和自主模式以及”幸福的中間地帶”
讓我們將智能體定義為任何允許大型語言模型(LLM)控制應用程序流程的應用程序。
事后看來,很明顯AutoGPT太過通用且沒有約束,無法滿足我們的期望。雖然它激發了人們的想象力,作為大型語言模型如何發展成通用智能體的概念驗證,但缺乏約束使得它無法可靠地執行有用的任務。
新一代智能體背后的秘訣是它們使用定制的認知架構來提供指導和控制狀態的框架,以保持智能體的專注,不偏離軌道,同時充分利用LLM的全面能力和特性。
將我們在野外看到的智能體類型框架化的一個有用方法是在簡單、硬編碼的智能體和完全自主的智能體之間進行譜系劃分。這種框架揭示了“幸福的中間地帶”,在這里我們最有可能在近期到中期看到有用的智能體出現。
在譜系的最簡單端,LLMs充當“路由器”,決定走哪條路徑,也許有一個分類步驟。在這種情況下,LLM調用控制應用程序的流程,但大部分邏輯仍然是硬編碼的。在另一個極端,你擁有完全自主的智能體,如AutoGPT。
基于簡單鏈的智能體不夠靈活或強大,無法真正利用LLM范式,而完全自主的智能體失敗太頻繁,無法發揮作用。
開發者們正在智能體譜系的中間找到一個恰到好處的“剛剛好”的平衡點,他們將很多控制流程交給了大型語言模型(LLMs),但仍然保持了一套軌道和“狀態”感。
這個“剛剛好”的中間地帶提供了最佳的權力、靈活性和控制的平衡,但它也是開發者最難構建的智能體類型——它需要一個結構化但也是不確定的認知架構。一個完全自主的智能體可以用很少的代碼實現;在極端情況下,你只需要在for循環中讓智能體每步選擇一個行動。簡單的智能體也很容易編碼,因為需要控制的隨機變量很少。在中間地帶開發需要你將大量的控制權(以及因此產生的隨機變量)交給LLMs,同時也要控制高層次的應用程序流程和狀態管理。
Harrison在我們的播客上分享了Jeff Bezos的一個精彩引述:“專注于讓你的啤酒味道更好”,他將20世紀初釀酒廠自己發電和科技公司在AWS之前運行自己的基礎設施進行了類比。在一個智能體經常摔倒的世界中,一個在SWE-bench上12-13%的表現被認為是最先進的水平,實現一個定制的認知架構絕對可以讓你的啤酒味道更好。
2、定制的認知架構是否只是權宜之計?
但能持續多久呢?Harrison在我們的AI Ascent會議上的演講中也提出了這個問題,他詢問基礎的大型語言模型(LLMs)的改進是否會逐漸取代開發者在“幸福的中間地帶”構建的越來越多的推理和規劃。
換句話說,定制的認知架構是否只是權宜之計?
這是一個合理的問題:許多最早的基于提示工程的智能體架構(比如思維鏈)默認地融入了LLMs的未來迭代中,消除了圍繞LLM構建它們的必要性。我們相信許多大型研究實驗室的研究人員正專注于推理、規劃和搜索問題。
Harrison的看法是,越來越多的通用推理將默認地融入LLMs,但仍需要應用或領域特定的推理。
作為軟件工程師,你規劃和執行行動以達成目標的方式與作為科學家的工作方式大相徑庭,而且作為不同公司的科學家,情況也有所不同。
領域和應用特定的推理空間如此之大,以至于不能有效地編碼在通用模型中。
3、軟件2.0的開發范式
使用大型語言模型(LLMs)開發應用程序與軟件1.0開發是不同的范式,需要新的方法來實現可觀測性和評估。
Harrison認為,許多傳統的軟件開發工具不足以應對LLM應用程序的不確定性本質。隨著智能體和控制應用程序邏輯的新方法的出現,使用可觀測性和測試來監控應用程序的行為變得至關重要。
如果你正在構建一個定制的認知架構,以下是一些需要考慮的事情:
“剛剛好”智能體的崛起令人興奮之處在于,它有巨大的潛力來創造為我們工作且在我們控制之下的軟件。實現這一潛力不僅取決于模型變得更好(它們肯定會),而且還依賴于這一全新的工具生態系統來管理這種根本上全新的應用程序開發。
哈里森·蔡斯:現在一切都還非常早期,有很多東西需要建造。GPT-5將會問世,它可能會讓你做的一些事情變得無關緊要,但在這個過程中你會學到很多東西。我堅信,這就像是變革性的技術,所以你對它了解得越多越好。
索妮婭·黃:您好,歡迎來到《訓練數據》。我們今天有哈里森·蔡斯,LangChain的創始人兼首席執行官。哈里森是智能體生態系統中的傳奇人物,作為首位將LLMs與工具和行動聯系起來的產品遠見者。LangChain是AI領域最受歡迎的智能體構建框架。今天,我們很高興向哈里森詢問智能體的現狀、未來潛力和前進的道路。哈里森,非常感謝你加入我們。歡迎來到我們的節目。
哈里森·蔡斯:當然,感謝你們邀請我。
1、什么是智能體?以LLM為中心的應用控制流程
索妮婭·黃:也許只是為了設定舞臺,智能體是每個人都想更多了解的話題。你幾乎從LLM浪潮開始以來就一直處于智能體構建的中心。所以也許首先設定一下舞臺。
智能體究竟是什么?
哈里森·蔡斯:我認為定義智能體實際上是有點棘手的。
人們可能對它們有不同的定義,我認為這是相當公平的,因為LLMs和與智能體相關的一切仍然處于生命周期的早期階段。
我對智能體的思考方式是,當一個LLM在某種程度上決定應用程序的控制流程時。我的意思是,如果你有一個更傳統的RAG鏈,或者檢索增強生成鏈,步驟通常事先已知,首先,你可能要生成一個搜索查詢,然后檢索一些文檔,然后生成一個答案。然后你會將其返回給用戶。這是一個非常固定的事件序列。
當我想到開始變得具有智能體特性的東西時,是你將一個LLM置于中心并讓它決定它究竟要做什么。
所以有時候它可能會查找搜索查詢。其他時候,它可能不會,它可能只是直接響應用戶。也許它會查找搜索查詢,得到結果,再查找另一個搜索查詢,再查找兩個搜索查詢,然后做出響應。所以你讓 LLM 來決定控制流。
我認為還有一些其他可能更時髦的東西適合這個范疇。
工具使用通常與智能體聯系在一起。我認為這是有意義的。因為當你有一個LLM決定要做什么時,它決定要做什么的主要方式是通過工具使用。所以我認為這些事情是相輔相成的。
內存的某些方面通常與智能體聯系在一起。我認為這也是有道理的,因為當你有一個LLM決定要做什么時,它需要記住它之前做了什么。所以像工具使用和記憶是松散關聯的。
但對我來說,當我想到一個智能體時,它真的是有一個LLM決定你的應用程序的控制流程。
帕特·格雷迪:哈里森,我剛才從你那里聽到的很多內容都是關于決策的。我一直把智能體看作是一種行動的采取。
這兩件事是相輔相成的嗎?智能體行為更多是關于一個而不是另一個?你怎么看待這個?
哈里森·蔡斯:我認為它們是相輔相成的。
我認為我們所看到的智能體所做的很多事情是決定采取什么行動,從所有意圖和目的來看。
我認為采取行動的大難題是決定采取正確的行動。所以我確實認為解決一個問題自然會導致另一個問題。在你決定行動之后,通常有一個系統圍繞著LLM,然后去執行那個行動并將其反饋到智能體中。所以我認為,是的,我確實認為它們是相輔相成的。
2、智能體有簡單模式和完全自主模式
索妮婭·黃:那么哈里森,看起來主要的區別就是,智能體和像鏈這樣的事物之間的區別在于,LLM本身正在決定下一步要采取什么步驟,下一步要采取什么行動,而不是這些被硬編碼。這是一種公平區分智能體是什么的方法嗎?
哈里森·蔡斯:是的,我認為這是正確的。而且也有不同的層次。
舉個極端的例子,你可以有一個路由器來決定走哪條路。因此,在您的鏈條中可能只有一個分類步驟。所以LLM仍然在決定,比如要做什么,但它是一個非常簡單的決定方式。
你知道,在另一個極端,你有這些完全自主的智能體類型的東西。然后在這兩者之間有一個完整的譜系。所以我認為這基本上是正確的,盡管我只是想指出,就像LLM領域最近大多數事情一樣,有很多細微差別和灰色地帶。
3、LangChain在智能體生態系統扮演的角色: “幸福的中間地帶”,構建“剛剛好”的智能體
索妮婭·黃:明白了。所以從控制到完全自主的決策和邏輯,這些是智能體的譜系。
你認為LangChain在智能體生態系統中扮演什么角色?
哈里森·蔡斯:我認為現在我們真的專注于讓人們更容易在譜系的中間創建一些東西。出于一系列原因,我們已經看到這是目前建立代理的最佳地點。
所以我們看到了一些更完全自主的東西引起了很多興趣,原型也很快出臺。完全自主的東西實際上非常簡單,但我們看到它們經常偏離軌道。我們看到人們想要更有限制的東西,但比鏈更靈活和強大一些。
所以我們最近專注的很多事情,是作為一個編排層,使創建這些智能體成為可能,特別是這些介于鏈和完全自主智能體之間的中間東西。我可以更深入地介紹我們在那里究竟在做什么。但在高層次上,那就是我們想象中的編排框架,就是LangChain所在的位置。
索妮婭·黃:明白了。所以有鏈,有完全自主的智能體,有一個中間的譜系,你的甜蜜點在中間,使人們能夠構建智能體。
哈里森·蔡斯:是的,顯然,隨著時間的推移,這一點也發生了變化。所以反思LangChain的演變是很有趣的。
你知道,我認為當LangChain剛開始時,它實際上是鏈的組合。然后我們有一個類,這個智能體執行器類,基本上是這個完全自主的智能體。我們開始向這個類添加更多的控制。
最終,我們意識到人們想要的靈活性和控制比我們用那個類給他們的要多得多。所以,最近,我們一直在大力投資LangGraph,這是LangChain的一個擴展,真正針對定制智能體,它們位于中間某個地方。
我們的重點,隨著時間的推移,隨著領域的發展而發展。
4、智能體是下一個大事件嗎?
索妮婭·黃:太有趣了。也許還有一個最后的設定舞臺問題。我們的核心信念之一是智能體是AI的下一個大浪潮,我們正作為一個行業從副駕駛轉向智能體。
我很好奇你是否同意這種看法,以及為什么或為什么不?
哈里森·蔡斯:是的,我大體上同意這種觀點,我認為這對我來說如此令人興奮的原因是,副駕駛仍然依賴于有這個人類在循環中。所以從某種意義上說,有一個上限,你可以讓另一個系統完成的工作量。所以在這方面有點限制。
我確實認為圍繞正確的UX和人類智能體交互模式有一些非常有趣的思考要做。但我確實認為它們會更接近于智能體做了一些事情,可能與你一起核對,而不是一個不斷在循環中的副駕駛,我只是認為它更強大,給你更多的杠桿,如果它們做的越多,這也是非常矛盾的,因為隨著你讓它自己做事情,它出錯或偏離軌道的風險就越大。所以我認為找到正確的平衡將非常非常有趣。
5、為什么第一批自主智能體沒有成功?
索妮婭·黃:我記得回到2023年3月左右。有一些這樣的自主智能體真的吸引了大家的想象力,比如BabyAGI AutoGPT,一些這樣的。
我記得,Twitter對對此非常非常興奮。看起來,第一代智能體架構并沒有完全滿足人們的期望。我想你為什么會這樣認為?你認為我們現在在智能體炒作周期的哪個階段?
哈里森·蔡斯:是的,我想首先考慮智能體炒作周期。
我認為AutoGPT絕對是開始。然后,它是GitHub上有史以來最受歡迎的項目之一。所以炒作周期,我會說從2023年春天到2023年夏天左右開始。然后我個人感覺從夏末到2024年新年開始,有一點低谷/下降趨勢,我認為從2024年開始,我們開始看到一些更現實的東西上線。
我會指出我們在LangChain與Elastic合作的一些工作,例如,他們在生產有點像Elastic Assistant和Elastic Agent。所以我們看到了Klarna客戶支持機器人上線,引起了很多炒作。我們看到Devin,我們看到Sierra。這些其他公司開始在智能體領域出現。所以考慮到炒作周期,談論為什么AutoGPT風格的架構并沒有真正奏效,它非常籠統,非常不受限制。我認為這讓它的興奮和激發了人們的想象力。但我認為實際上對于人們想要自動化的事情,提供即時的商業價值,實際上有很多事情,這是一個更具體的事情,他們希望這些智能體去做。而且真的有很多規則,他們希望智能體遵循,或者他們希望它們以特定的方式做事情。
所以我認為在實踐中,我們看到的這些智能體,它們更像是我們所說的定制認知架構,你通常希望智能體以某種方式做事情。當然,其中有一定的靈活性。否則,你知道,你只會編碼它。但這是一種非常有針對性的思考方式。這就是我們今天看到的大多數智能體和助手。這只是更多的工程工作。這只是更多的嘗試和看看什么有效,什么無效,這更難做。所以它只是需要更長的時間來構建。我認為這就是為什么,你知道,這就是為什么一年前不存在,或者類似的事情。
1、什么是認知架構?
索妮婭·黃:既然你提到了認知架構,我喜歡你對它們的思考方式,或許你可以解釋一下,比如,什么是認知架構?我們應該如何思考它們,有什么好的思維框架嗎?
哈里森·蔡斯:是的,我對認知架構的思考方式基本上是你的大型語言模型(LLM)應用程序的系統架構是什么?
我的意思是,如果你正在構建一個應用程序,其中有一些步驟使用算法。你用這些算法做什么?你是用它們僅僅生成最終答案嗎?你是用它們在兩個不同的事情之間進行路由嗎?你有一個有很多不同分支的復雜架構嗎?也許有一些循環在重復?或者你有一個循環,基本上你會在這個循環中運行這個LLM,這些都是認知架構的不同變體,而認知架構只是花哨的說法,從用戶輸入到用戶輸出,數據流、信息流、LLM調用在這個過程中發生了什么。
我們越來越多地看到的,尤其是當人們試圖將智能體真正投入生產時,是這個流程特定于他們在其領域中的應用程序。所以也許他們想要立即進行一些特定的檢查,之后可能會采取三個具體步驟。然后每個選項都可以選擇回循環,或者有兩個單獨的子步驟。
因此,如果你仔細想想,我們看到這些更像是你正在繪制的圖,我們看到越來越多的基本上是定制和專門的圖形,因為人們試圖沿著他們的應用程序限制和引導智能體。
我之所以稱之為認知架構,是因為你知道,我認為LLMs的很多力量在于推理和思考該做什么。所以,你知道,我可能會有一個認知心理模型來執行一個任務。我基本上只是將這個心理模型編碼成某種軟件系統,某種架構。
2、LLM做非常通用的智能體推理,非通用控制循環不會在LLM中
帕特·格雷迪:你認為這是世界發展的方向嗎?因為我在那里聽到了兩件事。
一是,它非常定制化。第二是,它相當粗暴,就像在很多方面相當硬編碼。
你認為這是我們的發展方向嗎?或者你認為這是一個權宜之計,而在某個時候,會出現更優雅的架構,或者一系列默認的參考架構?
哈里森·蔡斯:這是一個非常非常好的問題。我花了很多時間思考這個問題。
我認為,極端情況下,你可以認為如果模型在規劃方面真的非常非常好,非常可靠,那么你可能有的最好的東西就是這個循環的for循環,調用LLM,決定做什么,采取行動然后再循環。就像所有這些關于我期望模型如何表現的限制,我只是把它放在我的提示中,模型就會明確地遵循。
我確實認為模型在規劃和推理方面會變得更好,當然。我不太認為它們會達到那種水平,因為各種原因。
我認為,第一,效率。如果你知道在步驟B之后總是要做步驟A。你可以直接按順序放。第二,可靠性也是如此。這些都是我們談論的不確定性事物,特別是在企業環境中,你可能會想要更多的安慰,如果它總是應該在步驟B之后做步驟A,它實際上總是會做步驟A而不是步驟B或者在步驟B之后。我認為創建這些東西會變得更容易,我認為它們可能會開始變得不那么復雜。
但實際上,這可能是一個熱門觀點,或者我的觀點很有趣,你可以說,只是在循環中運行它的架構,你可以認為這是一個非常簡單但通用的認知架構。然后我們在生產中看到的是定制和復雜的,有點像認知架構。我認為有一個單獨的軸,那就是復雜但通用的定制或復雜但通用的認知架構。所以這將是一個真正復雜的計劃步驟和反思循環或者像思維樹之類的東西。
我實際上認為隨著時間的推移,這個象限可能會消失,因為我認為很多這種通用規劃和通用反思將被訓練到模型本身中。但仍然會有很多非通用訓練或非通用規劃,非通用反思,非通用控制循環,基本上永遠不會在模型中。
所以我認為這是譜系的兩端,我非常看好。
索妮婭·黃:我猜你幾乎可以認為LLM做非常通用的智能體推理,然后你需要領域特定的推理,而這些東西是你無法真正構建到一個通用模型中的東西。
哈里森·蔡斯:100%,我認為,我認為定制認知架構的方式,就是你基本上把規劃責任從LLM拿走,放到人類身上。
一些規劃,你會越來越傾向于模型,越來越傾向于提示,但我認為他們總是會這樣,我認為很多任務在他們的一些計劃中實際上非常復雜。
因此,我認為我們還需要一段時間才能獲得能夠做到這一點的東西,超級可靠。
3、智能體的進展和空間
索妮婭·黃:看起來我們在過去的六個月左右在智能體方面取得了很多進展,就像我讀到的一篇論文,普林斯頓SWE論文,他們的編碼智能體現在可以解決12.5%的GitHub問題,而之前只是RAG的時候是3.8%。
所以感覺我們在過去的六個月里取得了很多進展,但12.5%還不夠好,你知道,甚至不能取代一個實習生,對吧?所以感覺我們仍然有很大的空間。
我很好奇,你認為我們在哪里,對于一般的智能體以及你的客戶正在構建智能體?比如,他們是不是達到了,我假設不是五星級的可靠性,但他們是不是達到了某種門檻,他們需要部署這些智能體到實際面向客戶的部署?
哈里森·蔡斯:是的,所以我想說,SWE代理是一個相對通用的智能體,因為它應該能夠在很多不同的GitHub代碼庫中工作。
我認為如果你看看Vercel的v0,它可能比12.5%更可靠,對吧?所以我認為這說明,是的,肯定有定制智能體不是五星級的可靠性,但是已經在生產中使用了。所以Elastic,我認為我們已經公開談論過他們已經做了多個智能體。我認為這周是RSA,我認為他們在RSA上宣布了新的東西,那是一個智能體。
是的,我沒有確切的可靠性數字,但是它們足夠可靠,可以投入生產。一般智能體仍然很困難。是的,這就是長期上下文窗口、更好的規劃、更好的推理將幫助這些通用智能體的地方。
4、區分通用和定制,“專注于讓你的啤酒味道更好”
索妮婭·黃:你和我分享了杰夫·貝佐斯(Jeff Bezos)的一句名言,就像,“專注于讓你的啤酒更好。”
我認為它指的是在20世紀初,釀酒廠正在嘗試制造自己的電力,自己發電。我認為今天很多公司都在思考類似的問題,比如,你認為擁有你的認知架構的控制真的會讓你的啤酒味道更好嗎?打個比方?或者,你放棄了模型的控制,只構建UI和產品?
哈里森·蔡斯:我認為這可能取決于你正在構建的認知架構的類型?
回到我們之前的一些討論,如果你正在構建一個通用的認知架構,我不認為這會讓你的啤酒味道更好。
我認為模型提供者將致力于這種通用規劃,我認為像很好地致力于這些通用認知架構,你可以立即嘗試。另一方面,如果你的認知架構基本上是你,對你支持團隊思考某件事情的方式進行編碼,或者內部業務流程,或者你知道的最佳方式,比如開發代碼,或者開發這種特定類型的代碼,或者這種特定類型的應用程序,是的,我認為這絕對會讓你的啤酒味道更好,特別是如果我們正在走向一個這些應用程序正在工作的地方。
那么像邏輯,定制的商業邏輯或心理模型,我現在對這些LLMs進行了很多擬人化,但是像這些東西的最佳工作模型,100%。就像我認為這是你銷售的關鍵,而且在某種程度上,我認為UX、UI和分銷絕對仍然發揮作用。是的,我區分了通用和定制。
5、自主智能體完美地工作,意味著人類將專注于更高級的事物
帕特·格雷迪:哈里森,在我們深入了解人們如何構建這些東西的一些細節之前,我們可以快速提高一個層次嗎?所以我們的創始人唐·瓦倫丁以問“那又怎樣?”這個問題而聞名。
所以我的問題是,那又怎樣?讓我們想象一下,自主智能體完美地工作。對世界意味著什么?生活會有什么不同?
哈里森·蔡斯:我認為在高層次上,這意味著,作為人類,我們將專注于不同的事物。
所以我認為,目前很多行業中正在進行的很多工作都是重復性勞動。因此,智能體的理念是,這些工作將會被自動化,讓我們思考更高層次的問題,比如這些智能體應該做什么,也許利用它們的輸出進行更創造性的工作或在這些輸出的基礎上進行更高層次的工作。
所以我認為,你可以想象引導一個公司的整個發展,你正在外包你通常必須雇傭的很多職能。所以你可以在有一個營銷智能體、一個銷售智能體的情況下扮演CEO的角色,基本上讓你將這些工作外包給智能體,讓你做很多有趣的戰略思考、產品思考,也許這取決于你的興趣。
但我認為在高層次上,它會讓我們自由地做我們想做的事情和我們擅長的事情,自動化很多我們可能不一定想做的事情。
1、哪些智能體的落地應用已經成熟?
帕特·格雷迪:你今天看到了這方面的一些有趣例子嗎,比如已經實時投入生產的?
哈里森·蔡斯:我的意思是,我認為最大的,有兩種類別或領域的智能體開始獲得更多關注,一是客戶支持,一是編碼。
所以我認為客戶支持是一個很好的例子,比如,你知道,人們經常需要客戶支持,我們在LangChain也需要客戶支持。所以如果我們能雇傭智能體來做這件事,那將是非常強大的。
編碼很有趣,因為我認為編碼的有些方面,我的意思是,這可能是一個更哲學上的討論。但是我認為編碼的有些方面確實是非常創造性的,確實需要,我的意思是,真的很多產品思考,很多定位等等。
編碼的有些方面也可能阻礙人們的創造力。所以如果我媽媽有一個網站的主意,她不知道如何將它編碼實現,對吧?但是如果有一個智能體能夠做到這一點,她就可以專注于網站的想法,基本上就是網站的范圍,但是自動化這個過程。
所以我會說要絕對地說客戶支持,今天確實已經產生了影響。編碼方面,那里有很多興趣。我不認為我們已經到達了,我不認為它像客戶支持那樣成熟。但是就有很多有趣的領域而言,這將是第二個值得一提的領域。
帕特·格雷迪:你對編碼的評論很有趣,因為我認為這是讓我們對AI非常樂觀的事情之一。
這就是縮小從想法到執行的差距,或者縮小從夢想到現實的差距,你可以想出一個非常有創意、引人注目的想法。但你可能有沒有辦法將其變為現實,而AI似乎非常適合這一點。
我認為Figma的Dylan也經常談論這個問題。
哈里森·蔡斯:是的,我認為這回到了這個想法,自動化那些阻礙創造的東西——我喜歡“從想法到現實”的措辭——它自動化了你可能不知道如何做或不想考慮的事情,但這些都是創造你想要的東西所必需的。
我認為這也是我花了很多時間思考的事情之一,就像在生成式AI和智能體的時代,作為一個建設者意味著什么?所以今天作為一個軟件建設者意味著你要么是工程師,要么雇傭工程師之類的,對吧?
但我認為在智能體和生成式AI的時代,作為一個建設者意味著人們可以構建比今天更多的東西。因為他們手頭上有所有這些知識,所有這些,有點像,所有這些其他的建設者,他們可以雇傭并非常便宜地使用。
我的意思是,我認為像智能或類似東西的通貨化的一些說法,因為這些大型語言模型免費提供智能。我認為這確實說明了使這些新的建設者出現。
2、最有前途的認知架構是什么?
規劃、推理是通用認知架構,此外有定制架構
索妮婭·黃:你提到了反思和思維鏈和其他技術,或許你可以說一下,我們現在對這些,我想認知架構能夠做什么,對于智能體性能有何了解?也許只是,我很好奇你認為最有前途的認知架構是什么?
哈里森·蔡斯:是的,我認為,也許值得談論一下為什么AutoGPT之類的東西沒有奏效。
因為我認為很多認知架構都差不多,就是為了抵消其中的一些。我想,很久以前,基本上的問題是大型語言模型甚至不能很好地推理出第一步該做什么以及他們應該采取的第一步是什么。
所以我認為像思維鏈這樣的提示技術在那里非常有幫助,它們基本上給了大型語言模型更多的空間去思考,一步一步地思考,對于特定步驟他們應該做什么。然后實際上開始越來越多地被訓練到模型中。他們通過默認的方式做到了這一點。基本上每個人都希望模型這樣做,所以是的,你應該將這一點訓練到模型中。
我記得那時,Shunyu Yao發表了一篇很棒的論文,叫做ReAct,它基本上是第一個智能體的認知架構或類似的東西。它所做的一件事,一是讓大型語言模型預測要做什么,那就是行動,但它增加了這個推理組件,所以它有點像思維鏈,它基本上增加了這個推理組件,他將其放入循環中,在每一步之前都要求它進行這種推理,你在那里運行它。
所以這種顯式的推理步驟實際上已經變得不那么必要了,因為模型已經被訓練了,就像他們已經訓練了思維鏈一樣,這種顯式的推理步驟變得不那么必要了。
所以如果你看到人們今天在做ReAct風格的智能體,他們通常只是使用函數調用,而沒有原始ReAct論文中實際的思維過程。但它仍然是這種循環,已經成為ReAct論文的同義詞。所以這是智能體最初的很多困難。我不會完全將這些描述為架構。我將它們描述為提示技術。
但是現在我們已經讓它工作了。現在,一些問題是什么?兩個主要問題基本上是規劃和然后意識到你已經完成了。
所以我所說的規劃,就像我考慮如何做事情時,下意識或有意識地,我制定了一個計劃,我將要做的步驟的順序。然后我去做每一步。基本上模型在這方面有困難,他們難以進行長期規劃,難以提出一個好的長期計劃。然后如果你在這個循環中運行它,在每一步,你都在做計劃的一部分,也許它完成了,或者也許沒有完成。所以如果你只是在這個循環中運行它,你隱含地要求模型首先提出一個計劃,然后跟蹤計劃的進度并繼續前進。
所以我認為我們看到的一些規劃認知架構是,好的,首先讓我們增加一個明確的步驟,我們要求大型語言模型生成一個計劃,然后,我們按照那個計劃一步一步進行。我們將確保我們做每一步,這只是一種方式,就像,強制模型生成一個長期計劃,并確實在繼續之前做每一步,而不是像你知道,生成一個五步計劃,做完第一步然后說,好的,我完成了或者類似的事情。
然后,我認為,一個獨立但相關的東西是反思的想法,這基本上像是,模型實際上是否很好地完成了它的工作,對吧?所以,我可以生成一個計劃,我將要去得到這個答案。我可以從互聯網上得到一個答案。也許這完全是錯誤的答案,或者我得到了糟糕的搜索結果或者類似的事情。我不應該只是返回那個答案,對吧?我應該想想我是否得到了正確的答案。或者我是否需要再做一次,如果你只是在這個循環中運行它,你實際上是在隱含地要求模型這樣做。
所以有一些認知架構出現了,以克服這一點,基本上增加了這一點作為一個明確的步驟,他們采取了一個行動或一系列行動,然后要求模型明確思考它是否正確完成了。
所以規劃和推理可能是兩個更受歡迎的通用,有點像,認知架構。有很多,像定制的認知架構,但那都超級綁定到商業邏輯等等。但規劃和推理是通用的,我預計這些將越來越多地被默認訓練到模型中。
盡管我認為他們會變得多好,這是一個非常有趣的問題,但這可能是一個單獨的長期對話。
3、UX可以影響架構的有效性
帕特·格雷迪:哈里森,你在AI Ascent上談到的一件事是用戶體驗(UX),我們通常認為它與架構處于譜系的相反端,你知道,架構是在幕后,UX是前臺的東西。
但我們似乎處于一個有趣的世界,UX實際上可以通過允許你,例如,使用Devin回溯到計劃過程中開始偏離軌道的點,來影響架構的有效性。
你能就UX及其在智能體或LLM中的重要性,以及你可能在那里看到的一些有趣的事情,發表一些看法嗎?
哈里森·蔡斯:是的,我對UX非常著迷。我認為這里有非常多有趣的工作要做。
我認為它之所以如此重要,是因為這些LLM仍然不完美,仍然不太可靠,有出錯的傾向。
這就是為什么聊天對于一些最初的交互和應用程序來說是如此強大的UX。你可以很容易地看到它在做什么,它將響應流回來,你可以很容易地通過回應它來糾正它,你可以很容易地提出后續問題。所以我認為聊天顯然已經成為目前主導的UX。
我確實認為聊天有缺點。你知道,它通常是一條AI信息,一條人類信息。人類非常處于循環中,這非常像副駕駛類型的東西。
我認為,你越是能夠將人類從循環中移出,它就能為你做更多的事情,它可以為你工作。我只是認為這是難以置信的強大和賦能。
然而,LLM并不完美,它們會出錯。那么你如何平衡這兩件事呢?我認為我們看到的一些有趣的想法,談論Devin時,是基本上有一個像透明列表的東西,列出了代理所做的一切,對吧?你應該能夠知道代理做了什么。這似乎是第一步。
第二步可能是能夠修改它正在做的事情或已經做過的事情。所以如果你看到第三步出了問題,你可以在那里倒帶,給它一些新的指示,甚至只是手動編輯決定,從那里開始。
我認為除了這種倒帶和編輯之外,還有其他有趣的UX模式。
一種是像收件箱這樣的想法,代理可以在需要時聯系人類。所以你可能有10個代理在后臺并行運行,每隔一段時間,它可能需要向人類尋求澄清。所以你有一個電子郵件收件箱,代理向你發送像“幫幫我,我在這里,我需要幫助”之類的信息,然后你在那個點幫助它。
另一個類似的是審查它的工作,對吧?所以我認為這非常強大。我們已經看到很多代理在寫不同類型的東西,進行研究,像研究風格的代理,有一個很棒的項目,GPT Researcher,它有一些非常有趣的架構,圍繞代理。我認為這是這種審查類型的好地方。好吧,你可以讓代理寫第一稿,然后我可以審查它。我可以基本上留下評論。
而且,有幾種不同的方式可以實際發生。所以你知道你,最不涉及的方式是,我一次留下一堆評論,將它們發送給代理,然后它去修復所有的問題。另一個非常有趣的UX是這種,像,同時協作的。就像Google文檔,但人類和代理同時工作,我留下評論,代理修復那個,當我在做另一個評論或類似的事情。我認為我認為這是另一種UX。這是相當復雜的設置和工作。
還有一種其他的UX事情,我認為很有趣,就是這些代理如何從這些交互中學習,對吧?我們談論的是一個人在某種程度上,糾正代理或給予反饋。
如果我必須給出相同的反饋100次,那將是非常令人沮喪的,那會很糟糕。所以,是什么系統架構使它能夠開始從中學習,我認為這非常有趣。
而且,所有這些都有待解決,我們在弄清楚這些事情的游戲中還非常早期。但我們確實花了很多時間思考這些問題。
4、LangChain不介入模型層和數據庫層
帕特·格雷迪:事實上,這提醒了我,我不知道你是否知道這一點,但你因為在開發者社區中的活躍程度以及非常關注開發者社區中正在發生的事情,以及開發者社區中人們遇到的問題而聞名。
所以LangChain直接解決的問題,你正在建立一個企業來解決。然后我想你遇到了很多其他問題,只是范圍之外的。所以我很好奇,在開發者嘗試使用LLM構建或嘗試構建AI的今天遇到的問題中,有哪些有趣的問題你們沒有直接解決,也許如果你們有另一個企業,你們會解決?
哈里森·蔡斯:我的意思是,我認為兩個明顯的領域是,在模型層和數據庫層。
所以我們沒有構建向量數據庫,我認為思考正確的存儲是什么非常有趣。但你知道我們沒有在做那個。我們沒有構建基礎模型。我們也沒有進行模型的微調,像我們想要幫助數據整理的部分。絕對不是。但我們沒有像為微調構建基礎設施那樣做。有Fireworks和其他公司。我認為這些非常有趣。我認為這些可能是人們目前立即遇到的基礎設施層面的問題。
我確實認為有第二個問題,有第二個思考過程,那就是,如果代理確實成為未來,比如,會出現什么樣的基礎設施問題?正因為如此,所以,我認為我們現在說,我們會或不會做這些事情還為時過早?因為坦白說,我們還沒有到達代理足夠可靠,有這種整個代理經濟出現的地步。
但我認為,你知道,代理的身份驗證,代理的許可,代理的付款,有一個非常酷的啟動,為代理支付,實際上,這是相反的,代理可以付錢給人類做事,對吧?所以我認為,我認為這真的很有趣,比如如果代理真的變得普遍,比如,需要什么工具和基礎設施,我認為這與開發者社區需要什么東西來構建 LLM 應用程序有點不同,因為我認為 LLM 應用程序就在這里。代理商開始到達這里,但還沒有完全到達這里。所以我認為這些類型的公司的成熟度不同。
5、微調與提示是互補的
索妮婭·黃:哈里森,你提到了微調,以及你們不會去那里。看起來提示和架構調用以及微調幾乎是相互替代的。
你如何看待當前人們應該使用提示與微調的狀態,以及你認為這將如何發揮作用?
哈里森·蔡斯:是的,我不認為微調和認知架構是相互替代的。我不認為它們是,實際上我認為它們在很多方面是互補的,因為當你有更多定制的認知架構時,你所要求的每個代理、每個節點或系統的每一部分所做的范圍就會變得非常有限。這實際上對微調來說非常非常有趣。
6、LangSmith和LangGraph?
索妮婭·黃:也許實際上,就這一點而言,你能談一談LangSmith和LangGraph嗎?就像帕特剛剛問你的,你沒有解決什么問題?我很好奇,你解決了什么問題?以及它與我們之前討論的所有智能體問題有何關聯,比如,你所做的使狀態管理更易于管理,使智能體更可控,你的產品如何幫助人們解決這些問題?
哈里森·蔡斯:是的,也許回溯一點。當LangChain剛發布時,我認為LangChain開源項目確實解決和處理了幾個問題。
我認為其中之一基本上就是為所有這些不同的組件標準化接口。所以我們有大量的集成與不同的模型、不同的向量存儲、不同的工具、不同的數據庫等等。所以這一直是LangChain的大賣點,以及人們使用LangChain的原因。
在LangChain中,也有一些更高層次的接口,可以輕松地開始使用RAG或SQL問答或其他東西。還有一個更底層的運行時,用于動態構建鏈。
通過鏈,我的意思是,我們可以稱它們為DAG,就像定向流程。我認為這種區分很重要,因為當我們談論LangGraph以及LangGraph存在的原因時,它是要解決一個稍微不同的編排問題,即你想要這些可定制和可控的具有循環的東西,它們仍然在編排空間內。但我在鏈和這些循環和循環之間做了這種區分。
我認為,有了LangGraph,當你開始有循環時,就會出現很多其他問題,其中之一是持久層,這樣你就可以恢復,你可以讓它們在后臺以異步方式運行。所以我們開始越來越多地考慮部署這些長期運行的、循環的、人類參與的應用程序。所以我們將開始越來越多地解決這個問題。
然后跨越所有這些的是LangSmith,自從公司成立以來,我們一直在研究它。那是可觀測性和LLM應用程序的測試。所以從一開始,我們就注意到你將LLM置于系統的中心。LLM是非確定性的,你必須要有良好的可觀測性和測試,以便有信心將其投入生產。
所以我們開始構建LangSmith。它與LangChain一起使用。還有像提示中心這樣的東西,以便你可以管理提示,人類注釋隊列以允許這種人類審查,我實際上認為這是至關重要的,像在所有這些中,重要的是要問,這里實際上有什么新鮮事?我認為LLM的主要新特性是它們是非確定性的,所以可觀測性更加重要。然后測試也更加困難。具體來說,你可能希望人類比審查軟件測試更頻繁地審查事情。所以很多工具、路由和LangSmith在這方面有所幫助。
7、現有的可觀測性工具,哪些運行在LLM上哪些運行在其他地方?
帕特·格雷迪:實際上,哈里森,你有沒有一個經驗法則,現有的可觀測性、現有的測試,你知道,現有的填空將在LLM上工作的地方?與LLM足夠不同,以至于你需要一個新產品,或者你需要一個新的架構,一種新的方法?
哈里森·蔡斯:是的,我在測試方面想過這個問題,從可觀測性方面。我感覺這里幾乎更明顯需要新的東西。我認為這可能是因為使用多步驟應用程序,你需要一定程度的可觀測性來獲得這些洞見。
我認為很多“產品”,像Datadog,我認為它們真的很有目標,它們有這種很好的監控。但對于特定的跟蹤,我不認為你可以像使用LangSmith那樣容易地獲得相同級別的洞見。我認為很多人花時間查看特定的跟蹤,因為他們試圖調試在特定跟蹤上出錯的事情,因為當你使用LLM時會發生所有這種非確定性。所以可觀測性一直感覺像是需要在那里構建新的東西。
測試非常有趣。我對此思考了很多,我認為有兩個可能像是測試中新的獨特的東西。一個是基本上就是成對比較的想法。所以當我運行軟件測試時,我通常不會比較結果,大多數情況下,它要么通過要么失敗。如果我比較它們,可能是比較延遲峰值或類似的東西,但不一定是兩個單獨的單元測試的成對比較。但如果我們看看LLM的一些評估,人們信任的主要評估是這個LLMSYS,有點像競技場,聊天機器人競技場風格的東西,你真的可以并排判斷兩件事。所以我認為這種成對的東西非常重要,與傳統的軟件測試非常不同。
我認為另一個組成部分基本上是,根據你設置評估的方式,你可能在任何給定時間都沒有100%的通過率。所以實際上隨著時間的跟蹤這一點變得很重要,看看你正在改進或者至少沒有退步。我認為這與軟件測試不同,因為你通常一切都通過了。
然后第三點只是人類參與其中的部分。所以我認為你仍然希望人類查看結果,就像,我不想說可能是錯誤的詞,因為這樣做有很多缺點,比如需要很多人類時間來查看這些東西。但像這些通常比一些自動化系統更可靠。如果你將它與軟件測試進行比較,像軟件可以像我通過看它就知道2等于2一樣好地測試2等于2。因此,弄清楚如何讓人類參與到這個測試過程中也非常有趣、獨特和新穎。
帕特·格雷迪:我有幾個非常籠統的問題要問你。
哈里森·蔡斯:酷,我喜歡一般性的問題。
帕特·格雷迪:你在AI領域最欽佩的人是誰?
哈里森·蔡斯:這是個好問題。我的意思是,我認為OpenAI在過去一年半里所做的一切都令人難以置信。所以我認為Sam,但還有那里的每個人,我認為從各方面來說,我都非常欽佩他們做事的方式。
我認為Logan在那里時在向人們傳達這些概念方面做得非常出色。Sam顯然值得很多贊譽,很多事情都發生了。他們不太知名,但是像David Dohan這樣的研究人員,我認為絕對了不起。他做了一些早期的模型級聯論文,我很早就在LangChain上和他聊過。是的,他對我思考問題的方式有很大的影響。所以我對他做事的方式有很多欽佩。
另外,你知道,我觸及了所有可能的答案,但是我認為像馬克·扎克伯格和Facebook,我認為他們用Llama和很多開源軟件做得非常好。而且我也認為,作為CEO和領導者,他和公司接受這種方式的方式非常令人印象深刻。所以對此我非常欽佩。
帕特·格雷迪:說到這個,有沒有一位CEO或者領導者,你嘗試效仿他?或者你從他身上學到了很多關于你自己領導風格的東西?
哈里森·蔡斯:這是個好問題,我確實認為自己更像是以產品為中心的CEO。所以我認為扎克伯格在這方面的觀察很有趣。Brian Chesky,我去年在紅杉基礎營地聽他演講,非常欽佩他思考產品和公司建設的方式。所以Brian通常是我對此問題的答案。但我不能說我已經深入了解了他所做的一切。
帕特·格雷迪:如果你給當前或有志于建立AI的創始人一個建議,你的一個建議會是什么?
哈里森·蔡斯:只是建造,嘗試建造?一切都還非常早期,有很多可以建造的東西?
你知道,GPT-5將會問世,它可能會使你做的一些事情變得無關緊要,但在這個過程中你會學到很多東西。我非常非常相信這是一種變革性技術,所以你對它了解得越多越好。
帕特·格雷迪:關于這個有一個快速的軼事。只是因為我喜歡那個答案。我記得在2023年初我們第一次AI Ascent上,當我們剛開始更好地了解你時。我記得你坐在那里整天推代碼。就像人們在舞臺上講話,你在聽。你坐在那里整天推代碼。所以當建議是建造時,你顯然是一個采納自己建議的人。
哈里森·蔡斯:我想,那是OpenAI發布插件的那一天,所以有很多要做的事情,我認為我沒有在今年的紅杉Ascent上這么做,所以在這方面讓你失望了。
本文由智能小巨人科技編譯
來源 | 王錚Silvia(ID:silviawz2023)
原文 | 紅杉美國