亚洲国产日韩精品,www.日本高清视频.com,一级毛片免费网站

論文地址：https://arxiv.org/pdf/2311.04254.pdf

一、當前Prompt技術的局限性

? ? ? ?LLM使用自然語言Prompt可以將復雜的問題分解為更易于管理的“thought”可以回復用戶的問題。然而，大多數現有的Prompt技術都有局限性：

輸入輸出（IO）Prompt：僅適用于具有單步解決方案的簡單問題，它缺乏靈活性；
思維鏈（CoT）：能夠解決多步問題，但僅限于線性思維結構，也缺少靈活性；
思維樹（ToT）和思維圖（GoT）：允許更靈活的思維結構，如樹或圖。然而，它們需要LLM來評估中間的thought，由于多次調用LLM會產生巨大的計算成本。

PS：當前的Prompt技術面臨“Penrose Triangle”約束——最多可以實現（性能、效率和靈活性）中兩個屬性，三個屬性不能同時實現。

常見Prompt技術對比，如下圖所示：

輸入輸出（IO）Prompt（圖1（a））：IO方法在不提供任何中間thought過程的情況下，直接指導LLM解決問題；

思維鏈（CoT）（圖1（b））：CoT將待解決問題分解為一系列的thought鏈，讓LLM能夠一步一步地處理復雜的問題；

自洽CoT（CoT-SC）（圖1（c））：CoT SC使用多個CoT實例從而讓LLM生成多個輸出，它從中選擇最佳的輸出，與普通的CoT相比，提供了更穩健和一致的推理；

思維樹（ToT）（圖1（d））：ToT以樹狀結構組織思想并利用搜索算法（例如，廣度優先搜索、深度優先搜索）將樹擴展到追求最佳解決方案。但是ToT中的thought評價依賴于LLM本身，需要多次調用LLM進行推理，這昂貴且低效；

思維圖（GoT）（圖1（e））：GoT擴展了ToT方法，通過thought聚合和細化生成類似圖形的思想結構。

PS：在中間搜索階段期間。盡管這種方法允許更靈活的思維結構仍然需要多次LLM推理調用進行評估，從而產生顯著的計算成本。

為了解決上述Prompt的這些局限性，本文將介紹一種新的Prompt技術XOT（Everything of Thoughts）。XOT使用強化學習和蒙特卡羅樹搜索（MCTS）將外部知識注入Prompt過程。

XOT的關鍵組成部分是：

MCTS模塊針對特定任務進行預訓練，使用策略和價值網絡來指導搜索和學習領域知識。

在thought搜索過程中，預訓練的MCTS使用策略和價值網絡來有效地探索搜索空間并生成thought軌跡。整個過程迭代地選擇、擴展、評估和反向傳播節點；
thought軌跡提供給LLM作為Prompt；
LLM使用其內部知識來檢測thought中的任何錯誤；
如果發現錯誤，MCTS模塊將用于通過額外的模擬來修改thought；
該過程重復進行，直到LLM使用修訂后的高質量thought解決問題。

我們使用Pocket Cube問題（2x2x2魔方）來看一下XOT是如何工作的？

選擇：算法從根節點開始，從可用集合中選擇一個動作，用于在當前狀態下生成單步思想。這個過程一直持續到到達當前樹中的一個葉節點為止。該選擇由PUCT算法指導，旨在最大化置信上限（UCB）；
評估和擴展：到達之前未選擇的葉節點后，我們擴展到下一步新思想探索的狀態。這種擴展涉及對其值和狀態的作用概率的評估，這些值和作用概率由θ參數化的神經網絡建模，(Pθ(s), vθ(s)) = fθ(s)。這里，Pθ(s)是s上所有動作的先驗概率，vθ(s)表示其預測狀態值。這兩個值被保留和存儲用于備份目的，狀態s被標記為“已訪問”；
反向傳播：在上述階段對葉節點進行擴展后，可能是未探索狀態或終端狀態，算法繼續通過反向傳播更新所有Q(s,a)值。對于未探索的節點，這種更新涉及計算其估計值vθ的平均值，而對于終止的節點，它是基于真實獎勵r。這些更新是在信息沿著軌跡反向傳播到后續節點時發生的。此外，每個狀態操作對的訪問計數也會增加；
思想推理：在MCTS完成搜索后，提取思想并將其提供給LLM。LLM然后審查和提煉這些想法，如果需要，繼續MCTS搜索過程，并最終通過將這些外部想法與其內部知識相結合來制定最終答案。

PS：重復此過程，直到問題得到解決或達到預定義的迭代次數。