亚洲欧美国产精品,日韩在线免费av,色综合天天做天天爱

2. 面向過程編程類似于逐步解決任務。這適用于簡單和中等復雜度的任務；

3. 面向對象編程類似于將任務分解為較小的任務，然后分別解決它們。這適用于較高復雜度的任務。

從這個顯著的一致性中，我們看到提高推理能力與提高編程能力非常相似。在此，我們通過強調訓練大型語言模型進行推理或編碼的配方相似性，深化了這個假設：

? 在連續訓練階段，可以在基礎模型上增加代碼和科學文獻數據；

? 在有監督的微調階段，可以根據要求完成復雜任務的指令或編寫代碼對模型進行微調；

??在強化學習階段，將中間推理步驟 / 編譯率和最終推理結果 / 代碼通過率作為獎勵；

? 在解碼過程中，推理和編碼都會采樣多個解決方案，然后從解碼空間中選擇最佳方案。

3.復雜推理的提示詞工程

在討論了如何構建具有強大推理能力的模型之后。在本節中，我們將討論如何有效地提示模型以充分釋放模型的潛力。

基礎思維鏈提示詞工程

進階技巧及分析

通常，對于復雜任務，首先將其分解為更簡單的任務，然后逐步解決更簡單的任務。

簡而言之，上下文學習的要點是提示中的示例使模型進入相應的任務模式，然后執行任務。

簡而言之，模型只關注提示的格式，但可能不會受到提示正確性的顯著影響。然而，模型在多大程度上會受到提示正確性的影響，或者提示可以在多大程度上覆蓋模型的先驗信念，還是一個尚待研究的問題。

4.評價大語言模型的推理能力

在討論了訓練強大模型的方法和提示技巧之后，現在我們討論對語言模型推理能力的評估。

評價方法的基礎知識

在談論評估時，有三個重要因素需要考慮：數據格式、能力類型和模型類型。首先，提示時有四種數據格式：

? In-context 指的是在測試問題之前附加一系列上下文示例；

? Zero-shot 是指在沒有上下文示例的情況下直接將測試問題輸入給模型；

這兩個方面并不是嚴格正交的，因為一些推理規則也可以被視為某種形式的知識。然而，在評估時，這兩種能力有明顯的差異：

? 一些數據集更注重對知識的評估，如 MMLU，它測試模型是否具有高達大學水平的知識；

? 一些數據集更注重對推理的評估，如 BBH，它測試模型是否具有逐步解決問題的能力；

? 對于知識，鏈式思維與僅回答的表現相似（參見 FlanPaLM 論文）；

? 對于推理，鏈式思維比僅回答表現得更好（參見原始 CoT 論文，然后參見 FlanPaLM 論文）。

在實踐中，因為 CoT 在達到或優于 Answer-only 的表現，而且 CoT 更加用戶友好（因為它告訴用戶思考過程），現代聊天機器人總是部署 CoT（無論你問 ChatGPT 什么，它都會告訴你一堆它的想法）。

最后，在評估方面，我們區分了兩種類型的模型：預訓練之后的 checkpoint 和指令微調之后的 checkpoint。

? 預訓練 checkpoint 具有 in-context learning 的能力。大多數預訓練模型可以進行 in-context answer-only，一些更好的模型可以進行 in-context chain-of-thought（但目前尚不清楚為什么某些預訓練模型可以進行 CoT 而其他模型卻不能）。然而，預訓練 checkpoint 可能無法進行 zero-shot，因為它們沒有經過這方面的訓練（但某些預訓練檢查點仍然可以進行 zero-shot CoT，請參閱 “讓我們逐步思考” 的論文）。

? 指令微調過后的 checkpoint 既具有 zero-shot 又有 in-context 的能力。這里需要注意的是，如果沒調好，指令微調之后 in-context 性能可能會稍有下降。

綜上所述，我們建議使用 in-context chain-of-thought 進行評估：

1. In-context 是評估 pretrained checkpoint 的更好方法，因為它更好地揭示了模型潛力。Zero-shot 可能低估模型性能，尤其是對于不支持 Zero-shot chain-of-thought 的（“讓我們逐步思考”）的模型。

2. Chain-of-thought prompting 是評估推理能力的更好方法，因為它比 answer-only prompting 更充分地發揮了模型的推理性能。

Chain-of-thought Hub 簡介

在討論了所有評估基礎知識之后，我們介紹 Chain-of-thought Hub，這是一個正在進行的工作，希望成為評估語言模型推理能力的統一平臺。我們匯編了一個包括數學（GSM8K）、科學（MATH）、符號（BBH）、知識（MMLU）等復雜推理任務的列表，以衡量哪些模型確實更好。下面是當前的排行榜。盡管許多數字還沒跑出來，但當前的內容仍然能給一個大概的模型排名：

? 我們根據 GSM8K 對模型性能進行排名，這是一個經典的基準測試，用于衡量鏈式思維數學推理性能。這不是唯一的度量標準，但一個很好的解釋是 “在保持其他通用能力的同時，模型在數學方面的表現如何” —— 這也非常困難。

? 65B LLaMA 與 text/code-davinci-002 非常接近，這意味著基于它，如果 SFT 和 RLHF 操作正確，我們很有可能基于 65B LLaMA 復現 ChatGPT。

? 較小的模型，如 FlanT5 11B 和 LLaMA 7B，明顯落后于排行榜，這意味著復雜推理可能只是大型模型的能力。

5.結論

在這篇文章中，我們討論了大型語言模型的推理能力。復雜推理不僅僅是因為它是更強模型與更弱模型之間的核心區分點，而且它還是模型成為下一代計算平臺 / 操作系統的基礎能力，從而有可能在大模型上建立一個新的生態系統。

我們討論了構建具有強大推理能力的模型的方法：預訓練、有監督的微調和強化學習。我們發現提高推理能力的方法與提高代碼能力的方法密切相關，這加深了我們先前關于推理與代碼之間密切關系的假設。我們進一步討論了高級提示工程技巧和在執行復雜推理時模型行為的分析。最后，我們討論了如何評估模型的推理能力，并介紹了 chain-of-thought hub，這是一個正在進行的項目，旨在統一評估語言模型的推理性能。

我們希望這篇文章能成為構建具有強大推理能力的開源模型的路線圖。

3.復雜推理的提示詞工程

基礎思維鏈提示詞工程

進階技巧及分析

4.評價大語言模型的推理能力

評價方法的基礎知識

Chain-of-thought Hub 簡介

5.結論

最新文章