
大模型上下文協議與Spring開發集成篇——mcp-spring-webmvc原理
? 接下來的難點就是如何構造官方的 chain-of-thought prompt ,這個地方的重點在于,我們需要保證我們的 CoT 是對的。我們一開始的做法是對于每個 in-context example ,我們讓 GPT-4 生成一個 Chain-of-thought,但后來發現這個不大行,一來是生成的太長了 (超過 2048 個 token),有些模型的輸入長度不一定支持;另一個是錯誤率太高了,一個個檢查不如自己做一遍;
??所以我們的同學們就把微積分,線代,概率,離散這些 prompt 的題目,真的自己做了一遍,以下是一個例子:
左邊是同學自己做的,然后寫成了 Markdown – Latex 格式;右邊是渲染出來的效果
大家也能感受到為什么題目很難,chain-of-thought prompt 很長,為什么模型需要有能力做微積分的符號和數值計算
為了評測的科學性,我們考慮了一系列機制來防止我們的題目被混入訓練集
? 首先,我們的測試集只公開題目不公開答案,大家可以拿自己的模型在本地把答案跑出來然后在網站提交,然后后臺會給出分數;
? 然后,在構造題目的時候,我們盡可能選擇非公開來源的,網上不大可能被爬蟲爬到的題目;
? 有些科目的題目我們不打找得到非公開來源,這樣只能用網上的,這種情況下我們盡量用掃描版 pdf ,這是因為預訓練數據的清洗中,pdf 的處理是最麻煩的,現在的選手們光是清洗網頁就已經忙不過來了,清洗 pdf 的優先級不是很高 — 所以這些即使網上找得到,也比較難進到訓練集中。
當然,盡管我們做出了這些努力,但可能也會不可避免的發生某個網頁里能搜到題庫里的題目,但我們相信這種情況應該比較少。且從我們已有的結果看,C-Eval 的題目還是有足夠區分度的,特別是 Hard 的部分。
接下來我們分析有哪些方法可以提升模型的排名。我們先把捷徑給大家列出來,包括使用不能商用的 LLaMA 和使用 GPT 產生的數據,以及這些方法的壞處;然后我們討論什么是困難但正確的路。
以下是可以走的捷徑:
? 使用 LLaMA 作為基座模型:在我們另一個相關的英文模型評測項目 Chain-of-thought Hub 中,我們指出了 65B 的 LLaMA 模型是一個稍弱于 GPT-3.5 的基礎模型,它有著很大的潛力,如果把它用中文的數據訓練,其強大的英文能力可以自動遷移到中文;
? 但這樣做的壞處,一來是研發能力的上限被 LLaMA 65B 鎖死,不可能超過 GPT-3.5,更何況 GPT-4 了,另一方面是 LLaMA 不可商用,使用它商業化會直接違反條例;
? 使用 GPT-4 生成的數據:特別是 C-Eval Hard 的部分,直接讓 GPT-4 做一遍,然后 GPT-4 的答案喂給自己的模型就可以了;
? 但這樣做的壞處,一來是如果商業化,就直接違反了 OpenAI 的使用條例;二來是從 GPT-4 做蒸餾會加劇模型胡說八道的現象,這是因為 RLHF 在微調模型拒絕能力的時候,是鼓勵模型知之為知之,不知為不知;但是直接抄 GPT-4 的話,GPT-4 知道的東西,其他的模型不一定知道,這樣反而鼓勵模型胡說八道。這個現象在 John Schulman 近期在伯克利的一個演講中被重點討論了。
很多時候,看似是捷徑的道路,其實在暗中標好了無盡的代價。
最好的方法是自立自強,從頭研發。這件事情很難,需要時間,需要耐心,但這是正確的路。
具體來說,需要重點關注以下機構的論文
? OpenAI – 這個毋庸置疑,所有文章都要全文背誦;
? Anthropic – OpenAI 不告訴你的東西,Anthropic 會告訴你;
? Google DeepMind – Google 比較冤大頭,什么技術都老實告訴你,不像 OpenAI 藏著掖著。
如果讀者在里經驗不足,那么可以先不要看其他的地方的文章。先培養判斷力,再去讀其他地方的文章,這樣才能分清好壞。在學術上,要分清好壞,而不是不加判斷一味接受。
在研發的過程中,建議關注以下內容:
? 如何組 pretraining 的數據,比如 DoReMi 這個方法;
? 如何增加 pretraining 的穩定性,比如 BLOOM 的方法;
? 如何組 instruction tuning 的數據,比如 The Flan Collection;
? 如何做 instruction tuning ,比如 Self-instruct;
? 如何做 RL,比如 Constitutional AI;
? 如何增加 reasoning 的能力,比如我們先前的博客;
? 如何增加 coding 能力,比如 StarCoder。
大模型就是一件花時間的事情,它是對人工智能工業能力的全方位大考:
? OpenAI 的 GPT 系列從 GPT-3 走到 GPT-4,從 2019 到 2023,一共花了四年的時間;
? Anthropic 原班人馬從 OpenAI 剝離之后,即使有 GPT-3 的經驗,重新做一遍 Claude 也花了一年的時間;
? LLaMA 的團隊,即使有 OPT 和 BLOOM 的教訓,也花了六個月的時間;
? GLM-130B 從立項到發布,花了兩年的時間;
? MOSS 的 alignment 的部分,在 RL 之前的內容,也花了將近半年的時間,這還是沒算 RL 的。
因此,不用著急打榜,不用明天就看結果,不用后天上線 — 慢慢來,一步一步來。很多時候,困難但正確的路,反而是最快的路。
在這篇文章中,我們介紹了 C-Eval 的開發目標,過程,和重點考量的因素。我們的目標是幫助開發者更好地開發中文大模型,促進學術界和產業界科學地使用 C-Eval 幫助模型迭代。我們不著急看結果,因為大模型本身就是一件非常困難的事情。我們知道有哪些捷徑可以走,但也知道困難但正確的路反而是最快的路。我們希望這份工作可以促進中文大模型的研發生態,讓人們早一點體驗到這項技術帶來的便利。
文章轉自微信公眾號@海外獨角獸