日本女rapper,成人免费在线观看,国产免费卡1卡2卡

? 接下來的難點就是如何構造官方的 chain-of-thought prompt ，這個地方的重點在于，我們需要保證我們的 CoT 是對的。我們一開始的做法是對于每個 in-context example ，我們讓 GPT-4 生成一個 Chain-of-thought，但后來發現這個不大行，一來是生成的太長了 (超過 2048 個 token)，有些模型的輸入長度不一定支持；另一個是錯誤率太高了，一個個檢查不如自己做一遍；

??所以我們的同學們就把微積分，線代，概率，離散這些 prompt 的題目，真的自己做了一遍，以下是一個例子：

左邊是同學自己做的，然后寫成了 Markdown – Latex 格式；右邊是渲染出來的效果

大家也能感受到為什么題目很難，chain-of-thought prompt 很長，為什么模型需要有能力做微積分的符號和數值計算

防止混入訓練集

為了評測的科學性，我們考慮了一系列機制來防止我們的題目被混入訓練集

? 首先，我們的測試集只公開題目不公開答案，大家可以拿自己的模型在本地把答案跑出來然后在網站提交，然后后臺會給出分數；

? 然后，在構造題目的時候，我們盡可能選擇非公開來源的，網上不大可能被爬蟲爬到的題目；

? 有些科目的題目我們不打找得到非公開來源，這樣只能用網上的，這種情況下我們盡量用掃描版 pdf ，這是因為預訓練數據的清洗中，pdf 的處理是最麻煩的，現在的選手們光是清洗網頁就已經忙不過來了，清洗 pdf 的優先級不是很高 — 所以這些即使網上找得到，也比較難進到訓練集中。

當然，盡管我們做出了這些努力，但可能也會不可避免的發生某個網頁里能搜到題庫里的題目，但我們相信這種情況應該比較少。且從我們已有的結果看，C-Eval 的題目還是有足夠區分度的，特別是 Hard 的部分。

4.提升排名的方法

接下來我們分析有哪些方法可以提升模型的排名。我們先把捷徑給大家列出來，包括使用不能商用的 LLaMA 和使用 GPT 產生的數據，以及這些方法的壞處；然后我們討論什么是困難但正確的路。

有哪些捷徑可以走？

以下是可以走的捷徑：

? 使用 LLaMA 作為基座模型：在我們另一個相關的英文模型評測項目 Chain-of-thought Hub 中，我們指出了 65B 的 LLaMA 模型是一個稍弱于 GPT-3.5 的基礎模型，它有著很大的潛力，如果把它用中文的數據訓練，其強大的英文能力可以自動遷移到中文；

? 但這樣做的壞處，一來是研發能力的上限被 LLaMA 65B 鎖死，不可能超過 GPT-3.5，更何況 GPT-4 了，另一方面是 LLaMA 不可商用，使用它商業化會直接違反條例；

? 使用 GPT-4 生成的數據：特別是 C-Eval Hard 的部分，直接讓 GPT-4 做一遍，然后 GPT-4 的答案喂給自己的模型就可以了；

? 但這樣做的壞處，一來是如果商業化，就直接違反了 OpenAI 的使用條例；二來是從 GPT-4 做蒸餾會加劇模型胡說八道的現象，這是因為 RLHF 在微調模型拒絕能力的時候，是鼓勵模型知之為知之，不知為不知；但是直接抄 GPT-4 的話，GPT-4 知道的東西，其他的模型不一定知道，這樣反而鼓勵模型胡說八道。這個現象在 John Schulman 近期在伯克利的一個演講中被重點討論了。

很多時候，看似是捷徑的道路，其實在暗中標好了無盡的代價。

困難但正確的路

最好的方法是自立自強，從頭研發。這件事情很難，需要時間，需要耐心，但這是正確的路。

具體來說，需要重點關注以下機構的論文

? OpenAI – 這個毋庸置疑，所有文章都要全文背誦；

? Anthropic – OpenAI 不告訴你的東西，Anthropic 會告訴你；

? Google DeepMind – Google 比較冤大頭，什么技術都老實告訴你，不像 OpenAI 藏著掖著。

如果讀者在里經驗不足，那么可以先不要看其他的地方的文章。先培養判斷力，再去讀其他地方的文章，這樣才能分清好壞。在學術上，要分清好壞，而不是不加判斷一味接受。

在研發的過程中，建議關注以下內容：

? 如何組 pretraining 的數據，比如 DoReMi 這個方法；

? 如何增加 pretraining 的穩定性，比如 BLOOM 的方法；

? 如何組 instruction tuning 的數據，比如 The Flan Collection；

? 如何做 instruction tuning ，比如 Self-instruct；

? 如何做 RL，比如 Constitutional AI；

? 如何增加 reasoning 的能力，比如我們先前的博客；

? 如何增加 coding 能力，比如 StarCoder。

不著急

大模型就是一件花時間的事情，它是對人工智能工業能力的全方位大考：

? OpenAI 的 GPT 系列從 GPT-3 走到 GPT-4，從 2019 到 2023，一共花了四年的時間；

? Anthropic 原班人馬從 OpenAI 剝離之后，即使有 GPT-3 的經驗，重新做一遍 Claude 也花了一年的時間；

? LLaMA 的團隊，即使有 OPT 和 BLOOM 的教訓，也花了六個月的時間；

? GLM-130B 從立項到發布，花了兩年的時間；

? MOSS 的 alignment 的部分，在 RL 之前的內容，也花了將近半年的時間，這還是沒算 RL 的。

因此，不用著急打榜，不用明天就看結果，不用后天上線 — 慢慢來，一步一步來。很多時候，困難但正確的路，反而是最快的路。

5.結論

在這篇文章中，我們介紹了 C-Eval 的開發目標，過程，和重點考量的因素。我們的目標是幫助開發者更好地開發中文大模型，促進學術界和產業界科學地使用 C-Eval 幫助模型迭代。我們不著急看結果，因為大模型本身就是一件非常困難的事情。我們知道有哪些捷徑可以走，但也知道困難但正確的路反而是最快的路。我們希望這份工作可以促進中文大模型的研發生態，讓人們早一點體驗到這項技術帶來的便利。

文章轉自微信公眾號@海外獨角獸