
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動化到智能化的演進
數(shù)據(jù)采集過程是迭代式進行的,最后經(jīng)過四次數(shù)據(jù)收集迭代,我們最終收集了35.5M個數(shù)學網(wǎng)頁,共計120B Tokens,具體流程如下:
為了驗證DeepSeekMath數(shù)據(jù)質(zhì)量,我們采用相同的初始化模型和訓(xùn)練設(shè)置,分別基于多個數(shù)據(jù)集訓(xùn)練了150B Tokens,并對比最終模型效果。如下圖,跟開源主流的數(shù)學數(shù)據(jù)集對比,DeepSeekMath數(shù)據(jù)訓(xùn)練的模型(紅線)在多個數(shù)學基準上效果明顯領(lǐng)先。在一個Epoch范圍內(nèi)(例如對于Proof-Pile-2是50B Tokens),DeepSeekMath數(shù)據(jù)效果更好,證明其數(shù)據(jù)質(zhì)量更高。
下表展示更多榜單/數(shù)據(jù)集結(jié)果。簡而言之,DeepSeekMath數(shù)據(jù)勝在:中英雙語、更大規(guī)模、更高質(zhì)量。
為了對DeepSeekMath-Base 7B的數(shù)學能力進行了全面評估,我們采取了三類實驗:1)依靠CoT解決數(shù)學問題的能力;2)使用工具解決數(shù)學問題的能力;3)進行形式化定理證明的能力;4)更通用場景下的語言理解、推理和代碼能力。下表首先展示了模型依靠CoT解決數(shù)學問題的能力。DeepSeekMath-Base 7B在所有八個基準測試中領(lǐng)先于開源基礎(chǔ)模型(包括數(shù)學推理能力超強的Mistral 7B和最近發(fā)布的數(shù)學領(lǐng)域模型Llemma 34B)。值得注意的是,在競賽級別的MATH數(shù)據(jù)集上,DeepSeekMath-Base超過了現(xiàn)有開源基礎(chǔ)模型超過10%的絕對值,并且優(yōu)于540B的閉源模型Minerva,但僅用了1/77的參數(shù)量。
其次來看下利用工具來解數(shù)學題的能力,即通過Prompt引導(dǎo)模型生成包含math和sympy等包的Python代碼來解題。下表可以看出,DeepSeekMath-Base 7B明顯超過CodeLlama 34B和Llemma 34B。
緊接著看下形式化定理證明能力,評估方式是將非形式化證明轉(zhuǎn)為形式化證明。我們在miniF2F上進行評估,這是一個用于奧林匹克級別的數(shù)學基準測試。結(jié)果如下表所示,DeepSeekMath-Base 7B在自動定理證明方面,同樣表現(xiàn)出強大的性能。
為了驗證在更廣泛場景下DeepSeekMath的能力,我們在大模型的語言理解、推理和代碼的公開榜單上測試了模型。結(jié)果如下表,DeepSeekMath-Base 7B相比初始化的Coder模型,在MMLU和BBH上表現(xiàn)更佳,也就是說數(shù)學預(yù)訓(xùn)練有助于語言理解和推理能力的提升。
我們構(gòu)建了一個中英數(shù)學SFT數(shù)據(jù)集,包括CoT、PoT和工具集成推理等三種格式,訓(xùn)練樣本總數(shù)為776K。
我們采納了一種高效的強化學習算法,Group Relative Policy Optimization (GRPO)。與傳統(tǒng)的PPO算法相比,GRPO摒棄了對critic模型的依賴,轉(zhuǎn)而基于組內(nèi)樣本得分計算baseline,顯著減少了PPO訓(xùn)練所需要的計算資源。基于GRPO,我們探究了結(jié)果式監(jiān)督、過程式監(jiān)督以及迭代式強化學習的效果。模型效果下表評估的是模型未使用工具情況下,通過自身CoT解決數(shù)學題的能力。在MATH數(shù)學競賽數(shù)據(jù)集上,我們的模型DeepSeekMath-RL 7B超過了7B~70B所有開源模型,以及大多數(shù)閉源模型(例如Inflection-2和Gemini Pro)13%的絕對值,非常接近GPT-4和Gemini Ultra性能。
其中值得注意的是,DeepSeekMath-RL 7B所有評估指標上都超過了基準模型DeepSeekMath-Instruct 7B,展示了GRPO強化學習訓(xùn)練的有效性。
代碼預(yù)訓(xùn)練會提升模型數(shù)學能力嗎?我們探究了不同訓(xùn)練方式對模型結(jié)果的影響,包括:1)General訓(xùn)練400B Tokens -> Math訓(xùn)練150B Tokens
2)Code訓(xùn)練400B Tokens -> Math訓(xùn)練150B Tokens
3)Math單階段訓(xùn)練150B Tokens
4)Code和Math混合訓(xùn)練400B+150B Tokens
結(jié)果如下表,可以發(fā)現(xiàn):代碼訓(xùn)練可以提升模型工具進行數(shù)學推理的能力(w/ Tool Use),無論是在兩階段訓(xùn)練還是一階段訓(xùn)練設(shè)置下。
驚喜的是,數(shù)學和代碼混合預(yù)訓(xùn)練有助于數(shù)學推理(w/ Tool Use)和代碼生成能力(HumanEval)的協(xié)同提升。
更多分析實驗(例如:ArXiv論文對提高數(shù)學推理能力無效)見論文,閱讀原文即可獲取。
DeepSeek(深度求索),致力于探索AGI的本質(zhì),以開源匯聚更多的創(chuàng)造力和生產(chǎn)力。未來我們會持續(xù)發(fā)布更大規(guī)模、創(chuàng)新框架、以及復(fù)雜推理能力更好的模型!
點擊閱讀:深度求索開源國內(nèi)首個MoE大模型,技術(shù)報告、模型權(quán)重同時發(fā)布
深度求索發(fā)布 67B 大模型,以「開源」加速 AGI 時代到來
可能是最強的開源代碼大模型!深度求索發(fā)布 DeepSeek Coder
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA