
Highlights數據


數據迭代式數據采集
數據采集過程是迭代式進行的,最后經過四次數據收集迭代,我們最終收集了35.5M個數學網頁,共計120B Tokens,具體流程如下:

- 步驟 1:選擇一部分高質量的數學網頁,作為種子集合,用來訓練FastText打分模型。
- 步驟 2:利用訓練好的FastText模型,在包含400億網頁的Common Crawl中召回更多與數學相關的網頁。
- 步驟 3:在召回的數學網頁中,通過統計識別出與數學相關的域名(例如,mathoverflow.net)。
- 步驟 4: 對這些域名下的URL路徑進行人工標注,標記出與數學內容相關的路徑(例如,mathoverflow.net/questions)。
- 步驟 5: 將這些特定路徑下的網頁,如果它們未被前述步驟召回,則將它們作為正樣本加入到種子集合中,以供下一輪迭代使用。重復這一過程直到完成四輪迭代。
- 為了確保數據不被來自測試集的數據污染(例如GSM8K和MATH普遍存在于網頁中),我們沿用DeepSeek-Coder的n-gram過濾方法。
與開源數據對比
為了驗證DeepSeekMath數據質量,我們采用相同的初始化模型和訓練設置,分別基于多個數據集訓練了150B Tokens,并對比最終模型效果。如下圖,跟開源主流的數學數據集對比,DeepSeekMath數據訓練的模型(紅線)在多個數學基準上效果明顯領先。在一個Epoch范圍內(例如對于Proof-Pile-2是50B Tokens),DeepSeekMath數據效果更好,證明其數據質量更高。

下表展示更多榜單/數據集結果。簡而言之,DeepSeekMath數據勝在:中英雙語、更大規模、更高質量。


預訓練
預訓練實驗細節
- 初始化模型選取了深度求索開源的DeepSeek-Coder-Base-v1.5,繼續訓練了500B Tokens。
- 最大學習率為4.2e-4,Batch Size為10M。
- 數據分布如下圖:

預訓練模型效果
為了對DeepSeekMath-Base 7B的數學能力進行了全面評估,我們采取了三類實驗:1)依靠CoT解決數學問題的能力;2)使用工具解決數學問題的能力;3)進行形式化定理證明的能力;4)更通用場景下的語言理解、推理和代碼能力。下表首先展示了模型依靠CoT解決數學問題的能力。DeepSeekMath-Base 7B在所有八個基準測試中領先于開源基礎模型(包括數學推理能力超強的Mistral 7B和最近發布的數學領域模型Llemma 34B)。值得注意的是,在競賽級別的MATH數據集上,DeepSeekMath-Base超過了現有開源基礎模型超過10%的絕對值,并且優于540B的閉源模型Minerva,但僅用了1/77的參數量。

其次來看下利用工具來解數學題的能力,即通過Prompt引導模型生成包含math和sympy等包的Python代碼來解題。下表可以看出,DeepSeekMath-Base 7B明顯超過CodeLlama 34B和Llemma 34B。

緊接著看下形式化定理證明能力,評估方式是將非形式化證明轉為形式化證明。我們在miniF2F上進行評估,這是一個用于奧林匹克級別的數學基準測試。結果如下表所示,DeepSeekMath-Base 7B在自動定理證明方面,同樣表現出強大的性能。

為了驗證在更廣泛場景下DeepSeekMath的能力,我們在大模型的語言理解、推理和代碼的公開榜單上測試了模型。結果如下表,DeepSeekMath-Base 7B相比初始化的Coder模型,在MMLU和BBH上表現更佳,也就是說數學預訓練有助于語言理解和推理能力的提升。


對齊階段
SFT階段
我們構建了一個中英數學SFT數據集,包括CoT、PoT和工具集成推理等三種格式,訓練樣本總數為776K。
RL階段
我們采納了一種高效的強化學習算法,Group Relative Policy Optimization (GRPO)。與傳統的PPO算法相比,GRPO摒棄了對critic模型的依賴,轉而基于組內樣本得分計算baseline,顯著減少了PPO訓練所需要的計算資源?;贕RPO,我們探究了結果式監督、過程式監督以及迭代式強化學習的效果。模型效果下表評估的是模型未使用工具情況下,通過自身CoT解決數學題的能力。在MATH數學競賽數據集上,我們的模型DeepSeekMath-RL 7B超過了7B~70B所有開源模型,以及大多數閉源模型(例如Inflection-2和Gemini Pro)13%的絕對值,非常接近GPT-4和Gemini Ultra性能。

其中值得注意的是,DeepSeekMath-RL 7B所有評估指標上都超過了基準模型DeepSeekMath-Instruct 7B,展示了GRPO強化學習訓練的有效性。

分析
代碼預訓練會提升模型數學能力嗎?我們探究了不同訓練方式對模型結果的影響,包括:1)General訓練400B Tokens -> Math訓練150B Tokens
2)Code訓練400B Tokens -> Math訓練150B Tokens
3)Math單階段訓練150B Tokens
4)Code和Math混合訓練400B+150B Tokens
結果如下表,可以發現:代碼訓練可以提升模型工具進行數學推理的能力(w/ Tool Use),無論是在兩階段訓練還是一階段訓練設置下。

驚喜的是,數學和代碼混合預訓練有助于數學推理(w/ Tool Use)和代碼生成能力(HumanEval)的協同提升。

更多分析實驗(例如:ArXiv論文對提高數學推理能力無效)見論文,閱讀原文即可獲取。

關于DeepSeek
DeepSeek(深度求索),致力于探索AGI的本質,以開源匯聚更多的創造力和生產力。未來我們會持續發布更大規模、創新框架、以及復雜推理能力更好的模型!

點擊閱讀:深度求索開源國內首個MoE大模型,技術報告、模型權重同時發布
深度求索發布 67B 大模型,以「開源」加速 AGI 時代到來
可能是最強的開源代碼大模型!深度求索發布 DeepSeek Coder



原文轉載自:https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA
熱門推薦
一個賬號試用1000+ API
助力AI無縫鏈接物理世界 · 無需多次注冊
3000+提示詞助力AI大模型
和專業工程師共享工作效率翻倍的秘密
国内精品久久久久影院日本,日本中文字幕视频,99久久精品99999久久,又粗又大又黄又硬又爽毛片
无码av中文一区二区三区桃花岛|
国产欧美日韩另类一区|
国内精品伊人久久久久av一坑|
欧美日韩www|
亚洲黄色片在线观看|
欧美性生活影院|
免费在线欧美视频|
xf在线a精品一区二区视频网站|
国产又黄又大久久|
欧美xxxxxxxx|
成人激情动漫在线观看|
亚洲综合色成人|
国产欧美日韩综合精品一区二区|
国内精品免费在线观看|
国产精品人人做人人爽人人添
|
欧美亚洲一区二区在线观看|
成人av中文字幕|
欧美美女一区二区在线观看|
国产一区二区三区四区五区美女|
国产色一区二区|
久久综合狠狠综合久久激情|
日韩美女主播在线视频一区二区三区
|
国内精品免费**视频|
亚洲视频一区二区在线观看|
欧美一区二区播放|
日韩欧美一区在线|
欧美日韩一区小说|
成人va在线观看|
在线视频观看一区|
99久久婷婷国产精品综合|
理论电影国产精品|
粉嫩一区二区三区性色av|
国产成人在线免费观看|
蜜桃av一区二区在线观看
|
色婷婷综合久色|
日韩欧美一二三区|
日韩免费看的电影|
精品91自产拍在线观看一区|
欧美精品久久一区二区三区|
久久久久综合网|
日本不卡一区二区三区|
午夜精品久久久久|
午夜视黄欧洲亚洲|
蜜臀久久久久久久|
色偷偷久久一区二区三区|
日本一区二区成人|
欧美一区二区美女|
色综合久久综合网欧美综合网|
欧美在线免费观看视频|
久久嫩草精品久久久精品|
国产精品免费人成网站|
国产精品亚洲专一区二区三区|
欧美电影免费观看高清完整版在线
|
亚洲成a人片在线不卡一二三区|
亚洲成人在线观看视频|
成人精品国产福利|
国产精品高潮久久久久无|
波多野结衣中文字幕一区|
久久这里只有精品6|
日韩精品一区第一页|
91精品国产福利|
精品在线观看视频|
国产欧美一区二区精品久导航
|
色综合激情久久|
国产成人综合在线|
亚洲综合图片区|
91成人网在线|
成人激情免费视频|
日韩激情在线观看|
欧美成人三级在线|
成人动漫一区二区三区|
首页国产欧美日韩丝袜|
久久这里只有精品首页|
99久久精品免费看|
日本成人在线看|
樱桃视频在线观看一区|
日韩精品一区二区在线观看|
国产激情精品久久久第一区二区|
人人超碰91尤物精品国产|
中文字幕巨乱亚洲|
欧美精品一区二区三区高清aⅴ|
欧美一区二区三区四区视频|
91在线视频网址|
夫妻av一区二区|
国产98色在线|日韩|
国产高清视频一区|
91亚洲国产成人精品一区二区三
|
亚洲卡通欧美制服中文|
中文字幕中文字幕一区|
久久人人超碰精品|
久久久亚洲精华液精华液精华液
|
在线观看成人免费视频|
777午夜精品免费视频|
欧美丝袜丝nylons|
91福利社在线观看|
51久久夜色精品国产麻豆|
2023国产一二三区日本精品2022|
欧美激情一区二区三区蜜桃视频
|
喷水一区二区三区|
国产69精品久久99不卡|
91国产免费观看|
国产农村妇女毛片精品久久麻豆|
裸体一区二区三区|
91视频免费观看|
国产日韩高清在线|
日韩黄色免费网站|
欧美视频中文字幕|
精品不卡在线视频|
久久99久久99|
欧美日本韩国一区|
精品一区二区在线看|
日韩一区二区三区四区|
亚洲一区在线免费观看|
成人高清免费在线播放|
亚洲欧美偷拍卡通变态|
国产一区二三区|
欧美大片免费久久精品三p|
亚洲电影中文字幕在线观看|
成年人午夜久久久|
久久亚洲一级片|
国产一区二区三区在线看麻豆|
久久精品人人做|
k8久久久一区二区三区|
男男成人高潮片免费网站|
91精品国产福利在线观看
|
日韩欧美在线网站|
fc2成人免费人成在线观看播放|
中文字幕一区在线观看视频|
欧美日韩一区二区三区在线看|
日韩成人精品在线|
国产精品福利av|
精品久久久久一区二区国产|
www.欧美色图|
亚洲成a天堂v人片|
久久男人中文字幕资源站|
福利电影一区二区|
日韩vs国产vs欧美|
亚洲精品一区二区三区福利|
欧美精品一二三四|
国产精品香蕉一区二区三区|
五月天一区二区三区|
香蕉影视欧美成人|
亚洲第一二三四区|
无吗不卡中文字幕|
亚洲一区二区偷拍精品|
精品少妇一区二区三区免费观看|
aaa国产一区|
国产69精品久久久久毛片|
美女视频一区在线观看|
久久电影国产免费久久电影|
亚洲综合清纯丝袜自拍|
亚洲成人动漫在线观看|
久久精品国产亚洲高清剧情介绍|
国产原创一区二区三区|
av在线这里只有精品|
欧美一区二区免费观在线|
91精品国产一区二区|
日韩一二三区视频|
欧美激情中文不卡|
一区二区三区免费观看|
亚洲午夜精品在线|
麻豆国产精品视频|
欧美日韩第一区日日骚|
欧美性欧美巨大黑白大战|
欧美日韩高清在线播放|
91精品在线麻豆|
国产视频在线观看一区二区三区
|
欧美午夜精品久久久久久超碰
|
日韩欧美一卡二卡|
欧美国产禁国产网站cc|
亚洲国产成人一区二区三区|
国产精品狼人久久影院观看方式|
亚洲国产中文字幕|
成人自拍视频在线|
亚洲品质自拍视频网站|
国产一区不卡在线|
欧美电影免费提供在线观看|
性感美女久久精品|
成人高清免费观看|
日韩欧美黄色影院|
亚洲成人自拍一区|
youjizz国产精品|
亚洲国产精品v|
色哟哟国产精品免费观看|
久久色在线视频|
欧美日韩中文精品|
国产激情一区二区三区四区
|
国产精品99久久久久久久女警|
欧美本精品男人aⅴ天堂|
色呦呦日韩精品|
4438x亚洲最大成人网|
色播五月激情综合网|
欧美亚洲综合久久|
欧美一区二区三区人|
久久久久9999亚洲精品|
自拍av一区二区三区|
免费av成人在线|
www.综合网.com|
日韩黄色在线观看|
亚洲狠狠丁香婷婷综合久久久|