image

Highlights數據

image

image

數據迭代式數據采集

數據采集過程是迭代式進行的,最后經過四次數據收集迭代,我們最終收集了35.5M個數學網頁,共計120B Tokens,具體流程如下:

image

與開源數據對比

為了驗證DeepSeekMath數據質量,我們采用相同的初始化模型和訓練設置,分別基于多個數據集訓練了150B Tokens,并對比最終模型效果。如下圖,跟開源主流的數學數據集對比,DeepSeekMath數據訓練的模型(紅線)在多個數學基準上效果明顯領先。在一個Epoch范圍內(例如對于Proof-Pile-2是50B Tokens),DeepSeekMath數據效果更好,證明其數據質量更高。

image

下表展示更多榜單/數據集結果。簡而言之,DeepSeekMath數據勝在:中英雙語、更大規模、更高質量。

image

image

預訓練

預訓練實驗細節

image

預訓練模型效果

為了對DeepSeekMath-Base 7B的數學能力進行了全面評估,我們采取了三類實驗:1)依靠CoT解決數學問題的能力;2)使用工具解決數學問題的能力;3)進行形式化定理證明的能力;4)更通用場景下的語言理解、推理和代碼能力。下表首先展示了模型依靠CoT解決數學問題的能力。DeepSeekMath-Base 7B在所有八個基準測試中領先于開源基礎模型(包括數學推理能力超強的Mistral 7B和最近發布的數學領域模型Llemma 34B)。值得注意的是,在競賽級別的MATH數據集上,DeepSeekMath-Base超過了現有開源基礎模型超過10%的絕對值,并且優于540B的閉源模型Minerva,但僅用了1/77的參數量。

image

其次來看下利用工具來解數學題的能力,即通過Prompt引導模型生成包含math和sympy等包的Python代碼來解題。下表可以看出,DeepSeekMath-Base 7B明顯超過CodeLlama 34B和Llemma 34B。

image

緊接著看下形式化定理證明能力,評估方式是將非形式化證明轉為形式化證明。我們在miniF2F上進行評估,這是一個用于奧林匹克級別的數學基準測試。結果如下表所示,DeepSeekMath-Base 7B在自動定理證明方面,同樣表現出強大的性能。

image

為了驗證在更廣泛場景下DeepSeekMath的能力,我們在大模型的語言理解、推理和代碼的公開榜單上測試了模型。結果如下表,DeepSeekMath-Base 7B相比初始化的Coder模型,在MMLU和BBH上表現更佳,也就是說數學預訓練有助于語言理解和推理能力的提升。

image

image

對齊階段

SFT階段

我們構建了一個中英數學SFT數據集,包括CoT、PoT和工具集成推理等三種格式,訓練樣本總數為776K。

RL階段

我們采納了一種高效的強化學習算法,Group Relative Policy Optimization (GRPO)。與傳統的PPO算法相比,GRPO摒棄了對critic模型的依賴,轉而基于組內樣本得分計算baseline,顯著減少了PPO訓練所需要的計算資源?;贕RPO,我們探究了結果式監督、過程式監督以及迭代式強化學習的效果。模型效果下表評估的是模型未使用工具情況下,通過自身CoT解決數學題的能力。在MATH數學競賽數據集上,我們的模型DeepSeekMath-RL 7B超過了7B~70B所有開源模型,以及大多數閉源模型(例如Inflection-2和Gemini Pro)13%的絕對值,非常接近GPT-4和Gemini Ultra性能。

image

其中值得注意的是,DeepSeekMath-RL 7B所有評估指標上都超過了基準模型DeepSeekMath-Instruct 7B,展示了GRPO強化學習訓練的有效性。

image

分析

代碼預訓練會提升模型數學能力嗎?我們探究了不同訓練方式對模型結果的影響,包括:1)General訓練400B Tokens -> Math訓練150B Tokens
2)Code訓練400B Tokens -> Math訓練150B Tokens
3)Math單階段訓練150B Tokens
4)Code和Math混合訓練400B+150B Tokens
結果如下表,可以發現:代碼訓練可以提升模型工具進行數學推理的能力(w/ Tool Use),無論是在兩階段訓練還是一階段訓練設置下。

image

驚喜的是,數學和代碼混合預訓練有助于數學推理(w/ Tool Use)和代碼生成能力(HumanEval)的協同提升。

image

更多分析實驗(例如:ArXiv論文對提高數學推理能力無效)見論文,閱讀原文即可獲取。

image

關于DeepSeek

DeepSeek(深度求索),致力于探索AGI的本質,以開源匯聚更多的創造力和生產力。未來我們會持續發布更大規模、創新框架、以及復雜推理能力更好的模型!

image

點擊閱讀:深度求索開源國內首個MoE大模型,技術報告、模型權重同時發布
深度求索發布 67B 大模型,以「開源」加速 AGI 時代到來
可能是最強的開源代碼大模型!深度求索發布 DeepSeek Coder

image

image

image

原文轉載自:https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

熱門推薦
一個賬號試用1000+ API
助力AI無縫鏈接物理世界 · 無需多次注冊
3000+提示詞助力AI大模型
和專業工程師共享工作效率翻倍的秘密
返回頂部
上一篇
新型脈沖神經網絡+大模型研究進展!
下一篇
使用Cursor 和 Devbox 一鍵搞定開發環境
国内精品久久久久影院日本,日本中文字幕视频,99久久精品99999久久,又粗又大又黄又硬又爽毛片
无码av中文一区二区三区桃花岛| 国产欧美日韩另类一区| 国内精品伊人久久久久av一坑| 欧美日韩www| 亚洲黄色片在线观看| 欧美性生活影院| 免费在线欧美视频| xf在线a精品一区二区视频网站| 国产又黄又大久久| 欧美xxxxxxxx| 成人激情动漫在线观看| 亚洲综合色成人| 国产欧美日韩综合精品一区二区| 国内精品免费在线观看| 国产精品人人做人人爽人人添 | 欧美亚洲一区二区在线观看| 成人av中文字幕| 欧美美女一区二区在线观看| 国产一区二区三区四区五区美女| 国产色一区二区| 久久综合狠狠综合久久激情| 日韩美女主播在线视频一区二区三区 | 国内精品免费**视频| 亚洲视频一区二区在线观看| 欧美一区二区播放| 日韩欧美一区在线| 欧美日韩一区小说| 成人va在线观看| 在线视频观看一区| 99久久婷婷国产精品综合| 理论电影国产精品| 粉嫩一区二区三区性色av| 国产成人在线免费观看| 蜜桃av一区二区在线观看 | 色婷婷综合久色| 日韩欧美一二三区| 日韩免费看的电影| 精品91自产拍在线观看一区| 欧美精品久久一区二区三区| 久久久久综合网| 日本不卡一区二区三区| 午夜精品久久久久| 午夜视黄欧洲亚洲| 蜜臀久久久久久久| 色偷偷久久一区二区三区| 日本一区二区成人| 欧美一区二区美女| 色综合久久综合网欧美综合网| 欧美在线免费观看视频| 久久嫩草精品久久久精品| 国产精品免费人成网站| 国产精品亚洲专一区二区三区| 欧美电影免费观看高清完整版在线 | 亚洲成a人片在线不卡一二三区| 亚洲成人在线观看视频| 成人精品国产福利| 国产精品高潮久久久久无| 波多野结衣中文字幕一区| 久久这里只有精品6| 日韩精品一区第一页| 91精品国产福利| 精品在线观看视频| 国产欧美一区二区精品久导航 | 色综合激情久久| 国产成人综合在线| 亚洲综合图片区| 91成人网在线| 成人激情免费视频| 日韩激情在线观看| 欧美成人三级在线| 成人动漫一区二区三区| 首页国产欧美日韩丝袜| 久久这里只有精品首页| 99久久精品免费看| 日本成人在线看| 樱桃视频在线观看一区| 日韩精品一区二区在线观看| 国产激情精品久久久第一区二区| 人人超碰91尤物精品国产| 中文字幕巨乱亚洲| 欧美精品一区二区三区高清aⅴ| 欧美一区二区三区四区视频| 91在线视频网址| 夫妻av一区二区| 国产98色在线|日韩| 国产高清视频一区| 91亚洲国产成人精品一区二区三 | 亚洲卡通欧美制服中文| 中文字幕中文字幕一区| 久久人人超碰精品| 久久久亚洲精华液精华液精华液 | 在线观看成人免费视频| 777午夜精品免费视频| 欧美丝袜丝nylons| 91福利社在线观看| 51久久夜色精品国产麻豆| 2023国产一二三区日本精品2022| 欧美激情一区二区三区蜜桃视频 | 喷水一区二区三区| 国产69精品久久99不卡| 91国产免费观看| 国产农村妇女毛片精品久久麻豆| 裸体一区二区三区| 91视频免费观看| 国产日韩高清在线| 日韩黄色免费网站| 欧美视频中文字幕| 精品不卡在线视频| 久久99久久99| 欧美日本韩国一区| 精品一区二区在线看| 日韩一区二区三区四区| 亚洲一区在线免费观看| 成人高清免费在线播放| 亚洲欧美偷拍卡通变态| 国产一区二三区| 欧美大片免费久久精品三p| 亚洲电影中文字幕在线观看| 成年人午夜久久久| 久久亚洲一级片| 国产一区二区三区在线看麻豆| 久久精品人人做| k8久久久一区二区三区| 男男成人高潮片免费网站| 91精品国产福利在线观看 | 日韩欧美在线网站| fc2成人免费人成在线观看播放| 中文字幕一区在线观看视频| 欧美日韩一区二区三区在线看| 日韩成人精品在线| 国产精品福利av| 精品久久久久一区二区国产| www.欧美色图| 亚洲成a天堂v人片| 久久男人中文字幕资源站| 福利电影一区二区| 日韩vs国产vs欧美| 亚洲精品一区二区三区福利| 欧美精品一二三四| 国产精品香蕉一区二区三区| 五月天一区二区三区| 香蕉影视欧美成人| 亚洲第一二三四区| 无吗不卡中文字幕| 亚洲一区二区偷拍精品| 精品少妇一区二区三区免费观看| aaa国产一区| 国产69精品久久久久毛片| 美女视频一区在线观看| 久久电影国产免费久久电影| 亚洲综合清纯丝袜自拍| 亚洲成人动漫在线观看| 久久精品国产亚洲高清剧情介绍| 国产原创一区二区三区| av在线这里只有精品| 欧美一区二区免费观在线| 91精品国产一区二区| 日韩一二三区视频| 欧美激情中文不卡| 一区二区三区免费观看| 亚洲午夜精品在线| 麻豆国产精品视频| 欧美日韩第一区日日骚| 欧美性欧美巨大黑白大战| 欧美日韩高清在线播放| 91精品在线麻豆| 国产视频在线观看一区二区三区 | 欧美午夜精品久久久久久超碰 | 日韩欧美一卡二卡| 欧美国产禁国产网站cc| 亚洲国产成人一区二区三区| 国产精品狼人久久影院观看方式| 亚洲国产中文字幕| 成人自拍视频在线| 亚洲品质自拍视频网站| 国产一区不卡在线| 欧美电影免费提供在线观看| 性感美女久久精品| 成人高清免费观看| 日韩欧美黄色影院| 亚洲成人自拍一区| youjizz国产精品| 亚洲国产精品v| 色哟哟国产精品免费观看| 久久色在线视频| 欧美日韩中文精品| 国产激情一区二区三区四区 | 国产精品99久久久久久久女警| 欧美本精品男人aⅴ天堂| 色呦呦日韩精品| 4438x亚洲最大成人网| 色播五月激情综合网| 欧美亚洲综合久久| 欧美一区二区三区人| 久久久久9999亚洲精品| 自拍av一区二区三区| 免费av成人在线| www.综合网.com| 日韩黄色在线观看| 亚洲狠狠丁香婷婷综合久久久|