
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動化到智能化的演進
DeepSeek 一直專注于模型的改進和優(yōu)化。在 6 月份,我們對 DeepSeek-V2-Chat 進行了重大升級,用 Coder V2 的 Base 模型替換原有的 Chat 的 Base 模型,顯著提升了其代碼生成和推理能力,并發(fā)布了 DeepSeek-V2-Chat-0628 版本。緊接著,DeepSeek-Coder-V2 在原有 Base 模型的基礎(chǔ)上,通過對齊優(yōu)化,大大提升通用能力后推出了 DeepSeek-Coder-V2 0724 版本。最終,我們成功將 Chat 和 Coder 兩個模型合并,推出了全新的DeepSeek-V2.5 版本。
由于本次模型版本變動較大,如出現(xiàn)某些場景效果變差,建議重新調(diào)整 System Prompt 和 Temperature,以獲得最佳性能。
首先,我們使用業(yè)界通用的測試集對 DeepSeek-V2.5 的能力進行測評,在中文和英文四個測試集上,DeepSeek-V2.5 均優(yōu)于之前的 DeepSeek-V2-0628 以及 DeepSeek-Coder-V2-0724。在我們內(nèi)部的中文評測中,和 GPT-4o mini、ChatGPT-4o-latest 的對戰(zhàn)勝率(裁判為 GPT-4o)相較于 DeepSeek-V2-0628 均有明顯提升。此測評中涵蓋創(chuàng)作、問答等通用能力,用戶使用體驗將得到提升:
安全能力測評
Safety 和 Helpful 之間的權(quán)衡是我們在迭代開發(fā)中一直重點關(guān)注的問題。在 DeepSeek-V2.5 版本中,我們對于模型安全問題的邊界做了更加清晰的劃分,在強化模型對于各種越獄攻擊的安全性的同時,減少了安全策略過度泛化到正常問題中去的傾向。
*基于內(nèi)部測試集合的得分,分數(shù)越高代表模型的整體安全性越高**基于內(nèi)部測試集合的得分,比例越低代表模型的安全策略對于正常問題的影響越小
在代碼方面,DeepSeek-V2.5 保留了 DeepSeek-Coder-V2-0724 強大的代碼能力。在 HumanEval Python 和LiveCodeBench(2024 年 1 月 – 2024 年 9 月)測試中,DeepSeek-V2.5 顯示了較為顯著的改進。在 HumanEval Multilingual 和 Aider 測試中,DeepSeek-Coder-V2-0724 略勝一籌。在 SWE-verified 測試中,兩個版本的表現(xiàn)都較低,表明在此方面仍需進一步優(yōu)化。另外,在FIM補全任務(wù)上,內(nèi)部評測集DS-FIM-Eval的評分提升了 5.1%,可以帶來更好的插件補全體驗。另外,DeepSeek-V2.5對代碼常見場景進行了優(yōu)化,以提升實際使用的表現(xiàn)。在內(nèi)部的主觀評測 DS-Arena-Code 中,DeepSeek-V2.5 對戰(zhàn)競品的勝率(GPT-4o 為裁判)取得了顯著提升。
一如既往,秉持著持久開源的精神,DeepSeek-V2.5 現(xiàn)已開源到了 HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V2.5
——end——
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/jPwP0-Aq6-8XAW1vDpRoXw
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動化到智能化的演進
實測告訴你:DeepSeek-R1 7B、32B、671B差距有多大
6個大模型的核心技術(shù)介紹
太強了!各個行業(yè)的AI大模型!金融、教育、醫(yī)療、法律
在Sealos 平臺的幫助下一個人維護著 6000 個數(shù)據(jù)庫
通義萬相,開源!
使用Cursor 和 Devbox 一鍵搞定開發(fā)環(huán)境
DeepSeekMath:挑戰(zhàn)大語言模型的數(shù)學推理極限
新型脈沖神經(jīng)網(wǎng)絡(luò)+大模型研究進展!