
一文講透 AI Agent 與 AI Workflow 的區別和深度解析:從自動化到智能化的演進
DeepSeek 一直專注于模型的改進和優化。在 6 月份,我們對 DeepSeek-V2-Chat 進行了重大升級,用 Coder V2 的 Base 模型替換原有的 Chat 的 Base 模型,顯著提升了其代碼生成和推理能力,并發布了 DeepSeek-V2-Chat-0628 版本。緊接著,DeepSeek-Coder-V2 在原有 Base 模型的基礎上,通過對齊優化,大大提升通用能力后推出了 DeepSeek-Coder-V2 0724 版本。最終,我們成功將 Chat 和 Coder 兩個模型合并,推出了全新的DeepSeek-V2.5 版本。
由于本次模型版本變動較大,如出現某些場景效果變差,建議重新調整 System Prompt 和 Temperature,以獲得最佳性能。
首先,我們使用業界通用的測試集對 DeepSeek-V2.5 的能力進行測評,在中文和英文四個測試集上,DeepSeek-V2.5 均優于之前的 DeepSeek-V2-0628 以及 DeepSeek-Coder-V2-0724。在我們內部的中文評測中,和 GPT-4o mini、ChatGPT-4o-latest 的對戰勝率(裁判為 GPT-4o)相較于 DeepSeek-V2-0628 均有明顯提升。此測評中涵蓋創作、問答等通用能力,用戶使用體驗將得到提升:
安全能力測評
Safety 和 Helpful 之間的權衡是我們在迭代開發中一直重點關注的問題。在 DeepSeek-V2.5 版本中,我們對于模型安全問題的邊界做了更加清晰的劃分,在強化模型對于各種越獄攻擊的安全性的同時,減少了安全策略過度泛化到正常問題中去的傾向。
*基于內部測試集合的得分,分數越高代表模型的整體安全性越高**基于內部測試集合的得分,比例越低代表模型的安全策略對于正常問題的影響越小
在代碼方面,DeepSeek-V2.5 保留了 DeepSeek-Coder-V2-0724 強大的代碼能力。在 HumanEval Python 和LiveCodeBench(2024 年 1 月 – 2024 年 9 月)測試中,DeepSeek-V2.5 顯示了較為顯著的改進。在 HumanEval Multilingual 和 Aider 測試中,DeepSeek-Coder-V2-0724 略勝一籌。在 SWE-verified 測試中,兩個版本的表現都較低,表明在此方面仍需進一步優化。另外,在FIM補全任務上,內部評測集DS-FIM-Eval的評分提升了 5.1%,可以帶來更好的插件補全體驗。另外,DeepSeek-V2.5對代碼常見場景進行了優化,以提升實際使用的表現。在內部的主觀評測 DS-Arena-Code 中,DeepSeek-V2.5 對戰競品的勝率(GPT-4o 為裁判)取得了顯著提升。
一如既往,秉持著持久開源的精神,DeepSeek-V2.5 現已開源到了 HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V2.5
——end——
原文轉載自:https://mp.weixin.qq.com/s/jPwP0-Aq6-8XAW1vDpRoXw