雖然他們分享了更新模型的信息,但并沒有分享任何新的基準測試結果。

但是多個獨立的基準測試排行榜已經發布了他們對這個新版本的評估。

所以我們來看看它們。

如果我要給你一個預告,那就是這個新版本已經與Claude 3.5 Sonet相媲美,同時價格更便宜。無論如何,我們先來看一下大代碼基準測試排行榜。

你可以看到新的Deep Seek Coder V2模型現在排在第二名,與Claude 3.5 Sonet并列。

這意味著在基準測試中,這個新模型至少與Claude 3.5 Sonet相當。之前這個模型排在第7位,如你所見。所以這是從之前的迭代中一個非常好的跳躍。

如果你考慮價格與性能的比率,現在更加出色了。

下一個基準測試也非常棒,因為它來自aider。aider發布了一篇關于新模型評估的博客文章,以及哪個模型最適合aider。

你可以看到Claude 3.5 Sonet得分77%,而Deep Seek Coder V2 0724得分73%。

所以你可以看到它與Claude 3.5 Sonet相當,并且遠遠優于Llama3 405B和Mistol Large 2。

他們還說Deep Seek Coder V2 0724是最大的驚喜,也是最強大的代碼編輯模型,在排行榜上排名第二。它可以有效地編輯代碼,進行搜索替換,這解鎖了編輯大文件的能力。

這個新版本的代碼編輯模型在基準測試中得分73%,非常接近Sonet的77%,而且價格幾乎便宜50倍。所以這確實很酷。

我無法強調它非常便宜這一點。每百萬個token只需約20美分,比GPT 40 mini的60美分還要便宜。

新的模型權重還沒有在Hugging Face上發布,但它們應該會在接下來的幾天內發布,就像Deep Seek V2的新版本一樣。

但我們實際上可以在他們的平臺上試用這個新模型,不花任何錢。

所以讓我們用我的問題來測試一下。這些問題包括一般問題和編程問題,這樣我們也可以看看它在一般推理方面的能力。無論如何,讓我們開始吧。

第一個問題是,有一個與我們用來形容高大植物的詞押韻的數字,這個數字是什么?答案應該是three。這是它的回答,

但它沒有正確回答這個問題,所以這題不及格。

下一個問題是,我有兩個蘋果,然后我又買了兩個。我用兩個蘋果做了一個派,吃了一半后,我還剩下多少蘋果?答案應該是兩個。這是它的回答,

也是正確的,所以這題及格。

下一個問題是,莎莉是一個女孩,她有三個兄弟,每個兄弟都有兩個相同的姐妹,莎莉有幾個姐妹?答案應該是一個。這是Deep Seek的回答,

也是正確的,所以這題及格。

下一個問題是,如果一個正六邊形的短對角線是64,那么它的長對角線是多少?答案應該是73.9。這是它的回答,

但它沒有正確回答這個問題,所以這題不及格。

下一個問題是創建一個帶有點擊時爆炸彩紙的按鈕的HTML頁面,你也可以使用CSS和JS。

讓我們看看它能不能做到。這是代碼,它還增加了一個直接在聊天界面中預覽HTML文件的選項,

這很酷,就像Artifacts一樣。

這個工作正常,但我見過更好的生成,所以這題我會標記為不及格。

下一個問題是寫一個打印未來20個閏年的Python函數,僅回復函數代碼。讓我們發送并檢查一下。這是代碼,

讓我們運行一下。這個工作正常,所以這題及格。

下一個問題是生成一個蝴蝶的SVG代碼。讓我們看看它能不能做到。這是代碼,讓我們看看。

這個看起來不錯,有蝴蝶需要的部分,可以識別出來,所以這題及格。

下一個問題是寫一個HTML頁面,這個HTML頁面是一個AI公司的登錄頁面,他們喜歡現代和簡約的界面帶有動畫。讓我們發送并檢查一下。這是代碼,讓我們看看。

這看起來不錯,所以這題及格。

最后一個問題是寫一個在終端運行的Python生命游戲。讓我們發送并檢查一下。這是代碼,讓我們復制并運行。

這個工作正常,所以這題及格。

現在這是最終的統計圖,

你可以看到它沒有通過三個問題,這是可以理解的,因為它沒有通過的兩個問題是語言或數學問題,這顯然不是它的優化方向。

雖然在爆炸彩紙問題上它也很接近,但我希望它能通過這個問題,不過這也沒關系。

我現在更加喜歡這個模型了,而且它的推理成本非常便宜。如果你想個人使用它,你也可以在他們的平臺上免費使用,沒有任何明顯的限制,不像ChatGPT。

??希望這篇文章對你有幫助,感謝閱讀

文章轉自微信公眾號@AI進修生

上一篇:

DeepSeek-V2 到底有多強?寫一個 AI 編碼 Agent 測測看(附詳細代碼)

下一篇:

Mem0 AI:開源一天斬獲萬星!超越 RAG、為LLM、Agent加上超強個性記憶
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費