模型亮點

數據

架構

訓練

image

模型和論文均已發布

測評結果

DeepSeek-VL2 模型展現出了符合我們預期的強大能力,在各項評測指標上均取得了極具優勢的成績:

image

image

案例展示

動態分辨率支持

DeepSeek-VL2 僅使用一個 SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實現動態分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152×1152 的分辨率和 1:9 或 9:1 的極端長寬比,適配更多應用場景。

image

圖表理解

更多科研文檔數據的學習使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

image

Plot2Code

DeepSeek-VL2 同時具備圖像理解和代碼生成的功能,可以作為你逆向畫圖的好幫手。

image

Prompt: Draw a plot similar to the image in Python.

梗圖識別

更大規模的訓練數據賦予了 DeepSeek-VL2 解析各種 Meme 的能力,有時它甚至懂得比你還要多。

image

Visual Grounding

大模型的能力絕不僅限于封閉類別的物體識別。

Zero-shot grounding

你可以用任意的自然語言進行描述,然后讓 DeepSeek-VL2 幫你在圖像里找到符合描述的部分(注:模型本身只是輸出相應物體的邊界框,而不會直接在原圖上繪制邊界框,下同)。例如,DeepSeek-VL2 可以在下圖里找到 "DeepSeek Whale" (DeepSeek 吉祥物虎鯨):

image

In-context grounding

你也可以給 DeepSeek-VL2 一個示例,讓它有樣學樣:

image

Prompt: <|grounding|>In the first image, an object within the black ellipse is highlighted. Please locate the object of the same category in the second image. (在第一張圖中有一個物體被黑色橢圓包裹住。在第二張圖中找到同類別的物體。)

Grounded conversation

視覺感知+語言推理,強強聯手成就模型的視覺語義對話能力。如果你拿著下圖問模型 "If you feel hot, what will you do?(如果感覺熱,你會怎么做?)",它會回答:"To cool down, you can use <|ref|>the fan<|/ref|><|det|>166, 460, 338, 712<|/det|> which is sitting on the desk.(為了降溫,你可以使用 166, 460, 338, 712 位置處的風扇,它放在桌子上)"

image

Visual Storytelling

你也可以輸入多張圖像,讓模型把它們串聯起來,形成一個小小的童話故事。

image

視覺模型的未來

視覺是人類獲取外界信息的主要來源,占據所有信息量的約 80%。然而在大模型時代,視覺方面的進展卻遠遠落后于語言模型。我們堅信,提升模型視覺能力的意義不僅在于支持更多的輸入模態,更在于全方位提升模型的感知和認知能力。歡迎加入 DeepSeek,和我們一起探索 AGI 的星辰大海。—— End ——

image

原文轉載自:https://mp.weixin.qq.com/s/rE6Dh_OzolgDTAh3ubM5KA

上一篇:

多智能體大語言模型:四種多Agent范式

下一篇:

多模態大模型,全面綜述與指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費