
一文講透 AI Agent 與 AI Workflow 的區別和深度解析:從自動化到智能化的演進
DeepSeek-VL2 模型展現出了符合我們預期的強大能力,在各項評測指標上均取得了極具優勢的成績:
DeepSeek-VL2 僅使用一個 SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實現動態分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152×1152 的分辨率和 1:9 或 9:1 的極端長寬比,適配更多應用場景。
更多科研文檔數據的學習使得 DeepSeek-VL2 可以輕易理解各種科研圖表。
DeepSeek-VL2 同時具備圖像理解和代碼生成的功能,可以作為你逆向畫圖的好幫手。
Prompt: Draw a plot similar to the image in Python.
更大規模的訓練數據賦予了 DeepSeek-VL2 解析各種 Meme 的能力,有時它甚至懂得比你還要多。
大模型的能力絕不僅限于封閉類別的物體識別。
你可以用任意的自然語言進行描述,然后讓 DeepSeek-VL2 幫你在圖像里找到符合描述的部分(注:模型本身只是輸出相應物體的邊界框,而不會直接在原圖上繪制邊界框,下同)。例如,DeepSeek-VL2 可以在下圖里找到 "DeepSeek Whale" (DeepSeek 吉祥物虎鯨):
你也可以給 DeepSeek-VL2 一個示例,讓它有樣學樣:
Prompt: <|grounding|>In the first image, an object within the black ellipse is highlighted. Please locate the object of the same category in the second image. (在第一張圖中有一個物體被黑色橢圓包裹住。在第二張圖中找到同類別的物體。)
視覺感知+語言推理,強強聯手成就模型的視覺語義對話能力。如果你拿著下圖問模型 "If you feel hot, what will you do?(如果感覺熱,你會怎么做?)",它會回答:"To cool down, you can use <|ref|>the fan<|/ref|><|det|>166, 460, 338, 712<|/det|> which is sitting on the desk.(為了降溫,你可以使用 166, 460, 338, 712 位置處的風扇,它放在桌子上)"
你也可以輸入多張圖像,讓模型把它們串聯起來,形成一個小小的童話故事。
視覺是人類獲取外界信息的主要來源,占據所有信息量的約 80%。然而在大模型時代,視覺方面的進展卻遠遠落后于語言模型。我們堅信,提升模型視覺能力的意義不僅在于支持更多的輸入模態,更在于全方位提升模型的感知和認知能力。歡迎加入 DeepSeek,和我們一起探索 AGI 的星辰大海。—— End ——
原文轉載自:https://mp.weixin.qq.com/s/rE6Dh_OzolgDTAh3ubM5KA