訓練過程對比

培訓方法:

DeepSeek-R1-Zero 的訓練過程非常簡單:

DeepSeek-R1 的訓練過程分為四個不同的階段:

  1. 使用數千個高質量示例進行初始監督微調
  2. 強化學習專注于推理任務
  3. 通過拒絕抽樣收集新的訓練數據
  4. 針對所有類型任務的最終強化學習

績效指標:

局限性和未來工作

論文承認了幾個需要改進的領域:

未來的工作將集中于解決這些限制并擴展模型在函數調用、多輪交互和復雜角色扮演場景等領域的功能。

部署和可訪問性

1. 通過 DeepSeek 聊天平臺進行網頁訪問:

DeepSeek 聊天平臺提供了用戶友好的界面,無需任何設置要求即可與 DeepSeek-R1 進行交互。

DeepSeek 聊天平臺

2.通過DeepSeek API訪問:

對于編程訪問,DeepSeek 提供了與 OpenAI 格式兼容的 API,允許集成到各種應用程序中。

使用API的步驟

a. 獲取 API 密鑰

b.配置您的環境

c. 進行 API 調用

DeepSeek API 調用示例

3. 在本地運行 DeepSeek-R1:

兩種型號(R1 和 R1-Zero):

本地運行的軟件工具:

  1. Ollama :

您可以使用Ollama在本地提供模型: (Ollama 是一種在您的機器上本地運行開源 AI 模型的工具。在此處獲取:https://ollama.com/download )

接下來,您需要在本地提取并運行 DeepSeek R1 模型。

Ollama 提供不同尺寸的模型 — 基本上,更大的模型等于更智能的 AI,但需要更好的 GPU。以下是陣容:

1.5B 版本(最小):
ollama run deepseek-r1:1.5b

8B 版本:
ollama run deepseek-r1:8b

14B 版本:
ollama run deepseek-r1:14b

32B 版本:
ollama run deepseek-r1:32b

70B 版本(最大/最智能):
ollama run deepseek-r1:70b

要開始嘗試 DeepSeek-R1,建議從較小的模型開始,以熟悉設置并確保與硬件的兼容性。您可以通過打開終端并執行以下命令來啟動此過程:

ollama 運行 deepseek-r1:8b

圖片由 Reddit 提供

通過 Ollama 向本地下載的 DeepSeek-R1 發送請求:

Ollama 提供了一個 API 端點,用于以編程方式與 DeepSeek-R1 交互。在發出 API 請求之前,請確保 Ollama 服務器在本地運行。您可以通過運行以下命令來啟動服務器:

ollama serve

一旦服務器處于活動狀態,您就可以使用curl以下命令發送請求:

curl -X POST http://localhost:11434/api/generate -d '{
"model": "deepseek-r1",
"prompt": "Your question or prompt here"
}'

將其替換"Your question or prompt here"為您希望向模型提供的實際輸入。此命令向本地 Ollama 服務器發送 POST 請求,該服務器使用指定的 DeepSeek-R1 模型處理提示并返回生成的響應。

在本地運行/訪問模型的其他方法包括:

vLLM/SGLang:用于在本地提供模型。vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — force-eager 等命令可用于精簡版本。

圖片來源:HuggingFace

結論

從 DeepSeek-R1-Zero 到 DeepSeek-R1 的這一進展代表了研究中重要的學習歷程。雖然 DeepSeek-R1-Zero 證明了純強化學習是可行的,但 DeepSeek-R1 展示了如何將監督學習與強化學習相結合來創建一個更強大、更實用的模型。

上一篇:

Claude 3.7使用:全面指南與技術解析

下一篇:

通用AI智能體Manus詳情介紹
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費