如何在本地運行 DeepSeek
2025/03/07
DeepSeek-R1作為一款開源的AI模型,因其出色的性能和成本效益而受到廣泛關注。它不僅在問題解決、推理和編碼方面表現出色,還通過內置的鏈式思考推理提升了效率。本文詳細介紹了如何使用Ollama在本地免費運行DeepSeek-R1模型,整個過程僅需3分鐘。通過簡單的安裝步驟,用戶可以快速下載并啟動該模型,實現在本地與DeepSeek-R1的交互。此外,文章還提供了如何結合SingleStore數據庫和LangChain框架構建RAG應用的教程。通過NVIDIA NIM微服務獲取DeepSeek-R1的API密鑰后,用戶可以利用LangChain將模型與SingleStore數據庫連接,實現對自定義文檔的查詢和分析。這一過程不僅展示了DeepSeek-R1的強大功能,還為開發者提供了在本地運行和部署AI模型的實用指南。
DeepSeek引發比特幣下跌:市場波動背后的真相
【AI驅動】
近期,比特幣市場經歷了一輪顯著波動,其價格在短時間內大幅下跌。盡管中國初創公司 DeepSeek 并未直接涉及比特幣領域,但其引發的市場連鎖反應卻對比特幣價格產生了顯著影響。DeepSeek 提出的低成本人工智能模型引發了科技股的拋售潮,進而影響了比特幣市場。比特幣價格的下跌并非孤立事件,而是與科技股市場的整體表現密切相關。數據顯示,比特幣與納斯達克指數的相關性在近期達到了0.5,顯示出兩者之間強烈的聯動性。此外,比特幣挖礦行業也受到了波及,相關公司股價出現了大幅下跌。盡管如此,市場對比特幣的長期前景仍保持樂觀,其價格走勢將繼續受到市場情緒和宏觀經濟環境的影響。投資者在面對短期波動時應保持謹慎,同時關注市場動態和政策變化。
2025/03/07
全網都在要Manus AI邀請碼,可能是 DeepSeek 后最大驚喜
【AI驅動】
Manus AI 由Monica開發,是一款能夠自主完成復雜任務的通用AI代理工具,例如篩選簡歷、房產分析和股票研究等。它強調簡單易用和高質量成果,用戶只需輸入簡單指令即可獲得輸出,其官網展示的應用實例也凸顯了其解決現實問題的潛力。感謝您的指正,我會確保后續回答更加準確。
2025/03/07
一文搞懂什么是Manus,附實戰案例
【AI驅動】
Manus 是一款由中國Monica.im團隊于2025年3月5日發布的全球首款通用型AI智能體產品,其開發團隊成立于2023年,專注于人工智能助手的開發。其核心定位是能夠自主規劃并執行復雜任務,直接交付完整成果,而不僅僅是提供建議或答案。
2025/03/07
通用AI智能體Manus詳情介紹
【AI驅動】
通用AI智能體Manus是一種融合自然語言處理、多模態學習和強化學習的新型人工智能技術,其核心優勢在于跨領域的智能化交互能力。在游戲領域,Manus通過動態調整NPC行為提升玩家體驗;在金融科技中,它通過實時數據分析提供個性化投資建議。此外,Manus在模型輕量化、隱私保護等熱點技術上也取得了顯著進展。未來,隨著技術優化與新場景探索的深入,通用AI智能體Manus有望成為人工智能發展的重要推動力量。
2025/03/06
DeepSeek R1 簡單指南:架構、訓練、本地部署和硬件要求
【AI驅動】
DeepSeek R1 是一種大型語言模型(LLM),通過強化學習(RL)顯著提升了推理能力。與傳統模型不同,它主要依賴強化學習而非監督學習,通過小組相對策略優化(GRPO)提高準確性和格式獎勵,從而增強推理能力。
2025/03/06
Claude 3.7使用:全面指南與技術解析
【AI驅動】
Claude 3.7 Sonnet作為Anthropic公司最新發布的人工智能模型,憑借其混合推理能力和卓越性能,成為當前AI領域的焦點。本文詳細介紹了Claude 3.7的使用方法,包括官方渠道和第三方平臺,如Claude官網、Slack集成、Poe平臺、ChatShare、Trae、Sider、Lmsys和Perplexity等。同時,針對國內用戶,提供了通過AWS的Claude API、借助海外資源直接使用以及使用AI聚合站等策略。技術特點方面,Claude 3.7具備混合推理能力、強大的編碼性能和靈活的輸出容量,適用于多種實際應用場景,如醫療保健、金融服務和開發與編程。通過性能對比數據和示例代碼,本文為用戶提供了全面的技術解析和使用指南,幫助用戶更好地理解和應用Claude 3.7 Sonnet。
2025/03/04
Wan2.1:開源AI視頻模型的崛起,超越Sora的視頻生成技術
【AI驅動】
Wan2.1 是由阿里巴巴云開發的一款開源AI模型,專為高效、高質量的視頻生成而設計。它在多個方面表現出色,包括文本到視頻(T2V)、圖像到視頻(I2V)、視頻編輯和文本到圖像(T2I)等功能,并且能夠生成中英文雙語字幕,使其在多語言應用場景中具有獨特優勢。Wan2.1 基于擴散變換器范式構建,通過流匹配框架增強,其核心創新包括 Wan-VAE 和 Video Diffusion DiT,能夠高效處理1080P視頻并保持時間連貫性。在 VBench 基準測試中,Wan2.1 的總體得分為86.22%,超越了競爭對手 Sora 的84.28%。它在 ID 一致性、單對象準確性和空間位置準確性方面表現出色,盡管在運動平滑性和大運動生成方面略遜一籌,但差距非常小。Wan2.1 的開源特性使其對開發者極為友好,開發者可以輕松獲取其代碼并進行定制和集成。其應用場景廣泛,涵蓋內容創作、教育、影視、廣告、游戲等多個領域,能夠為不同行業提供強大的支持。
2025/03/04
大模型RAG問答行業最佳案例及微調、推理雙階段實現模式
【AI驅動】
該工作所提出的模塊化(Modular)RAG比較有趣,因此,今天我們來看看這個話題,價值之一在于,對RAG各個模塊的方案進行了歸置,對建立體系認知有幫助,供大家一起參考
2025/03/03
卷積神經網絡和循環神經網絡的代碼實現
【AI驅動】
在 TensorFlow 中,通過 tensorflow.keras 模塊構建 CNN 模型。首先加載 MNIST 數據集并進行歸一化處理,接著構建包含卷積層(Conv2D)、池化層(MaxPooling2D)和全連接層(Dense)的順序模型。訓練模型時,使用 adam 優化器和 sparse_categorical_crossentropy 損失函數,通過 model.fit 方法進行訓練。評估模型性能則通過 model.evaluate 方法。 在 PyTorch 中,同樣加載 MNIST 數據集,并使用 torchvision.transforms 進行數據預處理。定義一個繼承自 torch.nn.Module 的模型類,添加卷積層、池化層和全連接層。使用 torch.optim.Adam 和交叉熵損失函數訓練模型,通過循環迭代數據加載器進行模型訓練和評估。 循環神經網絡(RNN): TensorFlow 實現的 RNN 使用 tensorflow.keras.layers.SimpleRNN 層。定義模型時,指定 RNN 單元數量和返回序列的參數,最后通過全連接層連接到輸出層。PyTorch 實現的 RNN 定義一個自定義模型類,包含 nn.RNN 層和全連接層。使用 torch.optim.Adam 優化器和均方誤差損失函數訓練模型,通過循環迭代數據進行訓練,并在測試集上評估模型性能。
2025/03/03
5 分鐘用滿血 DeepSeek R1 搭建個人 AI 知識庫(含本地部署)
【AI驅動】
文章介紹了兩種使用 DeepSeek R1 模型搭建個人知識庫的方法:API 搭建和本地部署。對于不涉密數據且追求最佳效果的用戶,推薦使用 API 搭建方式,具體步驟包括下載 Cherry Studio 軟件、注冊硅基流動平臺獲取免費額度、配置 API Key、選擇 DeepSeek R1 模型、配置嵌入模型、創建知識庫并上傳文件進行向量化。對于有充足算力和希望保護數據安全的用戶,可以選擇本地部署方案,步驟包括下載 Ollama 軟件、安裝 DeepSeek R1 模型、使用 Cherry Studio 作為 UI 界面連接本地模型。文章還提到,DeepSeek 作為中國團隊開發的世界級大模型,為用戶提供了強大的 AI 功能,同時也展示了中國 AI 技術的進步。
2025/03/03
DeepSeek 使用指南:從 API Key 到本地部署,一步到位,推薦 3 款 AI 客戶端
【AI驅動】
DeepSeek 近期在 AI 領域及大眾中備受關注,預示著 2025 年 AI 技術將更普及。但其服務器卡頓問題影響了用戶體驗,為此 Chris 提供了包括獲取官方 API Key、本地部署 DeepSeek 和推薦第三方 AI 客戶端的解決方案。獲取 API Key 可訪問 DeepSeek 平臺創建,但目前官方暫停充值服務。本地部署 DeepSeek 可通過 Ollama 工具實現,支持多種 AI 模型。對于不熟悉命令行的用戶,推薦使用 ChatBox、CherryStudio 和 AnythingLLM 三款第三方 AI 客戶端,它們支持多平臺和多種 AI 模型,且注重本地數據存儲與隱私保護。這些方法旨在幫助用戶更高效地使用 DeepSeek,推動 AI 技術的普及與應用。
2025/03/03
基于DeepSeek-R1實現本地/API知識庫,并接入微信BOT
【AI驅動】
本文詳細介紹了搭建知識庫并接入微信機器人的完整流程,包括環境配置、知識庫部署、資料上傳及細節調優技巧。DeepSeek 部署分為本地部署和第三方 API 調用兩種方式,本地部署數據私有且響應快,但需較高硬件配置;API 調用快速接入且免維護,但數據需傳輸至第三方,長期成本不可控。知識庫搭建使用開源框架 AnythingLLM,支持多模態模型,強調本地化和隱私保護。通過火山方舟和硅基流動平臺獲取 API 密鑰,配置知識庫時需填寫相關參數,如請求地址、模型名稱等。資料上傳后需優化文檔格式以提高 AI 理解準確性,如整理關鍵內容、刪除無關信息。最后,通過生成 AnythingLLM 秘鑰并配置 NGCBOT,將知識庫接入微信機器人,實現智能問答功能。
2025/03/03
DeepSeek 技術分析 — (4)DualPipe
【AI驅動】
在深度學習中,前向傳播和后向傳播是訓練神經網絡的核心步驟。前向階段,輸入數據逐層通過網絡生成輸出;后向階段,利用損失函數計算損失,通過鏈式法則反向傳播梯度,并使用優化算法更新權重。對于大型語言模型(LLM),由于模型參數眾多,無法裝入單個 GPU 內存,需要采用模型并行和數據并行技術來加速訓練。模型并行通過將模型按層或張量級別分區,分布到多個 GPU 上;數據并行則將模型復制到多個 GPU 上,獨立生成梯度并同步更新。然而,大規模分布式訓練面臨資源利用、節點通信和同步等挑戰。為充分利用集群計算資源,引入了多種管道并行技術,如 PipeDream 的“一前一后”(1F1B)調度策略,通過重疊通信和計算提高 GPU 利用率。零氣泡流水線并行性進一步優化了計算和通信的重疊,減少流水線中的氣泡。DeepSeek 從 V3 開始引入了 DualPipe 調度,通過細粒度階段劃分和雙向流水線調度,提高了計算與通信的比率和效率,并定制了高效的跨節點全對全通信內核,充分利用集群的計算資源。
2025/03/03
DeepSeek 技術分析 — (3)多 Token
【AI驅動】
GPT 和 Llama 等大型語言模型都是使用下一個標記預測損失進行訓練的。這些模型通過執行下一個標記預測任務來學習大型文本語料庫 x1,... xT。正式來說,學習目標是最小化交叉熵損失: 其中 Pθ 是我們正在訓練的大型語...
2025/03/03
DeepSeek 技術分析 — (2)多頭潛在注意力
【AI驅動】
多頭注意力機制是 Transformer 模型的核心組件,通過并行計算捕獲序列中 token 之間的全局依賴關系,打破 RNN 和 CNN 的序列約束,推動語言模型發展。多查詢注意力機制通過共享鍵和值提高增量推理速度,但可能降低質量并導致訓練不穩定。分組查詢注意力機制通過一組注意力頭共享鍵和值的投影矩陣,在一定程度上緩解了這一問題。DeepSeek-V2 引入的多頭潛在注意力(MLA)機制,通過低秩鍵值聯合壓縮技術減少 KV 緩存大小,顯著降低內存占用并提高推理效率。MLA 核心是對鍵和值進行低秩聯合壓縮,消除推理時間鍵值緩存的瓶頸,同時采用解耦的 RoPE 策略以兼容低秩 KV 壓縮。測試表明,MLA 在性能上優于傳統多頭注意力機制(MHA),且所需的 KV 緩存量明顯小于 MHA。
2025/03/03
上一頁
1
…
5
6
7
8
9
…
63
下一頁
搜索、試用、集成國內外API!
冪簡集成
API平臺
已有
5002
種API!
API大全
搜索文章
熱門話題
C
API是什么
C
如何集成API
C
學習各類API
C
最佳API
C
AI驅動
C
區塊鏈驅動
C
API設計
C
API開發
C
API工具
C
API安全
C
API貨幣化
C
API創新
文章精選
大模型上下文協議與Spring開發集成篇——mcp-spring-webmvc原理
2025/03/17
從零開始教你打造一個MCP客戶端
2025/03/14
一文講透 AI Agent 與 AI Workflow 的區別和深度解析:從自動化到智能化的演進
2025/03/13
實測告訴你:DeepSeek-R1 7B、32B、671B差距有多大
2025/03/13
6個大模型的核心技術介紹
2025/03/13
太強了!各個行業的AI大模型!金融、教育、醫療、法律
2025/03/13
在Sealos 平臺的幫助下一個人維護著 6000 個數據庫
2025/03/13