together API產品35
Mixtral 8x7B v0.1 是 Mistral AI 于 2023 年 12 月發布的開源大型語言模型,采用稀疏混合專家(SMoE)架構。模型由 8 個各含 70 億參數的專家組成,總參數量達 46.7 億,但每次推理僅激活 2 個專家,約 12.9 億參數,兼顧性能與效率。該模型支持最長 32K token 的上下文處理,在多個基準測試中表現優異,性能超過 LLaMA 2 70B 和 GPT-3.5。
Mixtral 8x7B Instruct v0.1 是 Mistral AI 于 2023 年 12 月發布的開源指令微調語言模型,采用稀疏混合專家(SMoE)架構,擁有 46.7 億總參數。每個 token 推理時僅激活 2 個專家,總計約 12.9 億活躍參數,兼顧性能與效率。該模型支持最長 32K token 的上下文處理,在數學、代碼生成和多語言任務中表現優異,性能超過 LLaMA 2 70B 和 GPT-3.5。
Mistral-7B-Instruct-v0.3 是 Mistral AI 于 2024 年 5 月發布的開源指令微調語言模型,擁有 70 億參數,專為對話生成、任務執行和文本創作等場景優化。該模型基于 Mistral-7B-v0.3 架構,采用 Grouped-Query Attention(GQA)機制,支持最長 32K token 的上下文處理,推理速度快,資源效率高。相較于 v0.2 版本,v0.3 擴展了詞匯表至 32,768,支持 v3 分詞器,并引入了函數調用功能,顯著提升了模型的指令跟隨能力和上下文理解能力。
Mistral-7B-Instruct-v0.2 是 Mistral AI 于 2023 年底發布的開源指令微調語言模型,擁有 70 億參數,專為對話生成、任務執行和文本創作等場景優化。該模型基于 Mistral-7B-v0.2 架構,采用 Grouped-Query Attention(GQA)機制,支持最長 32K token 的上下文處理,推理速度快,資源效率高。
LLaMA-2 Chat(13B)是 Meta 于 2023 年 7 月發布的開源對話語言模型,擁有 130 億參數,專為多輪對話和指令跟隨任務優化。該模型采用優化的 Transformer 架構,通過監督微調(SFT)和人類反饋強化學習(RLHF)進行訓練,提升了回答的準確性和安全性。LLaMA-2 Chat 在多個基準測試中表現優異,性能媲美閉源模型,適用于智能助手、內容創作和多語言對話等場景。
LLaMA-2 Chat(7B)是 Meta 于 2023 年 7 月發布的開源對話語言模型,擁有 70 億參數,專為多輪對話和指令跟隨任務優化。該模型采用優化的 Transformer 架構,通過監督微調(SFT)和人類反饋強化學習(RLHF)進行訓練,提升了回答的準確性和安全性。LLaMA-2 Chat 在多個基準測試中表現優異,性能媲美閉源模型,適用于智能助手、內容創作和多語言對話等場景。
Llama 3.3 70B Instruct Turbo 是 Meta 于 2024 年 12 月 6 日發布的高性能指令微調大型語言模型,擁有 700 億參數,專為多語言對話、文本生成和翻譯等任務優化。該模型采用 FP8 量化技術,顯著提升推理速度,在保持高準確率的同時,降低了資源消耗。支持最長 128K token 的上下文處理,覆蓋英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等 8 種語言。
Llama 3 70B Instruct Reference 是 Meta 于 2024 年 4 月 18 日發布的開源大型語言模型,擁有 700 億參數,專為指令跟隨和對話任務優化。該模型采用優化的 Transformer 架構,結合監督微調(SFT)和人類反饋強化學習(RLHF)進行訓練,提升了回答的準確性和安全性。在多個行業基準測試中表現優異,適用于智能助手、內容創作和多語言對話等場景。