隨著AI Agent的興起,2025年被視為Agent快速發(fā)展的關(guān)鍵年份。無論是單Agent還是多Agent系統(tǒng),都需要更長的上下文來支持持續(xù)記憶和大量通信。MiniMax-01系列模型的推出正是為了滿足這一需求,為復(fù)雜Agent基礎(chǔ)能力的建立邁出重要一步。

MiniMax模型的創(chuàng)新亮點(diǎn)

MiniMax-01系列模型的創(chuàng)新體現(xiàn)在多個(gè)方面。首先是其高達(dá)4560億的參數(shù)量和線性注意力機(jī)制的首次大規(guī)模應(yīng)用。這使得MiniMax在處理長輸入時(shí)的效率極高,接近線性復(fù)雜度,能夠高效處理長達(dá)400萬token的上下文,是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

MiniMax模型的創(chuàng)新架構(gòu)

為了實(shí)現(xiàn)這一突破,MiniMax在Scaling Law、與MoE結(jié)合、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等方面進(jìn)行了綜合考量,并重構(gòu)了訓(xùn)練和推理系統(tǒng),包括更高效的MoE All-to-all通訊優(yōu)化、更長序列優(yōu)化以及推理層面的線性注意力的高效Kernel實(shí)現(xiàn)。

MiniMax-Text-01的性能表現(xiàn)

在業(yè)界主流的文本和多模態(tài)理解測評(píng)中,MiniMax-01系列在多數(shù)任務(wù)上追平了海外公認(rèn)的先進(jìn)模型,如GPT-4o-1120和Claude-3.5-Sonnet-1022。尤其是在長文任務(wù)上,MiniMax-Text-01隨著輸入長度增加,性能衰減最慢,顯著優(yōu)于Google的Gemini模型。

MiniMax-Text-01性能對(duì)比

MiniMax的模型在處理長輸入時(shí)效率極高,接近線性復(fù)雜度。其結(jié)構(gòu)設(shè)計(jì)中,每8層中有7層采用基于Lightning Attention的線性注意力,1層采用傳統(tǒng)SoftMax注意力。這是業(yè)內(nèi)首次將線性注意力機(jī)制擴(kuò)展到商用模型級(jí)別。

MiniMax-VL-01的多模態(tài)理解能力

MiniMax還開發(fā)了一個(gè)多模態(tài)版本:MiniMax-VL-01,其整體架構(gòu)符合比較常見的ViT-MLP-LLM范式。在文本模型的基礎(chǔ)上整合了一個(gè)圖像編碼器和一個(gè)圖像適配器,以將圖像轉(zhuǎn)換成LLM能夠理解的token形式。

MiniMax-VL-01多模態(tài)模型

為了確保MiniMax-VL-01的視覺理解能力,MiniMax設(shè)計(jì)了一個(gè)專有數(shù)據(jù)集,并實(shí)現(xiàn)了一個(gè)多階段訓(xùn)練策略。最終,MiniMax-VL-01在各個(gè)基準(zhǔn)上表現(xiàn)出色,在某些指標(biāo)上達(dá)到最佳。

MiniMax的經(jīng)濟(jì)性與開放性

得益于架構(gòu)創(chuàng)新、效率優(yōu)化和集群訓(xùn)推一體設(shè)計(jì),MiniMax能夠以業(yè)內(nèi)最低的價(jià)格區(qū)間提供文本和多模態(tài)理解的API服務(wù)。標(biāo)準(zhǔn)定價(jià)為輸入token1元/百萬token,輸出token8元/百萬token。MiniMax開放平臺(tái)及海外版已上線,供開發(fā)者體驗(yàn)使用。

MiniMax開放平臺(tái)

MiniMax-01系列模型已在GitHub開源,并將持續(xù)更新。開發(fā)者可以通過GitHub訪問開源代碼:MiniMax開源地址

MiniMax的未來發(fā)展

MiniMax團(tuán)隊(duì)表示,他們正在研究更高效的架構(gòu),以完全消除SoftMax注意力,這可能使模型能夠支持無限的上下文窗口,而不會(huì)帶來計(jì)算開銷。除此之外,MiniMax還在LLM的基礎(chǔ)上訓(xùn)練的視覺語言模型,同樣擁有超長的上下文窗口。這也是由Agent所面臨的任務(wù)所決定的。

MiniMax未來方向

MiniMax創(chuàng)始人在去年的一次活動(dòng)中提到:「我們認(rèn)為下一代人工智能是無限接近通過圖靈測試的智能體,交互自然,觸手可及,無處不在。」

MiniMax微調(diào)方法的應(yīng)用

Lightning Attention的技術(shù)細(xì)節(jié)

Lightning Attention是MiniMax在優(yōu)化Transformer自注意力機(jī)制方面的重大突破。通過使用這種線性注意力,原生Transformer的計(jì)算復(fù)雜度從二次復(fù)雜度大幅下降到線性復(fù)雜度,這主要得益于一種右邊積核技巧(right product kernel trick)。

Lightning Attention技術(shù)細(xì)節(jié)

混合專家架構(gòu)的優(yōu)勢

混合專家(MoE)相對(duì)于密集模型的效率優(yōu)勢已經(jīng)得到了大量研究證明。MiniMax團(tuán)隊(duì)同樣通過實(shí)驗(yàn)驗(yàn)證了這一點(diǎn),其MoE架構(gòu)在多種基準(zhǔn)上表現(xiàn)優(yōu)于密集模型。

混合專家架構(gòu)的優(yōu)勢

長上下文處理的優(yōu)化

為了更好地處理長上下文,MiniMax采用了數(shù)據(jù)格式化技術(shù),即將不同樣本沿序列的維度首尾相連,減少計(jì)算浪費(fèi)。這種方法被稱為data-packing,是優(yōu)化長上下文訓(xùn)練的關(guān)鍵所在。

長上下文處理的優(yōu)化

跨步分批矩陣乘法擴(kuò)展

MiniMax在實(shí)踐中應(yīng)用了包括分批核融合、分離式的預(yù)填充與解碼執(zhí)行、多級(jí)填充、跨步分批矩陣乘法擴(kuò)展等四項(xiàng)優(yōu)化策略,以將Lightning Attention投入實(shí)際應(yīng)用。

跨步分批矩陣乘法擴(kuò)展

FAQ

問:MiniMax-01系列模型的主要?jiǎng)?chuàng)新點(diǎn)是什么?

答:MiniMax-01系列模型在架構(gòu)上首次大規(guī)模應(yīng)用了線性注意力機(jī)制,能夠處理長達(dá)400萬token的上下文,是其他模型的20-32倍。

問:MiniMax如何優(yōu)化長上下文處理?

答:MiniMax采用了數(shù)據(jù)格式化技術(shù),將不同樣本沿序列的維度首尾相連,減少計(jì)算浪費(fèi),并使用Lightning Attention降低計(jì)算復(fù)雜度。

問:MiniMax開放平臺(tái)的定價(jià)如何?

答:MiniMax提供業(yè)內(nèi)最低的價(jià)格區(qū)間,輸入token1元/百萬token,輸出token8元/百萬token。

問:MiniMax-VL-01的多模態(tài)理解能力如何?

答:MiniMax-VL-01在各個(gè)基準(zhǔn)上表現(xiàn)出色,其整體架構(gòu)符合ViT-MLP-LLM范式,能夠處理多模態(tài)任務(wù)。

問:未來MiniMax的研究方向是什么?

答:MiniMax正在研究更高效的架構(gòu),以完全消除SoftMax注意力,實(shí)現(xiàn)支持無限上下文窗口的模型。

上一篇:

引領(lǐng)AI視頻合成新篇章:Stable Video Diffusion API 購買指南

下一篇:

Firstup API接口詳解:構(gòu)建高效的企業(yè)通信平臺(tái)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)