語音大模型服務MiniMax-稀宇科技
專用API
【更新時間: 2024.03.22】
依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據上下文,智能預測文本的情緒、語調等信息,并生成超自然、高保真、個性化的語音。
|
瀏覽次數
233
采購人數
4
試用次數
0
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是稀宇科技的語音大模型服務MiniMax?
依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據上下文,智能預測文本的情緒、語調等信息,并生成超自然、高保真、個性化的語音。相較于傳統語音合成技術,MiniMax的語音模型以更精準、快速的方式,在音質、斷句氣口、韻律節奏等方面達到以“AI”亂真的合成新高度,為客戶帶來更生動、更具情感表現力的聽覺體驗。
什么是稀宇科技的語音大模型服務MiniMax接口?
稀宇科技的語音大模型服務MiniMax有哪些核心功能?
-
多品質音色復刻
-
語音在線合成
-
自動理解文本
稀宇科技的語音大模型服務MiniMax的核心優勢是什么?
- 高保真、超自然:具備理解人類語言中復雜含義的能力,包括情感、語氣甚至笑聲,從文本中預測喜悅、悲傷、憤怒等多維信息,生成更貼合“自然人聲”的語音語調。在某些情境下,甚至能表現出極具戲劇化的特征,如發出笑聲等
- 多樣化、高延展:能在一定量的參數中學習到數千個聲音的音色特征,并自由組合,生成無限數量的聲音變體、情感和風格,無論是成熟御姐、溫柔女主播,還是青澀男大、穩重男主持,亦或是其他風格化的音色,都能輕松生成,滿足多元場景需求
- 低成本、高效率:無需專業錄音環境和設備,我們的快速復刻服務可以在極簡的條件下運行,只需提供30秒的錄制音頻,即可完成語音克隆。生成的語音與原音色高度相似,大幅減少時間和資金的投入。
在哪些場景會用到稀宇科技的語音大模型服務MiniMax?
有聲讀物
|
語音助手
|
咨詢播報
|
IP復刻
|
CV配音
|


計費項 |
接口說明 |
單價 |
T2A |
支持音量、語調、語速調整和混音功能 |
5元/萬字符 |
T2A pro |
在T2A接口的基礎上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關參數調整特性,支持音頻時長、音頻大小等返回參數,支持字幕返回。 |
5元/萬字符 |
T2A large |
在T2A接口的基礎上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。 |
2元/萬字符 |
T2A stream |
支持基于自然語言交互生成回復的能力,適用于語音通話、語音聊天等需求流式的相關場景。 |
5元/萬字符 |
voice_clone(快速復刻) |
基于大語言模型的音色克隆更加精準快速,無需數小時時長的超高質量原音頻、無需傳統TTS的超長工期,可以在極短時間內完成音色復刻,并通過大語言模型加持,使復刻后的音色與原音色進行高質量還原,從而滿足客戶需求。 |
本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經理或者通過官方郵箱open-platform@minimaxi.com進行申請使用。 |


相關文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20
概念說明
音頻信息
一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質量、兼容性和文件大小。其中最關鍵的包括:
- 聲道(Channels): 聲道數表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
- 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質和兼容性。
- 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數,單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質量音頻的標準采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。
音色克隆
音色克隆(TTS,即Text-to-Speech)是人工智能領域的一個子集,它涉及到將文本轉換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創建一個數字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內完成特定人的說話方式和聲音特征的復刻。
字幕
在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉換生成的文字,它們代表視頻或音頻中人們所說話的內容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或實時事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。
字典
“字典”通常指的是一個音素字典(phonetic dictionary)或發音字典,這是一種將單詞和短語映射到它們音素或音標表示的列表,在中文系統中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發音的基礎。
MiniMax語音大模型中,古文“將進酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發音的組成部分。
字典幫助模型學習如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內容。在文本到語音(TTS)系統中,字典用于將文本轉換為可以發聲的音素序列。在某些復雜的語音系統中,字典也可能包含關于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規則發音特別重要。






計費項 |
接口說明 |
單價 |
T2A |
支持音量、語調、語速調整和混音功能 |
5元/萬字符 |
T2A pro |
在T2A接口的基礎上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關參數調整特性,支持音頻時長、音頻大小等返回參數,支持字幕返回。 |
5元/萬字符 |
T2A large |
在T2A接口的基礎上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。 |
2元/萬字符 |
T2A stream |
支持基于自然語言交互生成回復的能力,適用于語音通話、語音聊天等需求流式的相關場景。 |
5元/萬字符 |
voice_clone(快速復刻) |
基于大語言模型的音色克隆更加精準快速,無需數小時時長的超高質量原音頻、無需傳統TTS的超長工期,可以在極短時間內完成音色復刻,并通過大語言模型加持,使復刻后的音色與原音色進行高質量還原,從而滿足客戶需求。 |
本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經理或者通過官方郵箱open-platform@minimaxi.com進行申請使用。 |


相關文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20
概念說明
音頻信息
一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質量、兼容性和文件大小。其中最關鍵的包括:
- 聲道(Channels): 聲道數表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
- 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質和兼容性。
- 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數,單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質量音頻的標準采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。
音色克隆
音色克隆(TTS,即Text-to-Speech)是人工智能領域的一個子集,它涉及到將文本轉換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創建一個數字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內完成特定人的說話方式和聲音特征的復刻。
字幕
在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉換生成的文字,它們代表視頻或音頻中人們所說話的內容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或實時事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。
字典
“字典”通常指的是一個音素字典(phonetic dictionary)或發音字典,這是一種將單詞和短語映射到它們音素或音標表示的列表,在中文系統中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發音的基礎。
MiniMax語音大模型中,古文“將進酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發音的組成部分。
字典幫助模型學習如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內容。在文本到語音(TTS)系統中,字典用于將文本轉換為可以發聲的音素序列。在某些復雜的語音系統中,字典也可能包含關于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規則發音特別重要。





