語音大模型服務(wù)MiniMax-稀宇科技
專用API
【更新時間: 2024.03.22】
依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據(jù)上下文,智能預(yù)測文本的情緒、語調(diào)等信息,并生成超自然、高保真、個性化的語音。
|
瀏覽次數(shù)
232
采購人數(shù)
4
試用次數(shù)
0
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是稀宇科技的語音大模型服務(wù)MiniMax?
依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據(jù)上下文,智能預(yù)測文本的情緒、語調(diào)等信息,并生成超自然、高保真、個性化的語音。相較于傳統(tǒng)語音合成技術(shù),MiniMax的語音模型以更精準(zhǔn)、快速的方式,在音質(zhì)、斷句氣口、韻律節(jié)奏等方面達(dá)到以“AI”亂真的合成新高度,為客戶帶來更生動、更具情感表現(xiàn)力的聽覺體驗。
什么是稀宇科技的語音大模型服務(wù)MiniMax接口?
稀宇科技的語音大模型服務(wù)MiniMax有哪些核心功能?
-
多品質(zhì)音色復(fù)刻
-
語音在線合成
-
自動理解文本
稀宇科技的語音大模型服務(wù)MiniMax的核心優(yōu)勢是什么?
- 高保真、超自然:具備理解人類語言中復(fù)雜含義的能力,包括情感、語氣甚至笑聲,從文本中預(yù)測喜悅、悲傷、憤怒等多維信息,生成更貼合“自然人聲”的語音語調(diào)。在某些情境下,甚至能表現(xiàn)出極具戲劇化的特征,如發(fā)出笑聲等
- 多樣化、高延展:能在一定量的參數(shù)中學(xué)習(xí)到數(shù)千個聲音的音色特征,并自由組合,生成無限數(shù)量的聲音變體、情感和風(fēng)格,無論是成熟御姐、溫柔女主播,還是青澀男大、穩(wěn)重男主持,亦或是其他風(fēng)格化的音色,都能輕松生成,滿足多元場景需求
- 低成本、高效率:無需專業(yè)錄音環(huán)境和設(shè)備,我們的快速復(fù)刻服務(wù)可以在極簡的條件下運行,只需提供30秒的錄制音頻,即可完成語音克隆。生成的語音與原音色高度相似,大幅減少時間和資金的投入。
在哪些場景會用到稀宇科技的語音大模型服務(wù)MiniMax?
有聲讀物
|
語音助手
|
咨詢播報
|
IP復(fù)刻
|
CV配音
|


計費項 |
接口說明 |
單價 |
T2A |
支持音量、語調(diào)、語速調(diào)整和混音功能 |
5元/萬字符 |
T2A pro |
在T2A接口的基礎(chǔ)上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關(guān)參數(shù)調(diào)整特性,支持音頻時長、音頻大小等返回參數(shù),支持字幕返回。 |
5元/萬字符 |
T2A large |
在T2A接口的基礎(chǔ)上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。 |
2元/萬字符 |
T2A stream |
支持基于自然語言交互生成回復(fù)的能力,適用于語音通話、語音聊天等需求流式的相關(guān)場景。 |
5元/萬字符 |
voice_clone(快速復(fù)刻) |
基于大語言模型的音色克隆更加精準(zhǔn)快速,無需數(shù)小時時長的超高質(zhì)量原音頻、無需傳統(tǒng)TTS的超長工期,可以在極短時間內(nèi)完成音色復(fù)刻,并通過大語言模型加持,使復(fù)刻后的音色與原音色進(jìn)行高質(zhì)量還原,從而滿足客戶需求。 |
本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經(jīng)理或者通過官方郵箱open-platform@minimaxi.com進(jìn)行申請使用。 |


相關(guān)文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20
概念說明
音頻信息
一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質(zhì)量、兼容性和文件大小。其中最關(guān)鍵的包括:
- 聲道(Channels): 聲道數(shù)表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環(huán)繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
- 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進(jìn)的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質(zhì)和兼容性。
- 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數(shù),單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質(zhì)量音頻的標(biāo)準(zhǔn)采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。
音色克隆
音色克隆(TTS,即Text-to-Speech)是人工智能領(lǐng)域的一個子集,它涉及到將文本轉(zhuǎn)換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創(chuàng)建一個數(shù)字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內(nèi)完成特定人的說話方式和聲音特征的復(fù)刻。
字幕
在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉(zhuǎn)換生成的文字,它們代表視頻或音頻中人們所說話的內(nèi)容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或?qū)崟r事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。
字典
“字典”通常指的是一個音素字典(phonetic dictionary)或發(fā)音字典,這是一種將單詞和短語映射到它們音素或音標(biāo)表示的列表,在中文系統(tǒng)中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發(fā)音的基礎(chǔ)。
MiniMax語音大模型中,古文“將進(jìn)酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發(fā)音的組成部分。
字典幫助模型學(xué)習(xí)如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統(tǒng)會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內(nèi)容。在文本到語音(TTS)系統(tǒng)中,字典用于將文本轉(zhuǎn)換為可以發(fā)聲的音素序列。在某些復(fù)雜的語音系統(tǒng)中,字典也可能包含關(guān)于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規(guī)則發(fā)音特別重要。






計費項 |
接口說明 |
單價 |
T2A |
支持音量、語調(diào)、語速調(diào)整和混音功能 |
5元/萬字符 |
T2A pro |
在T2A接口的基礎(chǔ)上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關(guān)參數(shù)調(diào)整特性,支持音頻時長、音頻大小等返回參數(shù),支持字幕返回。 |
5元/萬字符 |
T2A large |
在T2A接口的基礎(chǔ)上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。 |
2元/萬字符 |
T2A stream |
支持基于自然語言交互生成回復(fù)的能力,適用于語音通話、語音聊天等需求流式的相關(guān)場景。 |
5元/萬字符 |
voice_clone(快速復(fù)刻) |
基于大語言模型的音色克隆更加精準(zhǔn)快速,無需數(shù)小時時長的超高質(zhì)量原音頻、無需傳統(tǒng)TTS的超長工期,可以在極短時間內(nèi)完成音色復(fù)刻,并通過大語言模型加持,使復(fù)刻后的音色與原音色進(jìn)行高質(zhì)量還原,從而滿足客戶需求。 |
本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經(jīng)理或者通過官方郵箱open-platform@minimaxi.com進(jìn)行申請使用。 |


相關(guān)文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20
概念說明
音頻信息
一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質(zhì)量、兼容性和文件大小。其中最關(guān)鍵的包括:
- 聲道(Channels): 聲道數(shù)表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環(huán)繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
- 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進(jìn)的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質(zhì)和兼容性。
- 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數(shù),單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質(zhì)量音頻的標(biāo)準(zhǔn)采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。
音色克隆
音色克隆(TTS,即Text-to-Speech)是人工智能領(lǐng)域的一個子集,它涉及到將文本轉(zhuǎn)換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創(chuàng)建一個數(shù)字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內(nèi)完成特定人的說話方式和聲音特征的復(fù)刻。
字幕
在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉(zhuǎn)換生成的文字,它們代表視頻或音頻中人們所說話的內(nèi)容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或?qū)崟r事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。
字典
“字典”通常指的是一個音素字典(phonetic dictionary)或發(fā)音字典,這是一種將單詞和短語映射到它們音素或音標(biāo)表示的列表,在中文系統(tǒng)中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發(fā)音的基礎(chǔ)。
MiniMax語音大模型中,古文“將進(jìn)酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發(fā)音的組成部分。
字典幫助模型學(xué)習(xí)如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統(tǒng)會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內(nèi)容。在文本到語音(TTS)系統(tǒng)中,字典用于將文本轉(zhuǎn)換為可以發(fā)聲的音素序列。在某些復(fù)雜的語音系統(tǒng)中,字典也可能包含關(guān)于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規(guī)則發(fā)音特別重要。





