語音大模型服務(wù)MiniMax-稀宇科技

語音大模型服務(wù)MiniMax-稀宇科技

專用API
推薦者 推薦者:
【更新時間: 2024.03.22】 依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據(jù)上下文,智能預(yù)測文本的情緒、語調(diào)等信息,并生成超自然、高保真、個性化的語音。
2元/萬字符起 (支持套餐) 去服務(wù)商官網(wǎng)采購>
瀏覽次數(shù)
232
采購人數(shù)
4
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個人&企業(yè)
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是稀宇科技的語音大模型服務(wù)MiniMax?

依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據(jù)上下文,智能預(yù)測文本的情緒、語調(diào)等信息,并生成超自然、高保真、個性化的語音。相較于傳統(tǒng)語音合成技術(shù),MiniMax的語音模型以更精準(zhǔn)、快速的方式,在音質(zhì)、斷句氣口、韻律節(jié)奏等方面達(dá)到以“AI”亂真的合成新高度,為客戶帶來更生動、更具情感表現(xiàn)力的聽覺體驗。

什么是稀宇科技的語音大模型服務(wù)MiniMax接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用稀宇科技的語音大模型服務(wù)MiniMax,從而實現(xiàn)程序的自動化交互,提高服務(wù)效率。

稀宇科技的語音大模型服務(wù)MiniMax有哪些核心功能?

  • 多品質(zhì)音色復(fù)刻
  • 語音在線合成
  • 自動理解文本

稀宇科技的語音大模型服務(wù)MiniMax的核心優(yōu)勢是什么?

  • 高保真、超自然:具備理解人類語言中復(fù)雜含義的能力,包括情感、語氣甚至笑聲,從文本中預(yù)測喜悅、悲傷、憤怒等多維信息,生成更貼合“自然人聲”的語音語調(diào)。在某些情境下,甚至能表現(xiàn)出極具戲劇化的特征,如發(fā)出笑聲等
  • 多樣化、高延展:能在一定量的參數(shù)中學(xué)習(xí)到數(shù)千個聲音的音色特征,并自由組合,生成無限數(shù)量的聲音變體、情感和風(fēng)格,無論是成熟御姐、溫柔女主播,還是青澀男大、穩(wěn)重男主持,亦或是其他風(fēng)格化的音色,都能輕松生成,滿足多元場景需求
  • 低成本、高效率:無需專業(yè)錄音環(huán)境和設(shè)備,我們的快速復(fù)刻服務(wù)可以在極簡的條件下運行,只需提供30秒的錄制音頻,即可完成語音克隆。生成的語音與原音色高度相似,大幅減少時間和資金的投入。

在哪些場景會用到稀宇科技的語音大模型服務(wù)MiniMax?

 

有聲讀物
教育輔助、通勤娛樂、兒童故事、睡前讀物、語言學(xué)習(xí)、專業(yè)培訓(xùn)。
語音助手
智能家居控制、智能客服、語音導(dǎo)航、教育輔助、健康咨詢、信息查詢。
咨詢播報
新聞播報、股市動態(tài)、天氣預(yù)報、交通信息、緊急通知、定時提醒。
IP復(fù)刻
智能客服、個性化內(nèi)容、虛擬主播、品牌代言、教育輔助、娛樂互動。
CV配音
廣告配音、動畫配音、有聲書、電影配音、廣播節(jié)目、語音助手。
 
<
產(chǎn)品價格
>

計費項

接口說明

單價

T2A

支持音量、語調(diào)、語速調(diào)整和混音功能

5元/萬字符

T2A pro

在T2A接口的基礎(chǔ)上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關(guān)參數(shù)調(diào)整特性,支持音頻時長、音頻大小等返回參數(shù),支持字幕返回。

5元/萬字符

T2A large

在T2A接口的基礎(chǔ)上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。

2元/萬字符

T2A stream

支持基于自然語言交互生成回復(fù)的能力,適用于語音通話、語音聊天等需求流式的相關(guān)場景。

5元/萬字符

voice_clone(快速復(fù)刻)

基于大語言模型的音色克隆更加精準(zhǔn)快速,無需數(shù)小時時長的超高質(zhì)量原音頻、無需傳統(tǒng)TTS的超長工期,可以在極短時間內(nèi)完成音色復(fù)刻,并通過大語言模型加持,使復(fù)刻后的音色與原音色進(jìn)行高質(zhì)量還原,從而滿足客戶需求。

本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經(jīng)理或者通過官方郵箱open-platform@minimaxi.com進(jìn)行申請使用。

<
使用指南
>

 

相關(guān)文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20

 

概念說明

 

音頻信息

一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質(zhì)量、兼容性和文件大小。其中最關(guān)鍵的包括:

  • 聲道(Channels): 聲道數(shù)表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環(huán)繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
  • 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進(jìn)的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質(zhì)和兼容性。
  • 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數(shù),單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質(zhì)量音頻的標(biāo)準(zhǔn)采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。

 

音色克隆

音色克隆(TTS,即Text-to-Speech)是人工智能領(lǐng)域的一個子集,它涉及到將文本轉(zhuǎn)換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創(chuàng)建一個數(shù)字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內(nèi)完成特定人的說話方式和聲音特征的復(fù)刻。

 

字幕

在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉(zhuǎn)換生成的文字,它們代表視頻或音頻中人們所說話的內(nèi)容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或?qū)崟r事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。

 

字典

“字典”通常指的是一個音素字典(phonetic dictionary)或發(fā)音字典,這是一種將單詞和短語映射到它們音素或音標(biāo)表示的列表,在中文系統(tǒng)中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發(fā)音的基礎(chǔ)。

MiniMax語音大模型中,古文“將進(jìn)酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發(fā)音的組成部分。

字典幫助模型學(xué)習(xí)如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統(tǒng)會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內(nèi)容。在文本到語音(TTS)系統(tǒng)中,字典用于將文本轉(zhuǎn)換為可以發(fā)聲的音素序列。在某些復(fù)雜的語音系統(tǒng)中,字典也可能包含關(guān)于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規(guī)則發(fā)音特別重要。

<
產(chǎn)品問答
>
?
我是企業(yè)客戶,對MiniMax大模型服務(wù)有些疑問,如何聯(lián)系到你們?
您可以發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
我希望在某某場景中使用到大模型,有沒有相應(yīng)的Demo推薦查看?
您可以在開放平臺-,體驗MiniMax的模型服務(wù),目前開放平臺支持文本、語音兩種模型的體驗。
?
我是微信小程序開發(fā)者,需要對接微信的相關(guān)資質(zhì)信息。
請您發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業(yè)微信二維碼聯(lián)系我們,備注“微信小程序”,我們將盡快為您提供服務(wù)。
?
如何獲知MiniMax開放平臺的最新消息和模型通知?
請關(guān)注開放平臺-文檔中心-,了解開放平臺功能、接口和模型的最新動態(tài)。也可以關(guān)注開放平臺公眾號:MiniMax開放平臺,了解更多MiniMax開放平臺信息。
?
音色克隆服務(wù)如何對接?
目前音色克隆服務(wù)僅通過與銷售一對一溝通的方式提供,您可以在首頁填寫合作咨詢表單,我們的工作人員會盡快與您聯(lián)系。
?
如何收費?定價文檔在哪里?
您可以在開發(fā)平臺-文檔中心- 文檔中查看具體的計費方式,查看價格明細(xì)。
?
個人客戶是否支持付費充值?
MiniMax開放平臺現(xiàn)已支持無企業(yè)資質(zhì)的客戶進(jìn)行認(rèn)證充值。請在開放平臺-用戶中心-?,提交個人認(rèn)證后進(jìn)行充值。
?
充值之后,如何申請發(fā)票?
請?zhí)顚懕韱危覀儾⒉桓鶕?jù)充值金額進(jìn)行開票,我們目前的開票模式是:可開票金額=已消耗金額-已開票金額。
?
為什么我期望的模型反饋和實際反饋不一致?有沒有相關(guān)Prompt的相關(guān)操作指南?
您可以根據(jù),對調(diào)用API時的各項常用參數(shù)進(jìn)行深度了解,以便更高效跑通不同使用場景。如果還有問題,歡迎發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
對于高并發(fā)數(shù)的情況,你們?nèi)绾翁幚恚?
<
關(guān)于我們
>
MiniMax是一家專注于人工智能領(lǐng)域的公司,致力于與用戶共同創(chuàng)造智能。公司提供包括高分辨率視頻生成、音樂生成、大語言模型和語音合成等在內(nèi)的多種AI模型矩陣服務(wù),旨在引領(lǐng)視頻創(chuàng)作和音樂創(chuàng)作的新變革。
聯(lián)系信息
<
最可能同場景使用的其他API
>
API接口列表
<
產(chǎn)品價格
>

計費項

接口說明

單價

T2A

支持音量、語調(diào)、語速調(diào)整和混音功能

5元/萬字符

T2A pro

在T2A接口的基礎(chǔ)上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關(guān)參數(shù)調(diào)整特性,支持音頻時長、音頻大小等返回參數(shù),支持字幕返回。

5元/萬字符

T2A large

在T2A接口的基礎(chǔ)上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。

2元/萬字符

T2A stream

支持基于自然語言交互生成回復(fù)的能力,適用于語音通話、語音聊天等需求流式的相關(guān)場景。

5元/萬字符

voice_clone(快速復(fù)刻)

基于大語言模型的音色克隆更加精準(zhǔn)快速,無需數(shù)小時時長的超高質(zhì)量原音頻、無需傳統(tǒng)TTS的超長工期,可以在極短時間內(nèi)完成音色復(fù)刻,并通過大語言模型加持,使復(fù)刻后的音色與原音色進(jìn)行高質(zhì)量還原,從而滿足客戶需求。

本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經(jīng)理或者通過官方郵箱open-platform@minimaxi.com進(jìn)行申請使用。

<
使用指南
>

 

相關(guān)文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20

 

概念說明

 

音頻信息

一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質(zhì)量、兼容性和文件大小。其中最關(guān)鍵的包括:

  • 聲道(Channels): 聲道數(shù)表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環(huán)繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
  • 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進(jìn)的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質(zhì)和兼容性。
  • 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數(shù),單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質(zhì)量音頻的標(biāo)準(zhǔn)采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。

 

音色克隆

音色克隆(TTS,即Text-to-Speech)是人工智能領(lǐng)域的一個子集,它涉及到將文本轉(zhuǎn)換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創(chuàng)建一個數(shù)字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內(nèi)完成特定人的說話方式和聲音特征的復(fù)刻。

 

字幕

在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉(zhuǎn)換生成的文字,它們代表視頻或音頻中人們所說話的內(nèi)容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或?qū)崟r事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。

 

字典

“字典”通常指的是一個音素字典(phonetic dictionary)或發(fā)音字典,這是一種將單詞和短語映射到它們音素或音標(biāo)表示的列表,在中文系統(tǒng)中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發(fā)音的基礎(chǔ)。

MiniMax語音大模型中,古文“將進(jìn)酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發(fā)音的組成部分。

字典幫助模型學(xué)習(xí)如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統(tǒng)會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內(nèi)容。在文本到語音(TTS)系統(tǒng)中,字典用于將文本轉(zhuǎn)換為可以發(fā)聲的音素序列。在某些復(fù)雜的語音系統(tǒng)中,字典也可能包含關(guān)于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規(guī)則發(fā)音特別重要。

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
我是企業(yè)客戶,對MiniMax大模型服務(wù)有些疑問,如何聯(lián)系到你們?
您可以發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
我希望在某某場景中使用到大模型,有沒有相應(yīng)的Demo推薦查看?
您可以在開放平臺-,體驗MiniMax的模型服務(wù),目前開放平臺支持文本、語音兩種模型的體驗。
?
我是微信小程序開發(fā)者,需要對接微信的相關(guān)資質(zhì)信息。
請您發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業(yè)微信二維碼聯(lián)系我們,備注“微信小程序”,我們將盡快為您提供服務(wù)。
?
如何獲知MiniMax開放平臺的最新消息和模型通知?
請關(guān)注開放平臺-文檔中心-,了解開放平臺功能、接口和模型的最新動態(tài)。也可以關(guān)注開放平臺公眾號:MiniMax開放平臺,了解更多MiniMax開放平臺信息。
?
音色克隆服務(wù)如何對接?
目前音色克隆服務(wù)僅通過與銷售一對一溝通的方式提供,您可以在首頁填寫合作咨詢表單,我們的工作人員會盡快與您聯(lián)系。
?
如何收費?定價文檔在哪里?
您可以在開發(fā)平臺-文檔中心- 文檔中查看具體的計費方式,查看價格明細(xì)。
?
個人客戶是否支持付費充值?
MiniMax開放平臺現(xiàn)已支持無企業(yè)資質(zhì)的客戶進(jìn)行認(rèn)證充值。請在開放平臺-用戶中心-?,提交個人認(rèn)證后進(jìn)行充值。
?
充值之后,如何申請發(fā)票?
請?zhí)顚懕韱危覀儾⒉桓鶕?jù)充值金額進(jìn)行開票,我們目前的開票模式是:可開票金額=已消耗金額-已開票金額。
?
為什么我期望的模型反饋和實際反饋不一致?有沒有相關(guān)Prompt的相關(guān)操作指南?
您可以根據(jù),對調(diào)用API時的各項常用參數(shù)進(jìn)行深度了解,以便更高效跑通不同使用場景。如果還有問題,歡迎發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
對于高并發(fā)數(shù)的情況,你們?nèi)绾翁幚恚?
<
關(guān)于我們
>
MiniMax是一家專注于人工智能領(lǐng)域的公司,致力于與用戶共同創(chuàng)造智能。公司提供包括高分辨率視頻生成、音樂生成、大語言模型和語音合成等在內(nèi)的多種AI模型矩陣服務(wù),旨在引領(lǐng)視頻創(chuàng)作和音樂創(chuàng)作的新變革。
聯(lián)系信息
<
最可能同場景使用的其他API
>