語音大模型服務(wù)MiniMax-稀宇科技

語音大模型服務(wù)MiniMax-稀宇科技

專用API
推薦者 推薦者:
【更新時(shí)間: 2024.03.22】 依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據(jù)上下文,智能預(yù)測(cè)文本的情緒、語調(diào)等信息,并生成超自然、高保真、個(gè)性化的語音。
2元/萬字符起 (支持套餐) 去服務(wù)商官網(wǎng)采購>
瀏覽次數(shù)
233
采購人數(shù)
4
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個(gè)人&企業(yè)
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是稀宇科技的語音大模型服務(wù)MiniMax?

依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據(jù)上下文,智能預(yù)測(cè)文本的情緒、語調(diào)等信息,并生成超自然、高保真、個(gè)性化的語音。相較于傳統(tǒng)語音合成技術(shù),MiniMax的語音模型以更精準(zhǔn)、快速的方式,在音質(zhì)、斷句氣口、韻律節(jié)奏等方面達(dá)到以“AI”亂真的合成新高度,為客戶帶來更生動(dòng)、更具情感表現(xiàn)力的聽覺體驗(yàn)。

什么是稀宇科技的語音大模型服務(wù)MiniMax接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用稀宇科技的語音大模型服務(wù)MiniMax,從而實(shí)現(xiàn)程序的自動(dòng)化交互,提高服務(wù)效率。

稀宇科技的語音大模型服務(wù)MiniMax有哪些核心功能?

  • 多品質(zhì)音色復(fù)刻
  • 語音在線合成
  • 自動(dòng)理解文本

稀宇科技的語音大模型服務(wù)MiniMax的核心優(yōu)勢(shì)是什么?

  • 高保真、超自然:具備理解人類語言中復(fù)雜含義的能力,包括情感、語氣甚至笑聲,從文本中預(yù)測(cè)喜悅、悲傷、憤怒等多維信息,生成更貼合“自然人聲”的語音語調(diào)。在某些情境下,甚至能表現(xiàn)出極具戲劇化的特征,如發(fā)出笑聲等
  • 多樣化、高延展:能在一定量的參數(shù)中學(xué)習(xí)到數(shù)千個(gè)聲音的音色特征,并自由組合,生成無限數(shù)量的聲音變體、情感和風(fēng)格,無論是成熟御姐、溫柔女主播,還是青澀男大、穩(wěn)重男主持,亦或是其他風(fēng)格化的音色,都能輕松生成,滿足多元場(chǎng)景需求
  • 低成本、高效率:無需專業(yè)錄音環(huán)境和設(shè)備,我們的快速復(fù)刻服務(wù)可以在極簡(jiǎn)的條件下運(yùn)行,只需提供30秒的錄制音頻,即可完成語音克隆。生成的語音與原音色高度相似,大幅減少時(shí)間和資金的投入。

在哪些場(chǎng)景會(huì)用到稀宇科技的語音大模型服務(wù)MiniMax?

 

有聲讀物
教育輔助、通勤娛樂、兒童故事、睡前讀物、語言學(xué)習(xí)、專業(yè)培訓(xùn)。
語音助手
智能家居控制、智能客服、語音導(dǎo)航、教育輔助、健康咨詢、信息查詢。
咨詢播報(bào)
新聞播報(bào)、股市動(dòng)態(tài)、天氣預(yù)報(bào)、交通信息、緊急通知、定時(shí)提醒。
IP復(fù)刻
智能客服、個(gè)性化內(nèi)容、虛擬主播、品牌代言、教育輔助、娛樂互動(dòng)。
CV配音
廣告配音、動(dòng)畫配音、有聲書、電影配音、廣播節(jié)目、語音助手。
 
<
產(chǎn)品價(jià)格
>

計(jì)費(fèi)項(xiàng)

接口說明

單價(jià)

T2A

支持音量、語調(diào)、語速調(diào)整和混音功能

5元/萬字符

T2A pro

在T2A接口的基礎(chǔ)上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關(guān)參數(shù)調(diào)整特性,支持音頻時(shí)長、音頻大小等返回參數(shù),支持字幕返回。

5元/萬字符

T2A large

在T2A接口的基礎(chǔ)上,支持單次合成最高1000萬字符輸入,支持非法字符檢測(cè)等功能,適用于整本書籍語音合成的超長文本場(chǎng)景。

2元/萬字符

T2A stream

支持基于自然語言交互生成回復(fù)的能力,適用于語音通話、語音聊天等需求流式的相關(guān)場(chǎng)景。

5元/萬字符

voice_clone(快速復(fù)刻)

基于大語言模型的音色克隆更加精準(zhǔn)快速,無需數(shù)小時(shí)時(shí)長的超高質(zhì)量原音頻、無需傳統(tǒng)TTS的超長工期,可以在極短時(shí)間內(nèi)完成音色復(fù)刻,并通過大語言模型加持,使復(fù)刻后的音色與原音色進(jìn)行高質(zhì)量還原,從而滿足客戶需求。

本接口暫時(shí)只提供邀請(qǐng)制客戶使用,有使用需求的客戶可以通過客戶經(jīng)理或者通過官方郵箱open-platform@minimaxi.com進(jìn)行申請(qǐng)使用。

<
使用指南
>

 

相關(guān)文檔請(qǐng)查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20

 

概念說明

 

音頻信息

一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質(zhì)量、兼容性和文件大小。其中最關(guān)鍵的包括:

  • 聲道(Channels): 聲道數(shù)表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環(huán)繞聲)。單聲道有一個(gè)音頻信號(hào),雙聲道有兩個(gè)獨(dú)立信號(hào),為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗(yàn)。
  • 格式(Format): 音頻格式定義了音頻文件的存儲(chǔ)方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對(duì)較小)、AAC(先進(jìn)的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質(zhì)和兼容性。
  • 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數(shù),單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質(zhì)量音頻的標(biāo)準(zhǔn)采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會(huì)更大。

 

音色克隆

音色克隆(TTS,即Text-to-Speech)是人工智能領(lǐng)域的一個(gè)子集,它涉及到將文本轉(zhuǎn)換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創(chuàng)建一個(gè)數(shù)字化的聲音模型,這個(gè)模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡(jiǎn)而言之,音色克隆可以在極短時(shí)間內(nèi)完成特定人的說話方式和聲音特征的復(fù)刻。

 

字幕

在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動(dòng)轉(zhuǎn)換生成的文字,它們代表視頻或音頻中人們所說話的內(nèi)容,這個(gè)過程通常被稱為自動(dòng)語音識(shí)別(ASR)。在視頻流或?qū)崟r(shí)事件中,這些生成的文字就是字幕,它們可以實(shí)時(shí)顯示在屏幕上。

 

字典

“字典”通常指的是一個(gè)音素字典(phonetic dictionary)或發(fā)音字典,這是一種將單詞和短語映射到它們音素或音標(biāo)表示的列表,在中文系統(tǒng)中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發(fā)音的基礎(chǔ)。

MiniMax語音大模型中,古文“將進(jìn)酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發(fā)音的組成部分。

字典幫助模型學(xué)習(xí)如何正確地將文本映射到語音。在自動(dòng)語音識(shí)別(ASR)中,系統(tǒng)會(huì)嘗試將聽到的語音與字典中的音素模式相匹配,以此識(shí)別出說話內(nèi)容。在文本到語音(TTS)系統(tǒng)中,字典用于將文本轉(zhuǎn)換為可以發(fā)聲的音素序列。在某些復(fù)雜的語音系統(tǒng)中,字典也可能包含關(guān)于詞匯的語音變化信息,這對(duì)于處理不同口音、語速變化以及語言中的不規(guī)則發(fā)音特別重要。

<
產(chǎn)品問答
>
?
我是企業(yè)客戶,對(duì)MiniMax大模型服務(wù)有些疑問,如何聯(lián)系到你們?
您可以發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺(tái)底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
我希望在某某場(chǎng)景中使用到大模型,有沒有相應(yīng)的Demo推薦查看?
您可以在開放平臺(tái)-,體驗(yàn)MiniMax的模型服務(wù),目前開放平臺(tái)支持文本、語音兩種模型的體驗(yàn)。
?
我是微信小程序開發(fā)者,需要對(duì)接微信的相關(guān)資質(zhì)信息。
請(qǐng)您發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺(tái)底部企業(yè)微信二維碼聯(lián)系我們,備注“微信小程序”,我們將盡快為您提供服務(wù)。
?
如何獲知MiniMax開放平臺(tái)的最新消息和模型通知?
請(qǐng)關(guān)注開放平臺(tái)-文檔中心-,了解開放平臺(tái)功能、接口和模型的最新動(dòng)態(tài)。也可以關(guān)注開放平臺(tái)公眾號(hào):MiniMax開放平臺(tái),了解更多MiniMax開放平臺(tái)信息。
?
音色克隆服務(wù)如何對(duì)接?
目前音色克隆服務(wù)僅通過與銷售一對(duì)一溝通的方式提供,您可以在首頁填寫合作咨詢表單,我們的工作人員會(huì)盡快與您聯(lián)系。
?
如何收費(fèi)?定價(jià)文檔在哪里?
您可以在開發(fā)平臺(tái)-文檔中心- 文檔中查看具體的計(jì)費(fèi)方式,查看價(jià)格明細(xì)。
?
個(gè)人客戶是否支持付費(fèi)充值?
MiniMax開放平臺(tái)現(xiàn)已支持無企業(yè)資質(zhì)的客戶進(jìn)行認(rèn)證充值。請(qǐng)?jiān)陂_放平臺(tái)-用戶中心-?,提交個(gè)人認(rèn)證后進(jìn)行充值。
?
充值之后,如何申請(qǐng)發(fā)票?
請(qǐng)?zhí)顚懕韱危覀儾⒉桓鶕?jù)充值金額進(jìn)行開票,我們目前的開票模式是:可開票金額=已消耗金額-已開票金額。
?
為什么我期望的模型反饋和實(shí)際反饋不一致?有沒有相關(guān)Prompt的相關(guān)操作指南?
您可以根據(jù),對(duì)調(diào)用API時(shí)的各項(xiàng)常用參數(shù)進(jìn)行深度了解,以便更高效跑通不同使用場(chǎng)景。如果還有問題,歡迎發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺(tái)底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
對(duì)于高并發(fā)數(shù)的情況,你們?nèi)绾翁幚恚?
<
關(guān)于我們
>
MiniMax是一家專注于人工智能領(lǐng)域的公司,致力于與用戶共同創(chuàng)造智能。公司提供包括高分辨率視頻生成、音樂生成、大語言模型和語音合成等在內(nèi)的多種AI模型矩陣服務(wù),旨在引領(lǐng)視頻創(chuàng)作和音樂創(chuàng)作的新變革。
聯(lián)系信息
<
最可能同場(chǎng)景使用的其他API
>
API接口列表
<
產(chǎn)品價(jià)格
>

計(jì)費(fèi)項(xiàng)

接口說明

單價(jià)

T2A

支持音量、語調(diào)、語速調(diào)整和混音功能

5元/萬字符

T2A pro

在T2A接口的基礎(chǔ)上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關(guān)參數(shù)調(diào)整特性,支持音頻時(shí)長、音頻大小等返回參數(shù),支持字幕返回。

5元/萬字符

T2A large

在T2A接口的基礎(chǔ)上,支持單次合成最高1000萬字符輸入,支持非法字符檢測(cè)等功能,適用于整本書籍語音合成的超長文本場(chǎng)景。

2元/萬字符

T2A stream

支持基于自然語言交互生成回復(fù)的能力,適用于語音通話、語音聊天等需求流式的相關(guān)場(chǎng)景。

5元/萬字符

voice_clone(快速復(fù)刻)

基于大語言模型的音色克隆更加精準(zhǔn)快速,無需數(shù)小時(shí)時(shí)長的超高質(zhì)量原音頻、無需傳統(tǒng)TTS的超長工期,可以在極短時(shí)間內(nèi)完成音色復(fù)刻,并通過大語言模型加持,使復(fù)刻后的音色與原音色進(jìn)行高質(zhì)量還原,從而滿足客戶需求。

本接口暫時(shí)只提供邀請(qǐng)制客戶使用,有使用需求的客戶可以通過客戶經(jīng)理或者通過官方郵箱open-platform@minimaxi.com進(jìn)行申請(qǐng)使用。

<
使用指南
>

 

相關(guān)文檔請(qǐng)查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20

 

概念說明

 

音頻信息

一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質(zhì)量、兼容性和文件大小。其中最關(guān)鍵的包括:

  • 聲道(Channels): 聲道數(shù)表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環(huán)繞聲)。單聲道有一個(gè)音頻信號(hào),雙聲道有兩個(gè)獨(dú)立信號(hào),為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗(yàn)。
  • 格式(Format): 音頻格式定義了音頻文件的存儲(chǔ)方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對(duì)較小)、AAC(先進(jìn)的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質(zhì)和兼容性。
  • 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數(shù),單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質(zhì)量音頻的標(biāo)準(zhǔn)采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會(huì)更大。

 

音色克隆

音色克隆(TTS,即Text-to-Speech)是人工智能領(lǐng)域的一個(gè)子集,它涉及到將文本轉(zhuǎn)換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創(chuàng)建一個(gè)數(shù)字化的聲音模型,這個(gè)模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡(jiǎn)而言之,音色克隆可以在極短時(shí)間內(nèi)完成特定人的說話方式和聲音特征的復(fù)刻。

 

字幕

在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動(dòng)轉(zhuǎn)換生成的文字,它們代表視頻或音頻中人們所說話的內(nèi)容,這個(gè)過程通常被稱為自動(dòng)語音識(shí)別(ASR)。在視頻流或?qū)崟r(shí)事件中,這些生成的文字就是字幕,它們可以實(shí)時(shí)顯示在屏幕上。

 

字典

“字典”通常指的是一個(gè)音素字典(phonetic dictionary)或發(fā)音字典,這是一種將單詞和短語映射到它們音素或音標(biāo)表示的列表,在中文系統(tǒng)中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發(fā)音的基礎(chǔ)。

MiniMax語音大模型中,古文“將進(jìn)酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發(fā)音的組成部分。

字典幫助模型學(xué)習(xí)如何正確地將文本映射到語音。在自動(dòng)語音識(shí)別(ASR)中,系統(tǒng)會(huì)嘗試將聽到的語音與字典中的音素模式相匹配,以此識(shí)別出說話內(nèi)容。在文本到語音(TTS)系統(tǒng)中,字典用于將文本轉(zhuǎn)換為可以發(fā)聲的音素序列。在某些復(fù)雜的語音系統(tǒng)中,字典也可能包含關(guān)于詞匯的語音變化信息,這對(duì)于處理不同口音、語速變化以及語言中的不規(guī)則發(fā)音特別重要。

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
我是企業(yè)客戶,對(duì)MiniMax大模型服務(wù)有些疑問,如何聯(lián)系到你們?
您可以發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺(tái)底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
我希望在某某場(chǎng)景中使用到大模型,有沒有相應(yīng)的Demo推薦查看?
您可以在開放平臺(tái)-,體驗(yàn)MiniMax的模型服務(wù),目前開放平臺(tái)支持文本、語音兩種模型的體驗(yàn)。
?
我是微信小程序開發(fā)者,需要對(duì)接微信的相關(guān)資質(zhì)信息。
請(qǐng)您發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺(tái)底部企業(yè)微信二維碼聯(lián)系我們,備注“微信小程序”,我們將盡快為您提供服務(wù)。
?
如何獲知MiniMax開放平臺(tái)的最新消息和模型通知?
請(qǐng)關(guān)注開放平臺(tái)-文檔中心-,了解開放平臺(tái)功能、接口和模型的最新動(dòng)態(tài)。也可以關(guān)注開放平臺(tái)公眾號(hào):MiniMax開放平臺(tái),了解更多MiniMax開放平臺(tái)信息。
?
音色克隆服務(wù)如何對(duì)接?
目前音色克隆服務(wù)僅通過與銷售一對(duì)一溝通的方式提供,您可以在首頁填寫合作咨詢表單,我們的工作人員會(huì)盡快與您聯(lián)系。
?
如何收費(fèi)?定價(jià)文檔在哪里?
您可以在開發(fā)平臺(tái)-文檔中心- 文檔中查看具體的計(jì)費(fèi)方式,查看價(jià)格明細(xì)。
?
個(gè)人客戶是否支持付費(fèi)充值?
MiniMax開放平臺(tái)現(xiàn)已支持無企業(yè)資質(zhì)的客戶進(jìn)行認(rèn)證充值。請(qǐng)?jiān)陂_放平臺(tái)-用戶中心-?,提交個(gè)人認(rèn)證后進(jìn)行充值。
?
充值之后,如何申請(qǐng)發(fā)票?
請(qǐng)?zhí)顚懕韱危覀儾⒉桓鶕?jù)充值金額進(jìn)行開票,我們目前的開票模式是:可開票金額=已消耗金額-已開票金額。
?
為什么我期望的模型反饋和實(shí)際反饋不一致?有沒有相關(guān)Prompt的相關(guān)操作指南?
您可以根據(jù),對(duì)調(diào)用API時(shí)的各項(xiàng)常用參數(shù)進(jìn)行深度了解,以便更高效跑通不同使用場(chǎng)景。如果還有問題,歡迎發(fā)送郵件到open-platform@minimaxi.com 或掃描開放平臺(tái)底部企業(yè)微信二維碼聯(lián)系我們,我們將竭誠為您服務(wù)。
?
對(duì)于高并發(fā)數(shù)的情況,你們?nèi)绾翁幚恚?
<
關(guān)于我們
>
MiniMax是一家專注于人工智能領(lǐng)域的公司,致力于與用戶共同創(chuàng)造智能。公司提供包括高分辨率視頻生成、音樂生成、大語言模型和語音合成等在內(nèi)的多種AI模型矩陣服務(wù),旨在引領(lǐng)視頻創(chuàng)作和音樂創(chuàng)作的新變革。
聯(lián)系信息
<
最可能同場(chǎng)景使用的其他API
>