語音大模型服務MiniMax-稀宇科技

語音大模型服務MiniMax-稀宇科技

專用API
推薦者 推薦者:
【更新時間: 2024.03.22】 依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據上下文,智能預測文本的情緒、語調等信息,并生成超自然、高保真、個性化的語音。
2元/萬字符起 (支持套餐) 去服務商官網采購>
瀏覽次數
233
采購人數
4
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是稀宇科技的語音大模型服務MiniMax?

依托新一代AI大模型能力,MiniMax語音模型speech-01能夠根據上下文,智能預測文本的情緒、語調等信息,并生成超自然、高保真、個性化的語音。相較于傳統語音合成技術,MiniMax的語音模型以更精準、快速的方式,在音質、斷句氣口、韻律節奏等方面達到以“AI”亂真的合成新高度,為客戶帶來更生動、更具情感表現力的聽覺體驗。

什么是稀宇科技的語音大模型服務MiniMax接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用稀宇科技的語音大模型服務MiniMax,從而實現程序的自動化交互,提高服務效率。

稀宇科技的語音大模型服務MiniMax有哪些核心功能?

  • 多品質音色復刻
  • 語音在線合成
  • 自動理解文本

稀宇科技的語音大模型服務MiniMax的核心優勢是什么?

  • 高保真、超自然:具備理解人類語言中復雜含義的能力,包括情感、語氣甚至笑聲,從文本中預測喜悅、悲傷、憤怒等多維信息,生成更貼合“自然人聲”的語音語調。在某些情境下,甚至能表現出極具戲劇化的特征,如發出笑聲等
  • 多樣化、高延展:能在一定量的參數中學習到數千個聲音的音色特征,并自由組合,生成無限數量的聲音變體、情感和風格,無論是成熟御姐、溫柔女主播,還是青澀男大、穩重男主持,亦或是其他風格化的音色,都能輕松生成,滿足多元場景需求
  • 低成本、高效率:無需專業錄音環境和設備,我們的快速復刻服務可以在極簡的條件下運行,只需提供30秒的錄制音頻,即可完成語音克隆。生成的語音與原音色高度相似,大幅減少時間和資金的投入。

在哪些場景會用到稀宇科技的語音大模型服務MiniMax?

 

有聲讀物
教育輔助、通勤娛樂、兒童故事、睡前讀物、語言學習、專業培訓。
語音助手
智能家居控制、智能客服、語音導航、教育輔助、健康咨詢、信息查詢。
咨詢播報
新聞播報、股市動態、天氣預報、交通信息、緊急通知、定時提醒。
IP復刻
智能客服、個性化內容、虛擬主播、品牌代言、教育輔助、娛樂互動。
CV配音
廣告配音、動畫配音、有聲書、電影配音、廣播節目、語音助手。
 
<
產品價格
>

計費項

接口說明

單價

T2A

支持音量、語調、語速調整和混音功能

5元/萬字符

T2A pro

在T2A接口的基礎上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關參數調整特性,支持音頻時長、音頻大小等返回參數,支持字幕返回。

5元/萬字符

T2A large

在T2A接口的基礎上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。

2元/萬字符

T2A stream

支持基于自然語言交互生成回復的能力,適用于語音通話、語音聊天等需求流式的相關場景。

5元/萬字符

voice_clone(快速復刻)

基于大語言模型的音色克隆更加精準快速,無需數小時時長的超高質量原音頻、無需傳統TTS的超長工期,可以在極短時間內完成音色復刻,并通過大語言模型加持,使復刻后的音色與原音色進行高質量還原,從而滿足客戶需求。

本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經理或者通過官方郵箱open-platform@minimaxi.com進行申請使用。

<
使用指南
>

 

相關文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20

 

概念說明

 

音頻信息

一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質量、兼容性和文件大小。其中最關鍵的包括:

  • 聲道(Channels): 聲道數表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
  • 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質和兼容性。
  • 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數,單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質量音頻的標準采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。

 

音色克隆

音色克隆(TTS,即Text-to-Speech)是人工智能領域的一個子集,它涉及到將文本轉換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創建一個數字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內完成特定人的說話方式和聲音特征的復刻。

 

字幕

在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉換生成的文字,它們代表視頻或音頻中人們所說話的內容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或實時事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。

 

字典

“字典”通常指的是一個音素字典(phonetic dictionary)或發音字典,這是一種將單詞和短語映射到它們音素或音標表示的列表,在中文系統中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發音的基礎。

MiniMax語音大模型中,古文“將進酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發音的組成部分。

字典幫助模型學習如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內容。在文本到語音(TTS)系統中,字典用于將文本轉換為可以發聲的音素序列。在某些復雜的語音系統中,字典也可能包含關于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規則發音特別重要。

<
產品問答
>
?
我是企業客戶,對MiniMax大模型服務有些疑問,如何聯系到你們?
您可以發送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業微信二維碼聯系我們,我們將竭誠為您服務。
?
我希望在某某場景中使用到大模型,有沒有相應的Demo推薦查看?
您可以在開放平臺-,體驗MiniMax的模型服務,目前開放平臺支持文本、語音兩種模型的體驗。
?
我是微信小程序開發者,需要對接微信的相關資質信息。
請您發送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業微信二維碼聯系我們,備注“微信小程序”,我們將盡快為您提供服務。
?
如何獲知MiniMax開放平臺的最新消息和模型通知?
請關注開放平臺-文檔中心-,了解開放平臺功能、接口和模型的最新動態。也可以關注開放平臺公眾號:MiniMax開放平臺,了解更多MiniMax開放平臺信息。
?
音色克隆服務如何對接?
目前音色克隆服務僅通過與銷售一對一溝通的方式提供,您可以在首頁填寫合作咨詢表單,我們的工作人員會盡快與您聯系。
?
如何收費?定價文檔在哪里?
您可以在開發平臺-文檔中心- 文檔中查看具體的計費方式,查看價格明細。
?
個人客戶是否支持付費充值?
MiniMax開放平臺現已支持無企業資質的客戶進行認證充值。請在開放平臺-用戶中心-?,提交個人認證后進行充值。
?
充值之后,如何申請發票?
請填寫表單,我們并不根據充值金額進行開票,我們目前的開票模式是:可開票金額=已消耗金額-已開票金額。
?
為什么我期望的模型反饋和實際反饋不一致?有沒有相關Prompt的相關操作指南?
您可以根據,對調用API時的各項常用參數進行深度了解,以便更高效跑通不同使用場景。如果還有問題,歡迎發送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業微信二維碼聯系我們,我們將竭誠為您服務。
?
對于高并發數的情況,你們如何處理?
<
關于我們
>
MiniMax是一家專注于人工智能領域的公司,致力于與用戶共同創造智能。公司提供包括高分辨率視頻生成、音樂生成、大語言模型和語音合成等在內的多種AI模型矩陣服務,旨在引領視頻創作和音樂創作的新變革。
聯系信息
<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

計費項

接口說明

單價

T2A

支持音量、語調、語速調整和混音功能

5元/萬字符

T2A pro

在T2A接口的基礎上,支持單次合成最高5000字符輸入,支持比特率、采樣率相關參數調整特性,支持音頻時長、音頻大小等返回參數,支持字幕返回。

5元/萬字符

T2A large

在T2A接口的基礎上,支持單次合成最高1000萬字符輸入,支持非法字符檢測等功能,適用于整本書籍語音合成的超長文本場景。

2元/萬字符

T2A stream

支持基于自然語言交互生成回復的能力,適用于語音通話、語音聊天等需求流式的相關場景。

5元/萬字符

voice_clone(快速復刻)

基于大語言模型的音色克隆更加精準快速,無需數小時時長的超高質量原音頻、無需傳統TTS的超長工期,可以在極短時間內完成音色復刻,并通過大語言模型加持,使復刻后的音色與原音色進行高質量還原,從而滿足客戶需求。

本接口暫時只提供邀請制客戶使用,有使用需求的客戶可以通過客戶經理或者通過官方郵箱open-platform@minimaxi.com進行申請使用。

<
使用指南
>

 

相關文檔請查看:https://www.minimaxi.com/document/speech-synthesis-engine?id=645e034eeb82db92fba9ac20

 

概念說明

 

音頻信息

一段音頻文件可以包含多種信息,這些信息共同決定了音頻文件的播放質量、兼容性和文件大小。其中最關鍵的包括:

  • 聲道(Channels): 聲道數表明了音頻是單聲道(Mono)、雙聲道(Stereo)還是多聲道(如5.1環繞聲)。單聲道有一個音頻信號,雙聲道有兩個獨立信號,為左聲道和右聲道,多聲道則提供沉浸式的聽覺體驗。
  • 格式(Format): 音頻格式定義了音頻文件的存儲方式。常見的格式有WAV(無損格式,通常文件較大)、MP3(有損壓縮,文件相對較小)、AAC(先進的有損壓縮格式)、FLAC(無損壓縮,文件大小介于WAV和MP3之間)等。不同格式影響文件的壓縮率、音質和兼容性。
  • 采樣率(Sample Rate): 采樣率是指每秒鐘采樣次數,單位是赫茲(Hz),它決定了音頻的頻率范圍。CD質量音頻的標準采樣率是44.1kHz,意味著每秒鐘采樣44100次。更高的采樣率可以捕捉更高頻率的聲音,但文件大小也會更大。

 

音色克隆

音色克隆(TTS,即Text-to-Speech)是人工智能領域的一個子集,它涉及到將文本轉換成口語的過程。音色克隆特指的是利用特定的聲音樣本來創建一個數字化的聲音模型,這個模型可以用來生成聽起來與原始聲音樣本非常相似的語音輸出。簡而言之,音色克隆可以在極短時間內完成特定人的說話方式和聲音特征的復刻。

 

字幕

在語音大模型的上下文中,字幕通常是語音大模型聽取語音后自動轉換生成的文字,它們代表視頻或音頻中人們所說話的內容,這個過程通常被稱為自動語音識別(ASR)。在視頻流或實時事件中,這些生成的文字就是字幕,它們可以實時顯示在屏幕上。

 

字典

“字典”通常指的是一個音素字典(phonetic dictionary)或發音字典,這是一種將單詞和短語映射到它們音素或音標表示的列表,在中文系統中,字典通常包含中文漢字到它們拼音的映射。音素是語言中最小的語音單位,是發音的基礎。

MiniMax語音大模型中,古文“將進酒”在音素字典中可能被表示為[“qiang1”, “ jin4”, “jiu3”],這反映了其發音的組成部分。

字典幫助模型學習如何正確地將文本映射到語音。在自動語音識別(ASR)中,系統會嘗試將聽到的語音與字典中的音素模式相匹配,以此識別出說話內容。在文本到語音(TTS)系統中,字典用于將文本轉換為可以發聲的音素序列。在某些復雜的語音系統中,字典也可能包含關于詞匯的語音變化信息,這對于處理不同口音、語速變化以及語言中的不規則發音特別重要。

<
依賴服務
>
<
產品問答
>
?
我是企業客戶,對MiniMax大模型服務有些疑問,如何聯系到你們?
您可以發送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業微信二維碼聯系我們,我們將竭誠為您服務。
?
我希望在某某場景中使用到大模型,有沒有相應的Demo推薦查看?
您可以在開放平臺-,體驗MiniMax的模型服務,目前開放平臺支持文本、語音兩種模型的體驗。
?
我是微信小程序開發者,需要對接微信的相關資質信息。
請您發送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業微信二維碼聯系我們,備注“微信小程序”,我們將盡快為您提供服務。
?
如何獲知MiniMax開放平臺的最新消息和模型通知?
請關注開放平臺-文檔中心-,了解開放平臺功能、接口和模型的最新動態。也可以關注開放平臺公眾號:MiniMax開放平臺,了解更多MiniMax開放平臺信息。
?
音色克隆服務如何對接?
目前音色克隆服務僅通過與銷售一對一溝通的方式提供,您可以在首頁填寫合作咨詢表單,我們的工作人員會盡快與您聯系。
?
如何收費?定價文檔在哪里?
您可以在開發平臺-文檔中心- 文檔中查看具體的計費方式,查看價格明細。
?
個人客戶是否支持付費充值?
MiniMax開放平臺現已支持無企業資質的客戶進行認證充值。請在開放平臺-用戶中心-?,提交個人認證后進行充值。
?
充值之后,如何申請發票?
請填寫表單,我們并不根據充值金額進行開票,我們目前的開票模式是:可開票金額=已消耗金額-已開票金額。
?
為什么我期望的模型反饋和實際反饋不一致?有沒有相關Prompt的相關操作指南?
您可以根據,對調用API時的各項常用參數進行深度了解,以便更高效跑通不同使用場景。如果還有問題,歡迎發送郵件到open-platform@minimaxi.com 或掃描開放平臺底部企業微信二維碼聯系我們,我們將竭誠為您服務。
?
對于高并發數的情況,你們如何處理?
<
關于我們
>
MiniMax是一家專注于人工智能領域的公司,致力于與用戶共同創造智能。公司提供包括高分辨率視頻生成、音樂生成、大語言模型和語音合成等在內的多種AI模型矩陣服務,旨在引領視頻創作和音樂創作的新變革。
聯系信息
<
最可能同場景使用的其他API
>