![]() |
文本轉語音-Microsoft
專用API
【更新時間: 2024.07.18】
構建自然說話的應用程序和服務。文本到語音通過定制的、逼真的語音生成器使您的品牌脫穎而出,文字轉語音并使用不同的說話風格和情緒語氣來適應您的使用場景。文字到語音支持多種語言。
咨詢
去服務商官網采購>
|
瀏覽次數
24
采購人數
1
試用次數
0
收藏
×
完成
取消
×
書簽名稱
確定
|

- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是Microsoft的文本轉語音?
微軟Azure的文本轉語音服務提供了一種逼真、可定制的語音生成解決方案,支持細粒度控制和靈活部署。用戶可以根據自己的需求定制語音輸出。此外,Azure還提供了豐富的資源和工具來幫助用戶快速開始使用和構建語音服務。 |
什么是Microsoft的文本轉語音接口?
Microsoft的文本轉語音有哪些核心功能?
逼真的合成語音實現流暢、自然的文本轉語音,與人聲的語調和情感相匹配。 |
可定制的文本說話者聲音創建一個獨特的人工智能語音生成器來反映您的品牌形象。 |
細粒度的文本對話音頻控制通過輕松調整速率、音高、發音、停頓等,根據您的場景調整語音輸出。 |
靈活部署在云端、本地或容器邊緣的任何地方運行文本轉語音。 |
從云端到邊緣的任何地方部署文本轉語音無論您的數據位于何處,都可以運行文本轉語音。使用容器將逼真的語音合成構建到針對強大的云功能和邊緣位置進行優化的應用程序中 。 |
Microsoft的文本轉語音的核心優勢是什么?
1. 為您的品牌打造定制聲音
- 通過獨特的 定制聲音讓您的品牌脫穎而出。使用自定義神經語音功能開發高度逼真的語音,以實現更自然的對話界面,從 30 分鐘的音頻開始。
2.通過云人工智能服務推動應用創新
- 了解您的組織可以開始使用人工智能以快速實現價值的五種關鍵方法。
3.全面的隱私和安全
- AI 語音是 Azure AI 服務的一部分,已 通過 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO認證。隨時查看和刪除您的自定義語音數據和合成語音模型。您的數據在存儲時會被加密。訓練您的數據仍然屬于您。在數據處理或音頻語音生成過程中不會存儲您的文本數據。
4.內置全面的安全性和合規性
- Microsoft 每年在網絡安全研發方面的投資超過10 億美元。
- 我們雇用了 3,500 多名致力于數據安全和隱私的安全專家。
在哪些場景會用到Microsoft的文本轉語音?
客戶服務 在呼叫中心或自動客服系統中,提供自然流暢的語音交互,提升客戶體驗。 |
|
語言學習 提供語言學習應用中的發音指導和聽力練習材料。 |
|
會議錄聽 可以幫助提升會議錄聽的效率和質量,無論是在企業內部會議、遠程教育、在線研討會還是其他需要語音輸出的場合。 |
|
多設備對話 Azure 文字轉語音服務可以幫助開發者構建跨設備、無縫且一致的對話體驗。 |
|
語音助手 Azure 文字轉語音服務提供了強大的功能和靈活性,非常適合用于構建和增強語音助手的語音交互能力 |


免費版
類別 | 特征 | 價格 |
---|---|---|
語音轉文本 (按秒計費) |
標準 | 每月 5 小時免費音頻3 |
風俗 | 每月免費 5 小時音頻3 端點托管:每月免費 1 個模型1 |
|
對話轉錄多通道音頻預覽 | 每月 5 小時免費音頻 | |
文本轉語音 (按字符計費) |
神經 | 每月免費 50 萬個字符 |
語音翻譯 (按秒計費) |
標準 | 每月 5 小時免費音頻 |
說話人識別 (按交易計費) |
說話者驗證2 | 每月 10,000 筆交易免費 |
說話人識別2 | 每月 10,000 筆交易免費 | |
語音配置文件存儲 | 每月 10,000 筆交易免費 |
即用即付:僅按使用量付費
類別 | 價格 | |
---|---|---|
語音轉文本 (按秒計費) |
標準 | 實時轉錄:每小時1 美元 快速轉錄預覽:每小時不適用9 批量轉錄:每小時0.18 美元1 |
風俗 | 實時轉錄:每小時1.20 美元 批量轉錄:每小時0.225 美元1 端點托管:每個模型每小時0.0538 美元 自定義語音訓練5:每計算小時 10 美元 |
|
增強的附加功能:
|
實時:每個功能每小時0.30 美元 批量(連續語言識別、二值化):包含在標準/自定義中(無額外費用) |
|
對話轉錄多通道音頻預覽 | 每小時2.10 美元2 | |
語音翻譯 (按秒計費) |
實時語音翻譯 | 每音頻小時2.50 美元3 |
視頻翻譯預覽 | 批量:每輸出視頻分鐘不適用 內容編輯:每輸出視頻分鐘不適用 個人語音:每輸出視頻分鐘 不適用 |
|
文字轉語音8 | 標準語音 | 神經網絡:每 100 萬個字符15 美元 神經網絡 HD 4:每 100 萬個字符 不適用 |
自定義語音 | 專業聲音: 合成:每 100 萬個字符24 美元
語音模型訓練:每個計算小時52 美元,每次訓練最高4,992 美元 端點托管:每個模型每小時4.04 美元 |
|
個人聲音6: 合成:每 100 萬個字符不適用
語音創建:免費 語音配置文件存儲:每月每 1,000 個語音配置文件 不適用 |
||
增強的附加功能:頭像預覽 | 標準:N/A每分鐘 | |
風俗: 實時綜合:每分鐘N/A
批量綜合:每分鐘 N/A 端點托管:每小時每個模型 N/A |
||
說話人識別 (按交易計費) |
說話者驗證7 | 每 1,000 筆交易5 美元 |
說話者識別7 | 每 1,000 筆交易10 美元 | |
語音配置文件存儲 | 每 1,000 個語音配置文件0.20 USD(每月 10,000 個免費語音配置文件) |
其他價格信息請查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/


先決條件
設置環境
語音 SDK 以 NuGet 包的形式提供,實現了 .NET Standard 2.0。 稍后在本指南中安裝語音 SDK。 有關任何要求,請參閱安裝語音 SDK。
設置環境變量。
必須對應用程序進行身份驗證才能訪問 Azure AI 服務資源。 對于生產,請使用安全的方式存儲和訪問憑據。 例如,獲取語音資源的密鑰后,請將其寫入運行應用程序的本地計算機上的新環境變量。
提示
請不要直接在代碼中包含密鑰,并且絕不公開發布密鑰。 有關 Azure Key Vault 等更多身份驗證選項,請參閱 Azure AI 服務安全性。
若要為語音資源密鑰設置環境變量,請打開控制臺窗口,并按照操作系統和開發環境的說明進行操作。
- 要設置
SPEECH_KEY
環境變量,請將“your-key”替換為你的資源的某一個密鑰。 - 要設置
SPEECH_REGION
環境變量,請將 “your-region”替換為你的資源的某一個地區。
Windows:
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
添加環境變量后,你可能需要重啟任何需要讀取環境變量的程序(包括控制臺窗口)。 例如,如果使用 Visual Studio 作為編輯器,請在運行示例之前重啟 Visual Studio。
合成到揚聲器輸出
按照以下步驟創建控制臺應用程序并安裝語音 SDK。
-
在需要新項目的文件夾中打開命令提示符窗口。 運行以下命令,使用 .NET CLI 創建控制臺應用程序。
dotnet new console
該命令會在項目目錄中創建 Program.cs 文件。
- 使用 .NET CLI 在新項目中安裝語音 SDK。
dotnet add package Microsoft.CognitiveServices.Speech
- 將 Program.cs 的內容替換為以下代碼。
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text) { switch (speechSynthesisResult.Reason) { case ResultReason.SynthesizingAudioCompleted: Console.WriteLine($"Speech synthesized for text: [{text}]"); break; case ResultReason.Canceled: var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; default: break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); // The neural multilingual voice can speak different languages based on the input text. speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)) { // Get text from the console and synthesize to the default speaker. Console.WriteLine("Enter some text that you want to speak >"); string text = Console.ReadLine(); var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text); OutputSpeechSynthesisResult(speechSynthesisResult, text); } Console.WriteLine("Press any key to exit..."); Console.ReadKey(); } }
-
若要更改語音合成語言,請將
en-US-AvaMultilingualNeural
替換為另一種受支持的語音。所有神經網絡聲音都是多語言的,并且能夠流利地使用自己的語言和英語。 例如,如果英語的輸入文本為“I'm excited to try text to speech”并且你設置了
es-ES-ElviraNeural
,則該文本將用帶西班牙口音的英語講出。 如果語音使用的不是輸入文本的語言,則語音服務不會輸出合成的音頻。 - 運行新的控制臺應用程序,開始將語音合成到默認揚聲器。
dotnet run
- 輸入要朗讀的一些文本。 例如,鍵入“我對嘗試文本轉語音非常興奮”。 選擇 Enter 鍵可聽到合成的語音。
Enter some text that you want to speak > I'm excited to try text to speech




公司簡介
隨時了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點等。
關于我們
認識 Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領導者。
我們的價值觀
了解我們如何利用技術來創建平臺和資源,造就長遠的積極影響。
特色計劃和項目
透過數字了解可持續發展到 2030 年,Microsoft 將實現負排碳目標。 通過互動方式了解我們公司改善對環境的影響的其他方式。 |
公司的社會責任我們相信技術是造福人類的強大力量,并且正在努力創造一個可持續未來,使每個人都可以享受到技術帶來的好處和機會。 |
故事在 Microsoft,我們受到來自世界各地的人們的啟發,他們利用技術去做富有想象力、創新以及能改變生活的事情。 我們分享他們的故事。 |
Microsoft AI在以人為本的設計中,AI 可以擴展你的能力,解放你的思維,讓你自由進行更具創造性和策略性的嘗試,幫助你和你的組織達成更多成就。 |


免費版
類別 | 特征 | 價格 |
---|---|---|
語音轉文本 (按秒計費) |
標準 | 每月 5 小時免費音頻3 |
風俗 | 每月免費 5 小時音頻3 端點托管:每月免費 1 個模型1 |
|
對話轉錄多通道音頻預覽 | 每月 5 小時免費音頻 | |
文本轉語音 (按字符計費) |
神經 | 每月免費 50 萬個字符 |
語音翻譯 (按秒計費) |
標準 | 每月 5 小時免費音頻 |
說話人識別 (按交易計費) |
說話者驗證2 | 每月 10,000 筆交易免費 |
說話人識別2 | 每月 10,000 筆交易免費 | |
語音配置文件存儲 | 每月 10,000 筆交易免費 |
即用即付:僅按使用量付費
類別 | 價格 | |
---|---|---|
語音轉文本 (按秒計費) |
標準 | 實時轉錄:每小時1 美元 快速轉錄預覽:每小時不適用9 批量轉錄:每小時0.18 美元1 |
風俗 | 實時轉錄:每小時1.20 美元 批量轉錄:每小時0.225 美元1 端點托管:每個模型每小時0.0538 美元 自定義語音訓練5:每計算小時 10 美元 |
|
增強的附加功能:
|
實時:每個功能每小時0.30 美元 批量(連續語言識別、二值化):包含在標準/自定義中(無額外費用) |
|
對話轉錄多通道音頻預覽 | 每小時2.10 美元2 | |
語音翻譯 (按秒計費) |
實時語音翻譯 | 每音頻小時2.50 美元3 |
視頻翻譯預覽 | 批量:每輸出視頻分鐘不適用 內容編輯:每輸出視頻分鐘不適用 個人語音:每輸出視頻分鐘 不適用 |
|
文字轉語音8 | 標準語音 | 神經網絡:每 100 萬個字符15 美元 神經網絡 HD 4:每 100 萬個字符 不適用 |
自定義語音 | 專業聲音: 合成:每 100 萬個字符24 美元
語音模型訓練:每個計算小時52 美元,每次訓練最高4,992 美元 端點托管:每個模型每小時4.04 美元 |
|
個人聲音6: 合成:每 100 萬個字符不適用
語音創建:免費 語音配置文件存儲:每月每 1,000 個語音配置文件 不適用 |
||
增強的附加功能:頭像預覽 | 標準:N/A每分鐘 | |
風俗: 實時綜合:每分鐘N/A
批量綜合:每分鐘 N/A 端點托管:每小時每個模型 N/A |
||
說話人識別 (按交易計費) |
說話者驗證7 | 每 1,000 筆交易5 美元 |
說話者識別7 | 每 1,000 筆交易10 美元 | |
語音配置文件存儲 | 每 1,000 個語音配置文件0.20 USD(每月 10,000 個免費語音配置文件) |
其他價格信息請查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/


先決條件
設置環境
語音 SDK 以 NuGet 包的形式提供,實現了 .NET Standard 2.0。 稍后在本指南中安裝語音 SDK。 有關任何要求,請參閱安裝語音 SDK。
設置環境變量。
必須對應用程序進行身份驗證才能訪問 Azure AI 服務資源。 對于生產,請使用安全的方式存儲和訪問憑據。 例如,獲取語音資源的密鑰后,請將其寫入運行應用程序的本地計算機上的新環境變量。
提示
請不要直接在代碼中包含密鑰,并且絕不公開發布密鑰。 有關 Azure Key Vault 等更多身份驗證選項,請參閱 Azure AI 服務安全性。
若要為語音資源密鑰設置環境變量,請打開控制臺窗口,并按照操作系統和開發環境的說明進行操作。
- 要設置
SPEECH_KEY
環境變量,請將“your-key”替換為你的資源的某一個密鑰。 - 要設置
SPEECH_REGION
環境變量,請將 “your-region”替換為你的資源的某一個地區。
Windows:
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
添加環境變量后,你可能需要重啟任何需要讀取環境變量的程序(包括控制臺窗口)。 例如,如果使用 Visual Studio 作為編輯器,請在運行示例之前重啟 Visual Studio。
合成到揚聲器輸出
按照以下步驟創建控制臺應用程序并安裝語音 SDK。
-
在需要新項目的文件夾中打開命令提示符窗口。 運行以下命令,使用 .NET CLI 創建控制臺應用程序。
dotnet new console
該命令會在項目目錄中創建 Program.cs 文件。
- 使用 .NET CLI 在新項目中安裝語音 SDK。
dotnet add package Microsoft.CognitiveServices.Speech
- 將 Program.cs 的內容替換為以下代碼。
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text) { switch (speechSynthesisResult.Reason) { case ResultReason.SynthesizingAudioCompleted: Console.WriteLine($"Speech synthesized for text: [{text}]"); break; case ResultReason.Canceled: var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; default: break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); // The neural multilingual voice can speak different languages based on the input text. speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)) { // Get text from the console and synthesize to the default speaker. Console.WriteLine("Enter some text that you want to speak >"); string text = Console.ReadLine(); var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text); OutputSpeechSynthesisResult(speechSynthesisResult, text); } Console.WriteLine("Press any key to exit..."); Console.ReadKey(); } }
-
若要更改語音合成語言,請將
en-US-AvaMultilingualNeural
替換為另一種受支持的語音。所有神經網絡聲音都是多語言的,并且能夠流利地使用自己的語言和英語。 例如,如果英語的輸入文本為“I'm excited to try text to speech”并且你設置了
es-ES-ElviraNeural
,則該文本將用帶西班牙口音的英語講出。 如果語音使用的不是輸入文本的語言,則語音服務不會輸出合成的音頻。 - 運行新的控制臺應用程序,開始將語音合成到默認揚聲器。
dotnet run
- 輸入要朗讀的一些文本。 例如,鍵入“我對嘗試文本轉語音非常興奮”。 選擇 Enter 鍵可聽到合成的語音。
Enter some text that you want to speak > I'm excited to try text to speech






公司簡介
隨時了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點等。
關于我們
認識 Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領導者。
我們的價值觀
了解我們如何利用技術來創建平臺和資源,造就長遠的積極影響。
特色計劃和項目
透過數字了解可持續發展到 2030 年,Microsoft 將實現負排碳目標。 通過互動方式了解我們公司改善對環境的影響的其他方式。 |
公司的社會責任我們相信技術是造福人類的強大力量,并且正在努力創造一個可持續未來,使每個人都可以享受到技術帶來的好處和機會。 |
故事在 Microsoft,我們受到來自世界各地的人們的啟發,他們利用技術去做富有想象力、創新以及能改變生活的事情。 我們分享他們的故事。 |
Microsoft AI在以人為本的設計中,AI 可以擴展你的能力,解放你的思維,讓你自由進行更具創造性和策略性的嘗試,幫助你和你的組織達成更多成就。 |