![]() |
文本轉(zhuǎn)語(yǔ)音-Microsoft
專(zhuān)用API
【更新時(shí)間: 2024.07.18】
構(gòu)建自然說(shuō)話的應(yīng)用程序和服務(wù)。文本到語(yǔ)音通過(guò)定制的、逼真的語(yǔ)音生成器使您的品牌脫穎而出,文字轉(zhuǎn)語(yǔ)音并使用不同的說(shuō)話風(fēng)格和情緒語(yǔ)氣來(lái)適應(yīng)您的使用場(chǎng)景。文字到語(yǔ)音支持多種語(yǔ)言。
咨詢(xún)
去服務(wù)商官網(wǎng)采購(gòu)>
|
瀏覽次數(shù)
24
采購(gòu)人數(shù)
1
試用次數(shù)
0
收藏
×
完成
取消
×
書(shū)簽名稱(chēng)
確定
|

- API詳情
- 定價(jià)
- 使用指南
- 常見(jiàn) FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是Microsoft的文本轉(zhuǎn)語(yǔ)音?
微軟Azure的文本轉(zhuǎn)語(yǔ)音服務(wù)提供了一種逼真、可定制的語(yǔ)音生成解決方案,支持細(xì)粒度控制和靈活部署。用戶(hù)可以根據(jù)自己的需求定制語(yǔ)音輸出。此外,Azure還提供了豐富的資源和工具來(lái)幫助用戶(hù)快速開(kāi)始使用和構(gòu)建語(yǔ)音服務(wù)。 |
什么是Microsoft的文本轉(zhuǎn)語(yǔ)音接口?
Microsoft的文本轉(zhuǎn)語(yǔ)音有哪些核心功能?
逼真的合成語(yǔ)音實(shí)現(xiàn)流暢、自然的文本轉(zhuǎn)語(yǔ)音,與人聲的語(yǔ)調(diào)和情感相匹配。 |
可定制的文本說(shuō)話者聲音創(chuàng)建一個(gè)獨(dú)特的人工智能語(yǔ)音生成器來(lái)反映您的品牌形象。 |
細(xì)粒度的文本對(duì)話音頻控制通過(guò)輕松調(diào)整速率、音高、發(fā)音、停頓等,根據(jù)您的場(chǎng)景調(diào)整語(yǔ)音輸出。 |
靈活部署在云端、本地或容器邊緣的任何地方運(yùn)行文本轉(zhuǎn)語(yǔ)音。 |
定制您的語(yǔ)音輸出微調(diào)合成語(yǔ)音以適合您的場(chǎng)景。 使用語(yǔ)音合成標(biāo)記語(yǔ)言 (SSML) 或 音頻內(nèi)容創(chuàng)建工具定義詞典 并控制語(yǔ)音參數(shù),例如發(fā)音、音高、速率、停頓和語(yǔ)調(diào) 。 |
從云端到邊緣的任何地方部署文本轉(zhuǎn)語(yǔ)音無(wú)論您的數(shù)據(jù)位于何處,都可以運(yùn)行文本轉(zhuǎn)語(yǔ)音。使用容器將逼真的語(yǔ)音合成構(gòu)建到針對(duì)強(qiáng)大的云功能和邊緣位置進(jìn)行優(yōu)化的應(yīng)用程序中 。 |
Microsoft的文本轉(zhuǎn)語(yǔ)音的核心優(yōu)勢(shì)是什么?
1. 為您的品牌打造定制聲音
- 通過(guò)獨(dú)特的 定制聲音讓您的品牌脫穎而出。使用自定義神經(jīng)語(yǔ)音功能開(kāi)發(fā)高度逼真的語(yǔ)音,以實(shí)現(xiàn)更自然的對(duì)話界面,從 30 分鐘的音頻開(kāi)始。
2.通過(guò)云人工智能服務(wù)推動(dòng)應(yīng)用創(chuàng)新
- 了解您的組織可以開(kāi)始使用人工智能以快速實(shí)現(xiàn)價(jià)值的五種關(guān)鍵方法。
3.全面的隱私和安全
- AI 語(yǔ)音是 Azure AI 服務(wù)的一部分,已 通過(guò) SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO認(rèn)證。隨時(shí)查看和刪除您的自定義語(yǔ)音數(shù)據(jù)和合成語(yǔ)音模型。您的數(shù)據(jù)在存儲(chǔ)時(shí)會(huì)被加密。訓(xùn)練您的數(shù)據(jù)仍然屬于您。在數(shù)據(jù)處理或音頻語(yǔ)音生成過(guò)程中不會(huì)存儲(chǔ)您的文本數(shù)據(jù)。
4.內(nèi)置全面的安全性和合規(guī)性
- Microsoft 每年在網(wǎng)絡(luò)安全研發(fā)方面的投資超過(guò)10 億美元。
- 我們雇用了 3,500 多名致力于數(shù)據(jù)安全和隱私的安全專(zhuān)家。
在哪些場(chǎng)景會(huì)用到Microsoft的文本轉(zhuǎn)語(yǔ)音?
客戶(hù)服務(wù) 在呼叫中心或自動(dòng)客服系統(tǒng)中,提供自然流暢的語(yǔ)音交互,提升客戶(hù)體驗(yàn)。 |
|
語(yǔ)言學(xué)習(xí) 提供語(yǔ)言學(xué)習(xí)應(yīng)用中的發(fā)音指導(dǎo)和聽(tīng)力練習(xí)材料。 |
|
會(huì)議錄聽(tīng) 可以幫助提升會(huì)議錄聽(tīng)的效率和質(zhì)量,無(wú)論是在企業(yè)內(nèi)部會(huì)議、遠(yuǎn)程教育、在線研討會(huì)還是其他需要語(yǔ)音輸出的場(chǎng)合。 |
|
多設(shè)備對(duì)話 Azure 文字轉(zhuǎn)語(yǔ)音服務(wù)可以幫助開(kāi)發(fā)者構(gòu)建跨設(shè)備、無(wú)縫且一致的對(duì)話體驗(yàn)。 |
|
語(yǔ)音助手 Azure 文字轉(zhuǎn)語(yǔ)音服務(wù)提供了強(qiáng)大的功能和靈活性,非常適合用于構(gòu)建和增強(qiáng)語(yǔ)音助手的語(yǔ)音交互能力 |


免費(fèi)版
類(lèi)別 | 特征 | 價(jià)格 |
---|---|---|
語(yǔ)音轉(zhuǎn)文本 (按秒計(jì)費(fèi)) |
標(biāo)準(zhǔn) | 每月 5 小時(shí)免費(fèi)音頻3 |
風(fēng)俗 | 每月免費(fèi) 5 小時(shí)音頻3 端點(diǎn)托管:每月免費(fèi) 1 個(gè)模型1 |
|
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 | 每月 5 小時(shí)免費(fèi)音頻 | |
文本轉(zhuǎn)語(yǔ)音 (按字符計(jì)費(fèi)) |
神經(jīng) | 每月免費(fèi) 50 萬(wàn)個(gè)字符 |
語(yǔ)音翻譯 (按秒計(jì)費(fèi)) |
標(biāo)準(zhǔn) | 每月 5 小時(shí)免費(fèi)音頻 |
說(shuō)話人識(shí)別 (按交易計(jì)費(fèi)) |
說(shuō)話者驗(yàn)證2 | 每月 10,000 筆交易免費(fèi) |
說(shuō)話人識(shí)別2 | 每月 10,000 筆交易免費(fèi) | |
語(yǔ)音配置文件存儲(chǔ) | 每月 10,000 筆交易免費(fèi) |
即用即付:僅按使用量付費(fèi)
類(lèi)別 | 價(jià)格 | |
---|---|---|
語(yǔ)音轉(zhuǎn)文本 (按秒計(jì)費(fèi)) |
標(biāo)準(zhǔn) | 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1 美元 快速轉(zhuǎn)錄預(yù)覽:每小時(shí)不適用9 批量轉(zhuǎn)錄:每小時(shí)0.18 美元1 |
風(fēng)俗 | 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1.20 美元 批量轉(zhuǎn)錄:每小時(shí)0.225 美元1 端點(diǎn)托管:每個(gè)模型每小時(shí)0.0538 美元 自定義語(yǔ)音訓(xùn)練5:每計(jì)算小時(shí) 10 美元 |
|
增強(qiáng)的附加功能:
|
實(shí)時(shí):每個(gè)功能每小時(shí)0.30 美元 批量(連續(xù)語(yǔ)言識(shí)別、二值化):包含在標(biāo)準(zhǔn)/自定義中(無(wú)額外費(fèi)用) |
|
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 | 每小時(shí)2.10 美元2 | |
語(yǔ)音翻譯 (按秒計(jì)費(fèi)) |
實(shí)時(shí)語(yǔ)音翻譯 | 每音頻小時(shí)2.50 美元3 |
視頻翻譯預(yù)覽 | 批量:每輸出視頻分鐘不適用 內(nèi)容編輯:每輸出視頻分鐘不適用 個(gè)人語(yǔ)音:每輸出視頻分鐘 不適用 |
|
文字轉(zhuǎn)語(yǔ)音8 | 標(biāo)準(zhǔn)語(yǔ)音 | 神經(jīng)網(wǎng)絡(luò):每 100 萬(wàn)個(gè)字符15 美元 神經(jīng)網(wǎng)絡(luò) HD 4:每 100 萬(wàn)個(gè)字符 不適用 |
自定義語(yǔ)音 | 專(zhuān)業(yè)聲音: 合成:每 100 萬(wàn)個(gè)字符24 美元
語(yǔ)音模型訓(xùn)練:每個(gè)計(jì)算小時(shí)52 美元,每次訓(xùn)練最高4,992 美元 端點(diǎn)托管:每個(gè)模型每小時(shí)4.04 美元 |
|
個(gè)人聲音6: 合成:每 100 萬(wàn)個(gè)字符不適用
語(yǔ)音創(chuàng)建:免費(fèi) 語(yǔ)音配置文件存儲(chǔ):每月每 1,000 個(gè)語(yǔ)音配置文件 不適用 |
||
增強(qiáng)的附加功能:頭像預(yù)覽 | 標(biāo)準(zhǔn):N/A每分鐘 | |
風(fēng)俗: 實(shí)時(shí)綜合:每分鐘N/A
批量綜合:每分鐘 N/A 端點(diǎn)托管:每小時(shí)每個(gè)模型 N/A |
||
說(shuō)話人識(shí)別 (按交易計(jì)費(fèi)) |
說(shuō)話者驗(yàn)證7 | 每 1,000 筆交易5 美元 |
說(shuō)話者識(shí)別7 | 每 1,000 筆交易10 美元 | |
語(yǔ)音配置文件存儲(chǔ) | 每 1,000 個(gè)語(yǔ)音配置文件0.20 USD(每月 10,000 個(gè)免費(fèi)語(yǔ)音配置文件) |
其他價(jià)格信息請(qǐng)查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/


先決條件
- Azure 訂閱 - 免費(fèi)創(chuàng)建訂閱。
- 在 Azure 門(mén)戶(hù)中創(chuàng)建語(yǔ)音資源。
- 你的語(yǔ)音資源密鑰和地區(qū)。 部署語(yǔ)音資源后,選擇“轉(zhuǎn)到資源”以查看和管理密鑰。 有關(guān) Azure AI 服務(wù)資源的詳細(xì)信息,請(qǐng)參閱獲取資源密鑰。
設(shè)置環(huán)境
語(yǔ)音 SDK 以 NuGet 包的形式提供,實(shí)現(xiàn)了 .NET Standard 2.0。 稍后在本指南中安裝語(yǔ)音 SDK。 有關(guān)任何要求,請(qǐng)參閱安裝語(yǔ)音 SDK。
設(shè)置環(huán)境變量。
必須對(duì)應(yīng)用程序進(jìn)行身份驗(yàn)證才能訪問(wèn) Azure AI 服務(wù)資源。 對(duì)于生產(chǎn),請(qǐng)使用安全的方式存儲(chǔ)和訪問(wèn)憑據(jù)。 例如,獲取語(yǔ)音資源的密鑰后,請(qǐng)將其寫(xiě)入運(yùn)行應(yīng)用程序的本地計(jì)算機(jī)上的新環(huán)境變量。
提示
請(qǐng)不要直接在代碼中包含密鑰,并且絕不公開(kāi)發(fā)布密鑰。 有關(guān) Azure Key Vault 等更多身份驗(yàn)證選項(xiàng),請(qǐng)參閱 Azure AI 服務(wù)安全性。
若要為語(yǔ)音資源密鑰設(shè)置環(huán)境變量,請(qǐng)打開(kāi)控制臺(tái)窗口,并按照操作系統(tǒng)和開(kāi)發(fā)環(huán)境的說(shuō)明進(jìn)行操作。
- 要設(shè)置
SPEECH_KEY
環(huán)境變量,請(qǐng)將“your-key”替換為你的資源的某一個(gè)密鑰。 - 要設(shè)置
SPEECH_REGION
環(huán)境變量,請(qǐng)將 “your-region”替換為你的資源的某一個(gè)地區(qū)。
Windows:
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
添加環(huán)境變量后,你可能需要重啟任何需要讀取環(huán)境變量的程序(包括控制臺(tái)窗口)。 例如,如果使用 Visual Studio 作為編輯器,請(qǐng)?jiān)谶\(yùn)行示例之前重啟 Visual Studio。
合成到揚(yáng)聲器輸出
按照以下步驟創(chuàng)建控制臺(tái)應(yīng)用程序并安裝語(yǔ)音 SDK。
-
在需要新項(xiàng)目的文件夾中打開(kāi)命令提示符窗口。 運(yùn)行以下命令,使用 .NET CLI 創(chuàng)建控制臺(tái)應(yīng)用程序。
dotnet new console
該命令會(huì)在項(xiàng)目目錄中創(chuàng)建 Program.cs 文件。
- 使用 .NET CLI 在新項(xiàng)目中安裝語(yǔ)音 SDK。
dotnet add package Microsoft.CognitiveServices.Speech
- 將 Program.cs 的內(nèi)容替換為以下代碼。
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text) { switch (speechSynthesisResult.Reason) { case ResultReason.SynthesizingAudioCompleted: Console.WriteLine($"Speech synthesized for text: [{text}]"); break; case ResultReason.Canceled: var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; default: break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); // The neural multilingual voice can speak different languages based on the input text. speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)) { // Get text from the console and synthesize to the default speaker. Console.WriteLine("Enter some text that you want to speak >"); string text = Console.ReadLine(); var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text); OutputSpeechSynthesisResult(speechSynthesisResult, text); } Console.WriteLine("Press any key to exit..."); Console.ReadKey(); } }
-
若要更改語(yǔ)音合成語(yǔ)言,請(qǐng)將
en-US-AvaMultilingualNeural
替換為另一種受支持的語(yǔ)音。所有神經(jīng)網(wǎng)絡(luò)聲音都是多語(yǔ)言的,并且能夠流利地使用自己的語(yǔ)言和英語(yǔ)。 例如,如果英語(yǔ)的輸入文本為“I'm excited to try text to speech”并且你設(shè)置了
es-ES-ElviraNeural
,則該文本將用帶西班牙口音的英語(yǔ)講出。 如果語(yǔ)音使用的不是輸入文本的語(yǔ)言,則語(yǔ)音服務(wù)不會(huì)輸出合成的音頻。 - 運(yùn)行新的控制臺(tái)應(yīng)用程序,開(kāi)始將語(yǔ)音合成到默認(rèn)揚(yáng)聲器。
dotnet run
- 輸入要朗讀的一些文本。 例如,鍵入“我對(duì)嘗試文本轉(zhuǎn)語(yǔ)音非常興奮”。 選擇 Enter 鍵可聽(tīng)到合成的語(yǔ)音。
Enter some text that you want to speak > I'm excited to try text to speech
詳細(xì)指南請(qǐng)查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp




公司簡(jiǎn)介
隨時(shí)了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點(diǎn)等。
關(guān)于我們
認(rèn)識(shí) Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領(lǐng)導(dǎo)者。
我們的價(jià)值觀
了解我們?nèi)绾卫眉夹g(shù)來(lái)創(chuàng)建平臺(tái)和資源,造就長(zhǎng)遠(yuǎn)的積極影響。
特色計(jì)劃和項(xiàng)目
透過(guò)數(shù)字了解可持續(xù)發(fā)展到 2030 年,Microsoft 將實(shí)現(xiàn)負(fù)排碳目標(biāo)。 通過(guò)互動(dòng)方式了解我們公司改善對(duì)環(huán)境的影響的其他方式。 |
公司的社會(huì)責(zé)任我們相信技術(shù)是造福人類(lèi)的強(qiáng)大力量,并且正在努力創(chuàng)造一個(gè)可持續(xù)未來(lái),使每個(gè)人都可以享受到技術(shù)帶來(lái)的好處和機(jī)會(huì)。 |
故事在 Microsoft,我們受到來(lái)自世界各地的人們的啟發(fā),他們利用技術(shù)去做富有想象力、創(chuàng)新以及能改變生活的事情。 我們分享他們的故事。 |
Microsoft AI在以人為本的設(shè)計(jì)中,AI 可以擴(kuò)展你的能力,解放你的思維,讓你自由進(jìn)行更具創(chuàng)造性和策略性的嘗試,幫助你和你的組織達(dá)成更多成就。 |


免費(fèi)版
類(lèi)別 | 特征 | 價(jià)格 |
---|---|---|
語(yǔ)音轉(zhuǎn)文本 (按秒計(jì)費(fèi)) |
標(biāo)準(zhǔn) | 每月 5 小時(shí)免費(fèi)音頻3 |
風(fēng)俗 | 每月免費(fèi) 5 小時(shí)音頻3 端點(diǎn)托管:每月免費(fèi) 1 個(gè)模型1 |
|
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 | 每月 5 小時(shí)免費(fèi)音頻 | |
文本轉(zhuǎn)語(yǔ)音 (按字符計(jì)費(fèi)) |
神經(jīng) | 每月免費(fèi) 50 萬(wàn)個(gè)字符 |
語(yǔ)音翻譯 (按秒計(jì)費(fèi)) |
標(biāo)準(zhǔn) | 每月 5 小時(shí)免費(fèi)音頻 |
說(shuō)話人識(shí)別 (按交易計(jì)費(fèi)) |
說(shuō)話者驗(yàn)證2 | 每月 10,000 筆交易免費(fèi) |
說(shuō)話人識(shí)別2 | 每月 10,000 筆交易免費(fèi) | |
語(yǔ)音配置文件存儲(chǔ) | 每月 10,000 筆交易免費(fèi) |
即用即付:僅按使用量付費(fèi)
類(lèi)別 | 價(jià)格 | |
---|---|---|
語(yǔ)音轉(zhuǎn)文本 (按秒計(jì)費(fèi)) |
標(biāo)準(zhǔn) | 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1 美元 快速轉(zhuǎn)錄預(yù)覽:每小時(shí)不適用9 批量轉(zhuǎn)錄:每小時(shí)0.18 美元1 |
風(fēng)俗 | 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1.20 美元 批量轉(zhuǎn)錄:每小時(shí)0.225 美元1 端點(diǎn)托管:每個(gè)模型每小時(shí)0.0538 美元 自定義語(yǔ)音訓(xùn)練5:每計(jì)算小時(shí) 10 美元 |
|
增強(qiáng)的附加功能:
|
實(shí)時(shí):每個(gè)功能每小時(shí)0.30 美元 批量(連續(xù)語(yǔ)言識(shí)別、二值化):包含在標(biāo)準(zhǔn)/自定義中(無(wú)額外費(fèi)用) |
|
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 | 每小時(shí)2.10 美元2 | |
語(yǔ)音翻譯 (按秒計(jì)費(fèi)) |
實(shí)時(shí)語(yǔ)音翻譯 | 每音頻小時(shí)2.50 美元3 |
視頻翻譯預(yù)覽 | 批量:每輸出視頻分鐘不適用 內(nèi)容編輯:每輸出視頻分鐘不適用 個(gè)人語(yǔ)音:每輸出視頻分鐘 不適用 |
|
文字轉(zhuǎn)語(yǔ)音8 | 標(biāo)準(zhǔn)語(yǔ)音 | 神經(jīng)網(wǎng)絡(luò):每 100 萬(wàn)個(gè)字符15 美元 神經(jīng)網(wǎng)絡(luò) HD 4:每 100 萬(wàn)個(gè)字符 不適用 |
自定義語(yǔ)音 | 專(zhuān)業(yè)聲音: 合成:每 100 萬(wàn)個(gè)字符24 美元
語(yǔ)音模型訓(xùn)練:每個(gè)計(jì)算小時(shí)52 美元,每次訓(xùn)練最高4,992 美元 端點(diǎn)托管:每個(gè)模型每小時(shí)4.04 美元 |
|
個(gè)人聲音6: 合成:每 100 萬(wàn)個(gè)字符不適用
語(yǔ)音創(chuàng)建:免費(fèi) 語(yǔ)音配置文件存儲(chǔ):每月每 1,000 個(gè)語(yǔ)音配置文件 不適用 |
||
增強(qiáng)的附加功能:頭像預(yù)覽 | 標(biāo)準(zhǔn):N/A每分鐘 | |
風(fēng)俗: 實(shí)時(shí)綜合:每分鐘N/A
批量綜合:每分鐘 N/A 端點(diǎn)托管:每小時(shí)每個(gè)模型 N/A |
||
說(shuō)話人識(shí)別 (按交易計(jì)費(fèi)) |
說(shuō)話者驗(yàn)證7 | 每 1,000 筆交易5 美元 |
說(shuō)話者識(shí)別7 | 每 1,000 筆交易10 美元 | |
語(yǔ)音配置文件存儲(chǔ) | 每 1,000 個(gè)語(yǔ)音配置文件0.20 USD(每月 10,000 個(gè)免費(fèi)語(yǔ)音配置文件) |
其他價(jià)格信息請(qǐng)查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/


先決條件
- Azure 訂閱 - 免費(fèi)創(chuàng)建訂閱。
- 在 Azure 門(mén)戶(hù)中創(chuàng)建語(yǔ)音資源。
- 你的語(yǔ)音資源密鑰和地區(qū)。 部署語(yǔ)音資源后,選擇“轉(zhuǎn)到資源”以查看和管理密鑰。 有關(guān) Azure AI 服務(wù)資源的詳細(xì)信息,請(qǐng)參閱獲取資源密鑰。
設(shè)置環(huán)境
語(yǔ)音 SDK 以 NuGet 包的形式提供,實(shí)現(xiàn)了 .NET Standard 2.0。 稍后在本指南中安裝語(yǔ)音 SDK。 有關(guān)任何要求,請(qǐng)參閱安裝語(yǔ)音 SDK。
設(shè)置環(huán)境變量。
必須對(duì)應(yīng)用程序進(jìn)行身份驗(yàn)證才能訪問(wèn) Azure AI 服務(wù)資源。 對(duì)于生產(chǎn),請(qǐng)使用安全的方式存儲(chǔ)和訪問(wèn)憑據(jù)。 例如,獲取語(yǔ)音資源的密鑰后,請(qǐng)將其寫(xiě)入運(yùn)行應(yīng)用程序的本地計(jì)算機(jī)上的新環(huán)境變量。
提示
請(qǐng)不要直接在代碼中包含密鑰,并且絕不公開(kāi)發(fā)布密鑰。 有關(guān) Azure Key Vault 等更多身份驗(yàn)證選項(xiàng),請(qǐng)參閱 Azure AI 服務(wù)安全性。
若要為語(yǔ)音資源密鑰設(shè)置環(huán)境變量,請(qǐng)打開(kāi)控制臺(tái)窗口,并按照操作系統(tǒng)和開(kāi)發(fā)環(huán)境的說(shuō)明進(jìn)行操作。
- 要設(shè)置
SPEECH_KEY
環(huán)境變量,請(qǐng)將“your-key”替換為你的資源的某一個(gè)密鑰。 - 要設(shè)置
SPEECH_REGION
環(huán)境變量,請(qǐng)將 “your-region”替換為你的資源的某一個(gè)地區(qū)。
Windows:
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
添加環(huán)境變量后,你可能需要重啟任何需要讀取環(huán)境變量的程序(包括控制臺(tái)窗口)。 例如,如果使用 Visual Studio 作為編輯器,請(qǐng)?jiān)谶\(yùn)行示例之前重啟 Visual Studio。
合成到揚(yáng)聲器輸出
按照以下步驟創(chuàng)建控制臺(tái)應(yīng)用程序并安裝語(yǔ)音 SDK。
-
在需要新項(xiàng)目的文件夾中打開(kāi)命令提示符窗口。 運(yùn)行以下命令,使用 .NET CLI 創(chuàng)建控制臺(tái)應(yīng)用程序。
dotnet new console
該命令會(huì)在項(xiàng)目目錄中創(chuàng)建 Program.cs 文件。
- 使用 .NET CLI 在新項(xiàng)目中安裝語(yǔ)音 SDK。
dotnet add package Microsoft.CognitiveServices.Speech
- 將 Program.cs 的內(nèi)容替換為以下代碼。
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text) { switch (speechSynthesisResult.Reason) { case ResultReason.SynthesizingAudioCompleted: Console.WriteLine($"Speech synthesized for text: [{text}]"); break; case ResultReason.Canceled: var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; default: break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); // The neural multilingual voice can speak different languages based on the input text. speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)) { // Get text from the console and synthesize to the default speaker. Console.WriteLine("Enter some text that you want to speak >"); string text = Console.ReadLine(); var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text); OutputSpeechSynthesisResult(speechSynthesisResult, text); } Console.WriteLine("Press any key to exit..."); Console.ReadKey(); } }
-
若要更改語(yǔ)音合成語(yǔ)言,請(qǐng)將
en-US-AvaMultilingualNeural
替換為另一種受支持的語(yǔ)音。所有神經(jīng)網(wǎng)絡(luò)聲音都是多語(yǔ)言的,并且能夠流利地使用自己的語(yǔ)言和英語(yǔ)。 例如,如果英語(yǔ)的輸入文本為“I'm excited to try text to speech”并且你設(shè)置了
es-ES-ElviraNeural
,則該文本將用帶西班牙口音的英語(yǔ)講出。 如果語(yǔ)音使用的不是輸入文本的語(yǔ)言,則語(yǔ)音服務(wù)不會(huì)輸出合成的音頻。 - 運(yùn)行新的控制臺(tái)應(yīng)用程序,開(kāi)始將語(yǔ)音合成到默認(rèn)揚(yáng)聲器。
dotnet run
- 輸入要朗讀的一些文本。 例如,鍵入“我對(duì)嘗試文本轉(zhuǎn)語(yǔ)音非常興奮”。 選擇 Enter 鍵可聽(tīng)到合成的語(yǔ)音。
Enter some text that you want to speak > I'm excited to try text to speech
詳細(xì)指南請(qǐng)查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp






公司簡(jiǎn)介
隨時(shí)了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點(diǎn)等。
關(guān)于我們
認(rèn)識(shí) Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領(lǐng)導(dǎo)者。
我們的價(jià)值觀
了解我們?nèi)绾卫眉夹g(shù)來(lái)創(chuàng)建平臺(tái)和資源,造就長(zhǎng)遠(yuǎn)的積極影響。
特色計(jì)劃和項(xiàng)目
透過(guò)數(shù)字了解可持續(xù)發(fā)展到 2030 年,Microsoft 將實(shí)現(xiàn)負(fù)排碳目標(biāo)。 通過(guò)互動(dòng)方式了解我們公司改善對(duì)環(huán)境的影響的其他方式。 |
公司的社會(huì)責(zé)任我們相信技術(shù)是造福人類(lèi)的強(qiáng)大力量,并且正在努力創(chuàng)造一個(gè)可持續(xù)未來(lái),使每個(gè)人都可以享受到技術(shù)帶來(lái)的好處和機(jī)會(huì)。 |
故事在 Microsoft,我們受到來(lái)自世界各地的人們的啟發(fā),他們利用技術(shù)去做富有想象力、創(chuàng)新以及能改變生活的事情。 我們分享他們的故事。 |
Microsoft AI在以人為本的設(shè)計(jì)中,AI 可以擴(kuò)展你的能力,解放你的思維,讓你自由進(jìn)行更具創(chuàng)造性和策略性的嘗試,幫助你和你的組織達(dá)成更多成就。 |