文本轉語音服務-Azure AI
專用API
【更新時間: 2024.04.11】
Azure AI的文本轉語音服務,這是一款強大的文本到語音應用。它能夠將文本巧妙地轉換為極其逼真的語音,實現文字轉語音的智能語音生成,并且支持多種語言,讓文本與語音之間的轉換輕松而高效。
|
瀏覽次數
659
采購人數
32
試用次數
0
收藏
×
完成
取消
×
書簽名稱
確定
|

- API詳情
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是Azure AI的文本轉語音服務?
Azure文本轉語音服務,它可以將文本內容轉換為自然發音的語音輸出。這項服務允許用戶通過自定義AI語音生成器來創造獨特的品牌聲音,并能夠根據不同的應用場景選擇合適的語音風格和情感語調。文本轉語音可讓應用程序、工具或設備將文本轉換為類似于人類的合成語音。 文本轉語音功能也稱為語音合成。 使用類似于人類的現成預生成神經語音,或根據你的產品或品牌創建獨特的自定義神經語音。
什么是Azure AI的文本轉語音服務接口?
Azure AI的文本轉語音服務有哪些核心功能?
- 實時語音合成: azure 文本轉語音提供實時語音合成功能,使用語音SDK或REST API可以通過預生成的神經網絡語音將文本轉換為語音。azure 文本轉語音使得應用程序、工具或設備能夠實時生成流暢自然的語音輸出,適用于聊天機器人、語音助手和車內導航系統等場景。
- 長音頻的異步合成: 使用批量合成API,azure 文本轉語音能夠異步合成10分鐘以上的長音頻文件,例如有聲書籍或講座。與實時合成不同,這種合成方式不會立即返回響應,而是通過異步請求、輪詢響應和下載合成音頻的方式來實現。
- 預生成的神經網絡語音:azure 文本轉語音使用深度神經網絡來生成語音,克服了傳統語音合成在口語的重音和語調方面的局限性。韻律預測和語音合成同步發生,使輸出聽起來更流暢且自然。每個預生成的神經語音模型在24 kHz和高保真48 kHz下可用,適用于讓聊天機器人和語音助手的互動更加自然和吸引人。
- 使用SSML改進文本轉語音輸出: 語音合成標記語言(SSML)是一種基于XML的標記語言,用于對文本轉語音輸出進行自定義。使用SSML,可以調整音調、添加暫停、改進發音、更改語速、調整音量,以及將多個語音歸屬到單個文檔,從而提供更精細的語音控制
Azure AI的文本轉語音服務的核心優勢是什么?
- 高質量的神經網絡語音合成:azure 文本轉語音使用深度神經網絡技術,提供清晰發音和自然韻律的語音合成,使計算機的聲音與人類錄音幾乎無法區分。azure 文本轉語音克服了傳統語音合成在口語的重音和語調方面的局限性,提供了流暢自然的語音輸出。
- 實時語音合成與長音頻異步合成: 服務支持實時語音合成,允許通過語音SDK或REST API將文本轉換為語音。此外,azure 文本轉語音還提供長音頻的異步合成功能,可以處理10分鐘以上的文本轉語音文件,如將電子書轉換為有聲讀物。
- 預生成的神經網絡語音: azure 文本轉語音提供了一系列預生成的神經網絡語音,這些語音在24 kHz和高保真48 kHz下可用,使得與聊天機器人和語音助手的互動更加自然和吸引人。
- 使用SSML改進文本轉語音輸出: 語音合成標記語言(SSML)允許用戶對文本轉語音輸出進行自定義,包括調整音調、添加暫停、改進發音、更改語速和調整音量等,從而提供更精細的語音控制。
- 多語言和區域支持: azure 文本轉語音支持超過400種神經語音,涵蓋140多種語言和地區,適合應用在跨國業務、語言學習等需要多語言轉換的場景。
- 易于集成和使用: 用戶可以使用與非高清語音相同的SDK和REST API來生成高清語音,輕松集成到現有的應用程序中,提供了靈活的集成選項和簡便的操作流程
在哪些場景會用到Azure AI的文本轉語音服務?
1. 電子書和有聲讀物
想象一下,您擁有一本精彩的電子書,但您沒有時間閱讀,或者您只是想在旅途中放松身心,享受聽書的樂趣。Azure 文本轉語音服務可以將您的電子書或文檔轉換為自然流暢的語音,為您提供沉浸式的聽書體驗。您只需將電子書內容上傳到 Azure 平臺,選擇合適的語音風格和語速,即可生成高質量的有聲讀物。這不僅方便了用戶,也為出版社和作家提供了一種新的內容傳播方式。
2. 語音助手和聊天機器人
AI 語音助手和聊天機器人正逐漸成為我們生活中不可或缺的一部分。它們可以幫助我們完成各種任務,例如查詢信息、設定提醒、控制智能家居等。Azure 文本轉語音服務可以為這些智能助手和聊天機器人提供自然流暢的語音響應,使它們更像一個真正的伙伴,與用戶進行自然對話。例如,您可以使用 Azure 文本轉語音服務為您的智能音箱或聊天機器人提供個性化的語音,使其更具親切感和吸引力。
3. 視頻和音頻制作
在視頻制作或播客中,使用合成語音可以增強內容的吸引力,并為觀眾提供更豐富的體驗。例如,您可以使用 Azure 文本轉語音服務為您的視頻添加旁白,或為您的播客生成配音。您可以選擇不同的語音風格和語速,以適應您的內容和目標受眾。這可以節省您聘請專業配音演員的成本,并提高內容制作效率。
4. 界面朗讀
對于視力受限的用戶來說,使用電腦和手機等設備會帶來很大的困難。Azure 文本轉語音服務可以幫助他們通過語音讀取屏幕上的信息,例如網頁內容、電子郵件、文檔等。這可以幫助他們更便捷地獲取信息,并提高他們的生活質量。
5. 客戶服務和呼叫中心
自動語音應答系統(IVR)和客戶服務機器人可以為客戶提供自動語音服務,例如,引導客戶進行自助服務、提供常見問題解答等。Azure 文本轉語音服務可以為這些系統提供高質量的語音,使其更具人性化,并提高客戶滿意度。
6. 教育和學習應用
在教育和學習應用中,Azure 文本轉語音服務可以提供語音反饋和朗讀功能,幫助用戶更好地理解和學習。例如,在語言學習軟件中,您可以使用 Azure 文本轉語音服務為用戶提供語音朗讀和發音練習。在兒童教育應用中,您可以使用 Azure 文本轉語音服務為孩子朗讀故事和童謠,并提供語音互動。


文本轉語音 REST API 開發使用指南
概述
文本轉語音(TTS)服務允許開發者將文本轉換為合成語音。本文檔提供了如何使用文本轉語音 REST API 的基本指南,包括獲取語音列表和將文本轉換為語音的步驟。
接口地址
獲取語音列表
要獲取特定區域的語音列表,使用以下終結點:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
請將 <YOUR_RESOURCE_REGION>
替換為您所需的區域,例如 westus
。
將文本轉換為語音
要將文本轉換為語音,使用以下終結點:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同樣,請將 <YOUR_RESOURCE_REGION>
替換為相應的區域。
身份驗證
在使用文本轉語音 REST API 之前,您需要進行身份驗證??梢允褂靡韵聝煞N方式之一:
- 使用 Ocp-Apim-Subscription-Key:在請求中包含您的語音資源密鑰。
- 使用 Bearer Token:通過向
issueToken
終結點請求獲取訪問令牌,并在后續請求中使用該令牌。
獲取訪問令牌
要獲取訪問令牌,請使用以下終結點:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
將 <REGION_IDENTIFIER>
替換為與您的訂閱區域相匹配的標識符。
區域和終結點
文本轉語音服務支持多個區域。以下是一些可用的區域及其對應的終結點:
- 澳大利亞東部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美國東部:
https://eastus.tts.speech.microsoft.com
- 西歐:
https://westeurope.tts.speech.microsoft.com
確保選擇與您的語音資源區域匹配的終結點。
音頻輸出格式
在請求中,您可以指定音頻輸出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事項
- 每個請求都需包含有效的身份驗證信息。
- 對于長文本,生成的音頻長度不能超過 10 分鐘。
- 預生成的神經網絡聲音和定制聲音的費用不同,具體請參考語音服務定價。
后續步驟
- 創建免費 Azure 帳戶以開始使用服務。
- 了解神經網絡定制聲音的使用方法。
- 探索批處理合成的功能。
通過遵循這些指南,您可以有效地使用文本轉語音 REST API 將文本轉換為高質量的語音輸出。




什么是 Azure?
Azure 云平臺匯集的產品和云服務超過 200 種,旨在幫助你將新解決方案付諸實踐,以便解決當今的難題,并創造未來。利用所選的工具和框架,在多個云中、在本地以及在邊緣生成、運行和管理應用程序。
合作伙伴:


文本轉語音 REST API 開發使用指南
概述
文本轉語音(TTS)服務允許開發者將文本轉換為合成語音。本文檔提供了如何使用文本轉語音 REST API 的基本指南,包括獲取語音列表和將文本轉換為語音的步驟。
接口地址
獲取語音列表
要獲取特定區域的語音列表,使用以下終結點:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
請將 <YOUR_RESOURCE_REGION>
替換為您所需的區域,例如 westus
。
將文本轉換為語音
要將文本轉換為語音,使用以下終結點:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同樣,請將 <YOUR_RESOURCE_REGION>
替換為相應的區域。
身份驗證
在使用文本轉語音 REST API 之前,您需要進行身份驗證。可以使用以下兩種方式之一:
- 使用 Ocp-Apim-Subscription-Key:在請求中包含您的語音資源密鑰。
- 使用 Bearer Token:通過向
issueToken
終結點請求獲取訪問令牌,并在后續請求中使用該令牌。
獲取訪問令牌
要獲取訪問令牌,請使用以下終結點:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
將 <REGION_IDENTIFIER>
替換為與您的訂閱區域相匹配的標識符。
區域和終結點
文本轉語音服務支持多個區域。以下是一些可用的區域及其對應的終結點:
- 澳大利亞東部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美國東部:
https://eastus.tts.speech.microsoft.com
- 西歐:
https://westeurope.tts.speech.microsoft.com
確保選擇與您的語音資源區域匹配的終結點。
音頻輸出格式
在請求中,您可以指定音頻輸出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事項
- 每個請求都需包含有效的身份驗證信息。
- 對于長文本,生成的音頻長度不能超過 10 分鐘。
- 預生成的神經網絡聲音和定制聲音的費用不同,具體請參考語音服務定價。
后續步驟
- 創建免費 Azure 帳戶以開始使用服務。
- 了解神經網絡定制聲音的使用方法。
- 探索批處理合成的功能。
通過遵循這些指南,您可以有效地使用文本轉語音 REST API 將文本轉換為高質量的語音輸出。






什么是 Azure?
Azure 云平臺匯集的產品和云服務超過 200 種,旨在幫助你將新解決方案付諸實踐,以便解決當今的難題,并創造未來。利用所選的工具和框架,在多個云中、在本地以及在邊緣生成、運行和管理應用程序。
合作伙伴:

