文本轉(zhuǎn)語(yǔ)音服務(wù)-Azure AI
專用API
【更新時(shí)間: 2024.04.11】
Azure AI的文本轉(zhuǎn)語(yǔ)音服務(wù),這是一款強(qiáng)大的文本到語(yǔ)音應(yīng)用。它能夠?qū)⑽谋厩擅畹剞D(zhuǎn)換為極其逼真的語(yǔ)音,實(shí)現(xiàn)文字轉(zhuǎn)語(yǔ)音的智能語(yǔ)音生成,并且支持多種語(yǔ)言,讓文本與語(yǔ)音之間的轉(zhuǎn)換輕松而高效。
|
瀏覽次數(shù)
659
采購(gòu)人數(shù)
32
試用次數(shù)
0
收藏
×
完成
取消
×
書(shū)簽名稱
確定
|

- API詳情
- 使用指南
- 常見(jiàn) FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是Azure AI的文本轉(zhuǎn)語(yǔ)音服務(wù)?
Azure文本轉(zhuǎn)語(yǔ)音服務(wù),它可以將文本內(nèi)容轉(zhuǎn)換為自然發(fā)音的語(yǔ)音輸出。這項(xiàng)服務(wù)允許用戶通過(guò)自定義AI語(yǔ)音生成器來(lái)創(chuàng)造獨(dú)特的品牌聲音,并能夠根據(jù)不同的應(yīng)用場(chǎng)景選擇合適的語(yǔ)音風(fēng)格和情感語(yǔ)調(diào)。文本轉(zhuǎn)語(yǔ)音可讓?xiě)?yīng)用程序、工具或設(shè)備將文本轉(zhuǎn)換為類似于人類的合成語(yǔ)音。 文本轉(zhuǎn)語(yǔ)音功能也稱為語(yǔ)音合成。 使用類似于人類的現(xiàn)成預(yù)生成神經(jīng)語(yǔ)音,或根據(jù)你的產(chǎn)品或品牌創(chuàng)建獨(dú)特的自定義神經(jīng)語(yǔ)音。
什么是Azure AI的文本轉(zhuǎn)語(yǔ)音服務(wù)接口?
Azure AI的文本轉(zhuǎn)語(yǔ)音服務(wù)有哪些核心功能?
- 實(shí)時(shí)語(yǔ)音合成: azure 文本轉(zhuǎn)語(yǔ)音提供實(shí)時(shí)語(yǔ)音合成功能,使用語(yǔ)音SDK或REST API可以通過(guò)預(yù)生成的神經(jīng)網(wǎng)絡(luò)語(yǔ)音將文本轉(zhuǎn)換為語(yǔ)音。azure 文本轉(zhuǎn)語(yǔ)音使得應(yīng)用程序、工具或設(shè)備能夠?qū)崟r(shí)生成流暢自然的語(yǔ)音輸出,適用于聊天機(jī)器人、語(yǔ)音助手和車內(nèi)導(dǎo)航系統(tǒng)等場(chǎng)景。
- 長(zhǎng)音頻的異步合成: 使用批量合成API,azure 文本轉(zhuǎn)語(yǔ)音能夠異步合成10分鐘以上的長(zhǎng)音頻文件,例如有聲書(shū)籍或講座。與實(shí)時(shí)合成不同,這種合成方式不會(huì)立即返回響應(yīng),而是通過(guò)異步請(qǐng)求、輪詢響應(yīng)和下載合成音頻的方式來(lái)實(shí)現(xiàn)。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)語(yǔ)音:azure 文本轉(zhuǎn)語(yǔ)音使用深度神經(jīng)網(wǎng)絡(luò)來(lái)生成語(yǔ)音,克服了傳統(tǒng)語(yǔ)音合成在口語(yǔ)的重音和語(yǔ)調(diào)方面的局限性。韻律預(yù)測(cè)和語(yǔ)音合成同步發(fā)生,使輸出聽(tīng)起來(lái)更流暢且自然。每個(gè)預(yù)生成的神經(jīng)語(yǔ)音模型在24 kHz和高保真48 kHz下可用,適用于讓聊天機(jī)器人和語(yǔ)音助手的互動(dòng)更加自然和吸引人。
- 使用SSML改進(jìn)文本轉(zhuǎn)語(yǔ)音輸出: 語(yǔ)音合成標(biāo)記語(yǔ)言(SSML)是一種基于XML的標(biāo)記語(yǔ)言,用于對(duì)文本轉(zhuǎn)語(yǔ)音輸出進(jìn)行自定義。使用SSML,可以調(diào)整音調(diào)、添加暫停、改進(jìn)發(fā)音、更改語(yǔ)速、調(diào)整音量,以及將多個(gè)語(yǔ)音歸屬到單個(gè)文檔,從而提供更精細(xì)的語(yǔ)音控制
Azure AI的文本轉(zhuǎn)語(yǔ)音服務(wù)的核心優(yōu)勢(shì)是什么?
- 高質(zhì)量的神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成:azure 文本轉(zhuǎn)語(yǔ)音使用深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供清晰發(fā)音和自然韻律的語(yǔ)音合成,使計(jì)算機(jī)的聲音與人類錄音幾乎無(wú)法區(qū)分。azure 文本轉(zhuǎn)語(yǔ)音克服了傳統(tǒng)語(yǔ)音合成在口語(yǔ)的重音和語(yǔ)調(diào)方面的局限性,提供了流暢自然的語(yǔ)音輸出。
- 實(shí)時(shí)語(yǔ)音合成與長(zhǎng)音頻異步合成: 服務(wù)支持實(shí)時(shí)語(yǔ)音合成,允許通過(guò)語(yǔ)音SDK或REST API將文本轉(zhuǎn)換為語(yǔ)音。此外,azure 文本轉(zhuǎn)語(yǔ)音還提供長(zhǎng)音頻的異步合成功能,可以處理10分鐘以上的文本轉(zhuǎn)語(yǔ)音文件,如將電子書(shū)轉(zhuǎn)換為有聲讀物。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)語(yǔ)音: azure 文本轉(zhuǎn)語(yǔ)音提供了一系列預(yù)生成的神經(jīng)網(wǎng)絡(luò)語(yǔ)音,這些語(yǔ)音在24 kHz和高保真48 kHz下可用,使得與聊天機(jī)器人和語(yǔ)音助手的互動(dòng)更加自然和吸引人。
- 使用SSML改進(jìn)文本轉(zhuǎn)語(yǔ)音輸出: 語(yǔ)音合成標(biāo)記語(yǔ)言(SSML)允許用戶對(duì)文本轉(zhuǎn)語(yǔ)音輸出進(jìn)行自定義,包括調(diào)整音調(diào)、添加暫停、改進(jìn)發(fā)音、更改語(yǔ)速和調(diào)整音量等,從而提供更精細(xì)的語(yǔ)音控制。
- 多語(yǔ)言和區(qū)域支持: azure 文本轉(zhuǎn)語(yǔ)音支持超過(guò)400種神經(jīng)語(yǔ)音,涵蓋140多種語(yǔ)言和地區(qū),適合應(yīng)用在跨國(guó)業(yè)務(wù)、語(yǔ)言學(xué)習(xí)等需要多語(yǔ)言轉(zhuǎn)換的場(chǎng)景。
- 易于集成和使用: 用戶可以使用與非高清語(yǔ)音相同的SDK和REST API來(lái)生成高清語(yǔ)音,輕松集成到現(xiàn)有的應(yīng)用程序中,提供了靈活的集成選項(xiàng)和簡(jiǎn)便的操作流程
在哪些場(chǎng)景會(huì)用到Azure AI的文本轉(zhuǎn)語(yǔ)音服務(wù)?
1. 電子書(shū)和有聲讀物
想象一下,您擁有一本精彩的電子書(shū),但您沒(méi)有時(shí)間閱讀,或者您只是想在旅途中放松身心,享受聽(tīng)書(shū)的樂(lè)趣。Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)可以將您的電子書(shū)或文檔轉(zhuǎn)換為自然流暢的語(yǔ)音,為您提供沉浸式的聽(tīng)書(shū)體驗(yàn)。您只需將電子書(shū)內(nèi)容上傳到 Azure 平臺(tái),選擇合適的語(yǔ)音風(fēng)格和語(yǔ)速,即可生成高質(zhì)量的有聲讀物。這不僅方便了用戶,也為出版社和作家提供了一種新的內(nèi)容傳播方式。
2. 語(yǔ)音助手和聊天機(jī)器人
AI 語(yǔ)音助手和聊天機(jī)器人正逐漸成為我們生活中不可或缺的一部分。它們可以幫助我們完成各種任務(wù),例如查詢信息、設(shè)定提醒、控制智能家居等。Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)可以為這些智能助手和聊天機(jī)器人提供自然流暢的語(yǔ)音響應(yīng),使它們更像一個(gè)真正的伙伴,與用戶進(jìn)行自然對(duì)話。例如,您可以使用 Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)為您的智能音箱或聊天機(jī)器人提供個(gè)性化的語(yǔ)音,使其更具親切感和吸引力。
3. 視頻和音頻制作
在視頻制作或播客中,使用合成語(yǔ)音可以增強(qiáng)內(nèi)容的吸引力,并為觀眾提供更豐富的體驗(yàn)。例如,您可以使用 Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)為您的視頻添加旁白,或?yàn)槟牟タ蜕膳湟簟D梢赃x擇不同的語(yǔ)音風(fēng)格和語(yǔ)速,以適應(yīng)您的內(nèi)容和目標(biāo)受眾。這可以節(jié)省您聘請(qǐng)專業(yè)配音演員的成本,并提高內(nèi)容制作效率。
4. 界面朗讀
對(duì)于視力受限的用戶來(lái)說(shuō),使用電腦和手機(jī)等設(shè)備會(huì)帶來(lái)很大的困難。Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)可以幫助他們通過(guò)語(yǔ)音讀取屏幕上的信息,例如網(wǎng)頁(yè)內(nèi)容、電子郵件、文檔等。這可以幫助他們更便捷地獲取信息,并提高他們的生活質(zhì)量。
5. 客戶服務(wù)和呼叫中心
自動(dòng)語(yǔ)音應(yīng)答系統(tǒng)(IVR)和客戶服務(wù)機(jī)器人可以為客戶提供自動(dòng)語(yǔ)音服務(wù),例如,引導(dǎo)客戶進(jìn)行自助服務(wù)、提供常見(jiàn)問(wèn)題解答等。Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)可以為這些系統(tǒng)提供高質(zhì)量的語(yǔ)音,使其更具人性化,并提高客戶滿意度。
6. 教育和學(xué)習(xí)應(yīng)用
在教育和學(xué)習(xí)應(yīng)用中,Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)可以提供語(yǔ)音反饋和朗讀功能,幫助用戶更好地理解和學(xué)習(xí)。例如,在語(yǔ)言學(xué)習(xí)軟件中,您可以使用 Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)為用戶提供語(yǔ)音朗讀和發(fā)音練習(xí)。在兒童教育應(yīng)用中,您可以使用 Azure 文本轉(zhuǎn)語(yǔ)音服務(wù)為孩子朗讀故事和童謠,并提供語(yǔ)音互動(dòng)。


文本轉(zhuǎn)語(yǔ)音 REST API 開(kāi)發(fā)使用指南
概述
文本轉(zhuǎn)語(yǔ)音(TTS)服務(wù)允許開(kāi)發(fā)者將文本轉(zhuǎn)換為合成語(yǔ)音。本文檔提供了如何使用文本轉(zhuǎn)語(yǔ)音 REST API 的基本指南,包括獲取語(yǔ)音列表和將文本轉(zhuǎn)換為語(yǔ)音的步驟。
接口地址
獲取語(yǔ)音列表
要獲取特定區(qū)域的語(yǔ)音列表,使用以下終結(jié)點(diǎn):
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
請(qǐng)將 <YOUR_RESOURCE_REGION>
替換為您所需的區(qū)域,例如 westus
。
將文本轉(zhuǎn)換為語(yǔ)音
要將文本轉(zhuǎn)換為語(yǔ)音,使用以下終結(jié)點(diǎn):
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同樣,請(qǐng)將 <YOUR_RESOURCE_REGION>
替換為相應(yīng)的區(qū)域。
身份驗(yàn)證
在使用文本轉(zhuǎn)語(yǔ)音 REST API 之前,您需要進(jìn)行身份驗(yàn)證。可以使用以下兩種方式之一:
- 使用 Ocp-Apim-Subscription-Key:在請(qǐng)求中包含您的語(yǔ)音資源密鑰。
- 使用 Bearer Token:通過(guò)向
issueToken
終結(jié)點(diǎn)請(qǐng)求獲取訪問(wèn)令牌,并在后續(xù)請(qǐng)求中使用該令牌。
獲取訪問(wèn)令牌
要獲取訪問(wèn)令牌,請(qǐng)使用以下終結(jié)點(diǎn):
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
將 <REGION_IDENTIFIER>
替換為與您的訂閱區(qū)域相匹配的標(biāo)識(shí)符。
區(qū)域和終結(jié)點(diǎn)
文本轉(zhuǎn)語(yǔ)音服務(wù)支持多個(gè)區(qū)域。以下是一些可用的區(qū)域及其對(duì)應(yīng)的終結(jié)點(diǎn):
- 澳大利亞?wèn)|部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美國(guó)東部:
https://eastus.tts.speech.microsoft.com
- 西歐:
https://westeurope.tts.speech.microsoft.com
確保選擇與您的語(yǔ)音資源區(qū)域匹配的終結(jié)點(diǎn)。
音頻輸出格式
在請(qǐng)求中,您可以指定音頻輸出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事項(xiàng)
- 每個(gè)請(qǐng)求都需包含有效的身份驗(yàn)證信息。
- 對(duì)于長(zhǎng)文本,生成的音頻長(zhǎng)度不能超過(guò) 10 分鐘。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)聲音和定制聲音的費(fèi)用不同,具體請(qǐng)參考語(yǔ)音服務(wù)定價(jià)。
后續(xù)步驟
- 創(chuàng)建免費(fèi) Azure 帳戶以開(kāi)始使用服務(wù)。
- 了解神經(jīng)網(wǎng)絡(luò)定制聲音的使用方法。
- 探索批處理合成的功能。
通過(guò)遵循這些指南,您可以有效地使用文本轉(zhuǎn)語(yǔ)音 REST API 將文本轉(zhuǎn)換為高質(zhì)量的語(yǔ)音輸出。




什么是 Azure?
Azure 云平臺(tái)匯集的產(chǎn)品和云服務(wù)超過(guò) 200 種,旨在幫助你將新解決方案付諸實(shí)踐,以便解決當(dāng)今的難題,并創(chuàng)造未來(lái)。利用所選的工具和框架,在多個(gè)云中、在本地以及在邊緣生成、運(yùn)行和管理應(yīng)用程序。
合作伙伴:


【更新時(shí)間:2024.04.11】智能語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)采用行業(yè)領(lǐng)先的深度學(xué)習(xí)算法,實(shí)現(xiàn)將多語(yǔ)種語(yǔ)音內(nèi)容轉(zhuǎn)換為文字,支持60s內(nèi)音頻文件轉(zhuǎn)寫(xiě)以及實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)。全面滿足語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音搜索、直播字幕及庭審等多場(chǎng)景下的語(yǔ)音識(shí)別需求。


文本轉(zhuǎn)語(yǔ)音 REST API 開(kāi)發(fā)使用指南
概述
文本轉(zhuǎn)語(yǔ)音(TTS)服務(wù)允許開(kāi)發(fā)者將文本轉(zhuǎn)換為合成語(yǔ)音。本文檔提供了如何使用文本轉(zhuǎn)語(yǔ)音 REST API 的基本指南,包括獲取語(yǔ)音列表和將文本轉(zhuǎn)換為語(yǔ)音的步驟。
接口地址
獲取語(yǔ)音列表
要獲取特定區(qū)域的語(yǔ)音列表,使用以下終結(jié)點(diǎn):
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
請(qǐng)將 <YOUR_RESOURCE_REGION>
替換為您所需的區(qū)域,例如 westus
。
將文本轉(zhuǎn)換為語(yǔ)音
要將文本轉(zhuǎn)換為語(yǔ)音,使用以下終結(jié)點(diǎn):
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同樣,請(qǐng)將 <YOUR_RESOURCE_REGION>
替換為相應(yīng)的區(qū)域。
身份驗(yàn)證
在使用文本轉(zhuǎn)語(yǔ)音 REST API 之前,您需要進(jìn)行身份驗(yàn)證。可以使用以下兩種方式之一:
- 使用 Ocp-Apim-Subscription-Key:在請(qǐng)求中包含您的語(yǔ)音資源密鑰。
- 使用 Bearer Token:通過(guò)向
issueToken
終結(jié)點(diǎn)請(qǐng)求獲取訪問(wèn)令牌,并在后續(xù)請(qǐng)求中使用該令牌。
獲取訪問(wèn)令牌
要獲取訪問(wèn)令牌,請(qǐng)使用以下終結(jié)點(diǎn):
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
將 <REGION_IDENTIFIER>
替換為與您的訂閱區(qū)域相匹配的標(biāo)識(shí)符。
區(qū)域和終結(jié)點(diǎn)
文本轉(zhuǎn)語(yǔ)音服務(wù)支持多個(gè)區(qū)域。以下是一些可用的區(qū)域及其對(duì)應(yīng)的終結(jié)點(diǎn):
- 澳大利亞?wèn)|部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美國(guó)東部:
https://eastus.tts.speech.microsoft.com
- 西歐:
https://westeurope.tts.speech.microsoft.com
確保選擇與您的語(yǔ)音資源區(qū)域匹配的終結(jié)點(diǎn)。
音頻輸出格式
在請(qǐng)求中,您可以指定音頻輸出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事項(xiàng)
- 每個(gè)請(qǐng)求都需包含有效的身份驗(yàn)證信息。
- 對(duì)于長(zhǎng)文本,生成的音頻長(zhǎng)度不能超過(guò) 10 分鐘。
- 預(yù)生成的神經(jīng)網(wǎng)絡(luò)聲音和定制聲音的費(fèi)用不同,具體請(qǐng)參考語(yǔ)音服務(wù)定價(jià)。
后續(xù)步驟
- 創(chuàng)建免費(fèi) Azure 帳戶以開(kāi)始使用服務(wù)。
- 了解神經(jīng)網(wǎng)絡(luò)定制聲音的使用方法。
- 探索批處理合成的功能。
通過(guò)遵循這些指南,您可以有效地使用文本轉(zhuǎn)語(yǔ)音 REST API 將文本轉(zhuǎn)換為高質(zhì)量的語(yǔ)音輸出。






什么是 Azure?
Azure 云平臺(tái)匯集的產(chǎn)品和云服務(wù)超過(guò) 200 種,旨在幫助你將新解決方案付諸實(shí)踐,以便解決當(dāng)今的難題,并創(chuàng)造未來(lái)。利用所選的工具和框架,在多個(gè)云中、在本地以及在邊緣生成、運(yùn)行和管理應(yīng)用程序。
合作伙伴:




【更新時(shí)間:2024.04.11】智能語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)采用行業(yè)領(lǐng)先的深度學(xué)習(xí)算法,實(shí)現(xiàn)將多語(yǔ)種語(yǔ)音內(nèi)容轉(zhuǎn)換為文字,支持60s內(nèi)音頻文件轉(zhuǎn)寫(xiě)以及實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)。全面滿足語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音搜索、直播字幕及庭審等多場(chǎng)景下的語(yǔ)音識(shí)別需求。