文本轉語音服務-Azure AI

文本轉語音服務-Azure AI

專用API
服務商 服務商: 微軟云平臺
【更新時間: 2024.04.11】 Azure AI的文本轉語音服務,這是一款強大的文本到語音應用。它能夠將文本巧妙地轉換為極其逼真的語音,實現文字轉語音的智能語音生成,并且支持多種語言,讓文本與語音之間的轉換輕松而高效。
免費 (500?萬個字符(標準)) 去服務商官網采購>
瀏覽次數
659
采購人數
32
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是Azure AI的文本轉語音服務?

Azure文本轉語音服務,它可以將文本內容轉換為自然發音的語音輸出。這項服務允許用戶通過自定義AI語音生成器來創造獨特的品牌聲音,并能夠根據不同的應用場景選擇合適的語音風格和情感語調。文本轉語音可讓應用程序、工具或設備將文本轉換為類似于人類的合成語音。 文本轉語音功能也稱為語音合成。 使用類似于人類的現成預生成神經語音,或根據你的產品或品牌創建獨特的自定義神經語音。

 

 

什么是Azure AI的文本轉語音服務接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用Azure AI的文本轉語音服務,從而實現程序的自動化交互,提高服務效率。

Azure AI的文本轉語音服務有哪些核心功能?

  1. 實時語音合成: azure 文本轉語音提供實時語音合成功能,使用語音SDK或REST API可以通過預生成的神經網絡語音將文本轉換為語音。azure 文本轉語音使得應用程序、工具或設備能夠實時生成流暢自然的語音輸出,適用于聊天機器人、語音助手和車內導航系統等場景
  2. 長音頻的異步合成: 使用批量合成API,azure 文本轉語音能夠異步合成10分鐘以上的長音頻文件,例如有聲書籍或講座。與實時合成不同,這種合成方式不會立即返回響應,而是通過異步請求、輪詢響應和下載合成音頻的方式來實現。
  3. 預生成的神經網絡語音:azure 文本轉語音使用深度神經網絡來生成語音,克服了傳統語音合成在口語的重音和語調方面的局限性。韻律預測和語音合成同步發生,使輸出聽起來更流暢且自然。每個預生成的神經語音模型在24 kHz和高保真48 kHz下可用,適用于讓聊天機器人和語音助手的互動更加自然和吸引人。
  4. 使用SSML改進文本轉語音輸出: 語音合成標記語言(SSML)是一種基于XML的標記語言,用于對文本轉語音輸出進行自定義。使用SSML,可以調整音調、添加暫停、改進發音、更改語速、調整音量,以及將多個語音歸屬到單個文檔,從而提供更精細的語音控制

Azure AI的文本轉語音服務的核心優勢是什么?

  1. 高質量的神經網絡語音合成:azure 文本轉語音使用深度神經網絡技術,提供清晰發音和自然韻律的語音合成,使計算機的聲音與人類錄音幾乎無法區分。azure 文本轉語音克服了傳統語音合成在口語的重音和語調方面的局限性,提供了流暢自然的語音輸出。
  2. 實時語音合成與長音頻異步合成: 服務支持實時語音合成,允許通過語音SDK或REST API將文本轉換為語音。此外,azure 文本轉語音還提供長音頻的異步合成功能,可以處理10分鐘以上的文本轉語音文件,如將電子書轉換為有聲讀物
  3. 預生成的神經網絡語音: azure 文本轉語音提供了一系列預生成的神經網絡語音,這些語音在24 kHz和高保真48 kHz下可用,使得與聊天機器人和語音助手的互動更加自然和吸引人。
  4. 使用SSML改進文本轉語音輸出: 語音合成標記語言(SSML)允許用戶對文本轉語音輸出進行自定義,包括調整音調、添加暫停、改進發音、更改語速和調整音量等,從而提供更精細的語音控制。
  5. 多語言和區域支持: azure 文本轉語音支持超過400種神經語音,涵蓋140多種語言和地區,適合應用在跨國業務、語言學習等需要多語言轉換的場景
  6. 易于集成和使用: 用戶可以使用與非高清語音相同的SDK和REST API來生成高清語音,輕松集成到現有的應用程序中,提供了靈活的集成選項和簡便的操作流程

在哪些場景會用到Azure AI的文本轉語音服務?

1. 電子書和有聲讀物

想象一下,您擁有一本精彩的電子書,但您沒有時間閱讀,或者您只是想在旅途中放松身心,享受聽書的樂趣。Azure 文本轉語音服務可以將您的電子書或文檔轉換為自然流暢的語音,為您提供沉浸式的聽書體驗。您只需將電子書內容上傳到 Azure 平臺,選擇合適的語音風格和語速,即可生成高質量的有聲讀物。這不僅方便了用戶,也為出版社和作家提供了一種新的內容傳播方式。

 

 

2. 語音助手和聊天機器人

AI 語音助手和聊天機器人正逐漸成為我們生活中不可或缺的一部分。它們可以幫助我們完成各種任務,例如查詢信息、設定提醒、控制智能家居等。Azure 文本轉語音服務可以為這些智能助手和聊天機器人提供自然流暢的語音響應,使它們更像一個真正的伙伴,與用戶進行自然對話。例如,您可以使用 Azure 文本轉語音服務為您的智能音箱或聊天機器人提供個性化的語音,使其更具親切感和吸引力。

 

 

3. 視頻和音頻制作

在視頻制作或播客中,使用合成語音可以增強內容的吸引力,并為觀眾提供更豐富的體驗。例如,您可以使用 Azure 文本轉語音服務為您的視頻添加旁白,或為您的播客生成配音。您可以選擇不同的語音風格和語速,以適應您的內容和目標受眾。這可以節省您聘請專業配音演員的成本,并提高內容制作效率。

 

 

4. 界面朗讀

對于視力受限的用戶來說,使用電腦和手機等設備會帶來很大的困難。Azure 文本轉語音服務可以幫助他們通過語音讀取屏幕上的信息,例如網頁內容、電子郵件、文檔等。這可以幫助他們更便捷地獲取信息,并提高他們的生活質量。

 

 

5. 客戶服務和呼叫中心

自動語音應答系統(IVR)和客戶服務機器人可以為客戶提供自動語音服務,例如,引導客戶進行自助服務、提供常見問題解答等。Azure 文本轉語音服務可以為這些系統提供高質量的語音,使其更具人性化,并提高客戶滿意度。

 

 

6. 教育和學習應用

在教育和學習應用中,Azure 文本轉語音服務可以提供語音反饋和朗讀功能,幫助用戶更好地理解和學習。例如,在語言學習軟件中,您可以使用 Azure 文本轉語音服務為用戶提供語音朗讀和發音練習。在兒童教育應用中,您可以使用 Azure 文本轉語音服務為孩子朗讀故事和童謠,并提供語音互動。

 

<
使用指南
>

文本轉語音 REST API 開發使用指南

概述

文本轉語音(TTS)服務允許開發者將文本轉換為合成語音。本文檔提供了如何使用文本轉語音 REST API 的基本指南,包括獲取語音列表和將文本轉換為語音的步驟。

接口地址

獲取語音列表

要獲取特定區域的語音列表,使用以下終結點:

GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list

請將 <YOUR_RESOURCE_REGION> 替換為您所需的區域,例如 westus。

將文本轉換為語音

要將文本轉換為語音,使用以下終結點:

POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1

同樣,請將 <YOUR_RESOURCE_REGION> 替換為相應的區域。

身份驗證

在使用文本轉語音 REST API 之前,您需要進行身份驗證??梢允褂靡韵聝煞N方式之一:

  1. 使用 Ocp-Apim-Subscription-Key:在請求中包含您的語音資源密鑰。
  2. 使用 Bearer Token:通過向 issueToken 終結點請求獲取訪問令牌,并在后續請求中使用該令牌。

獲取訪問令牌

要獲取訪問令牌,請使用以下終結點:

POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

<REGION_IDENTIFIER> 替換為與您的訂閱區域相匹配的標識符。

區域和終結點

文本轉語音服務支持多個區域。以下是一些可用的區域及其對應的終結點:

  • 澳大利亞東部: https://australiaeast.tts.speech.microsoft.com
  • 巴西南部: https://brazilsouth.tts.speech.microsoft.com
  • 加拿大中部: https://canadacentral.tts.speech.microsoft.com
  • 美國東部: https://eastus.tts.speech.microsoft.com
  • 西歐: https://westeurope.tts.speech.microsoft.com

確保選擇與您的語音資源區域匹配的終結點。

音頻輸出格式

在請求中,您可以指定音頻輸出格式,支持的格式包括但不限于:

  • riff-24khz-16bit-mono-pcm
  • audio-24khz-192kbitrate-mono-mp3
  • ogg-24khz-16bit-mono-opus

注意事項

  • 每個請求都需包含有效的身份驗證信息。
  • 對于長文本,生成的音頻長度不能超過 10 分鐘。
  • 預生成的神經網絡聲音和定制聲音的費用不同,具體請參考語音服務定價。

后續步驟

  • 創建免費 Azure 帳戶以開始使用服務。
  • 了解神經網絡定制聲音的使用方法。
  • 探索批處理合成的功能。

通過遵循這些指南,您可以有效地使用文本轉語音 REST API 將文本轉換為高質量的語音輸出。

 

詳情查看鏈接:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming

<
產品問答
>
?
文本轉語音是如何計費的?
文本轉語音服務按字符計費。 查看定價說明中可計費字符的定義。
?
文本轉語音合成請求的速率限制是多少?
文本轉語音的合成速率在收到更多請求時會自動調整。 每個語音資源都設有默認速率限制。 費率可根據業務理由進行調整,不會因費率上限增加而產生額外的費用。 請在語音服務配額和限制中查看更多詳細信息。
?
如何向最終用戶披露語音是合成語音?
我們建議每個用戶在使用 TTS 服務時都應遵守我們的行為準則。 披露語音的合成性質有多種方式,包括隱式和顯式署名。 請參考披露設計準則。
?
如何降低語音應用的延遲?
我們為你提供了一些提示,以降低延遲并為用戶提供最佳性能。 請參閱使用語音 SDK 降低語音合成延遲。
?
TTS 支持哪些輸出音頻格式?
TTS 服務支持采用常用采樣率的各種流式處理和非流式處理音頻格式。 所有 TTS 預生成的神經語音都可支持 48 kHz 和 24 kHz 的高保真音頻輸出。 可以根據需要對音頻重新采樣以支持其他速率。 請參閱音頻輸出。
?
是否可以自定義語音以重讀特定字詞?
某些語音支持調整強調,具體取決于區域設置。 請參閱強調標記。
?
每種情緒是否可以有多種不同的強烈程度,比如悲傷、有點悲傷等?
某些語音支持調整風格程度,具體取決于區域設置。 請參閱 mstts:express-as 標記。
?
是否可以在同一組訓練數據中包含重復的文本句子?
否。 該服務將標記重復的句子,并僅保留第一個導入的句子。 有關腳本選擇條件,請參閱錄制自定義語音示例。
?
是否可以在同一組訓練數據中包含多個風格?
建議在一組訓練數據中保持一致風格。 如果風格不同,請將數據放入不同的訓練集中。 在這種情況下,可以考慮使用神經網絡定制聲音的多風格語音訓練功能。 有關腳本選擇條件,請參閱錄制自定義語音示例。
?
通過 SSML 切換風格是否適用于神經網絡定制聲音?
通過 SSML 切換風格適用于預生成的多風格語音和 CNV 多風格語音。 通過多風格訓練,可以創建以不同風格說話的語音,還可以通過 SSML 調整這些風格。
<
關于我們
>
微軟Azure是微軟公司提供的云計算服務,以即付即用和免費試用的方式,支持企業構建、部署和管理工作負載。Azure擁有豐富的產品線,包括虛擬機、AI服務、容器服務、混合云解決方案等,滿足不同業務需求。其全球基礎結構覆蓋廣泛,確保數據安全和合規性。Azure致力于幫助企業實現數字化轉型,通過創新技術推動業務增長。
聯系信息
服務時間: 09:00~18:00
電話號碼: 400-820-6069

什么是 Azure?

Azure 云平臺匯集的產品和云服務超過 200 種,旨在幫助你將新解決方案付諸實踐,以便解決當今的難題,并創造未來。利用所選的工具和框架,在多個云中、在本地以及在邊緣生成、運行和管理應用程序。

合作伙伴:

<
最可能同場景使用的其他API
>
API接口列表
<
使用指南
>

文本轉語音 REST API 開發使用指南

概述

文本轉語音(TTS)服務允許開發者將文本轉換為合成語音。本文檔提供了如何使用文本轉語音 REST API 的基本指南,包括獲取語音列表和將文本轉換為語音的步驟。

接口地址

獲取語音列表

要獲取特定區域的語音列表,使用以下終結點:

GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list

請將 <YOUR_RESOURCE_REGION> 替換為您所需的區域,例如 westus。

將文本轉換為語音

要將文本轉換為語音,使用以下終結點:

POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1

同樣,請將 <YOUR_RESOURCE_REGION> 替換為相應的區域。

身份驗證

在使用文本轉語音 REST API 之前,您需要進行身份驗證。可以使用以下兩種方式之一:

  1. 使用 Ocp-Apim-Subscription-Key:在請求中包含您的語音資源密鑰。
  2. 使用 Bearer Token:通過向 issueToken 終結點請求獲取訪問令牌,并在后續請求中使用該令牌。

獲取訪問令牌

要獲取訪問令牌,請使用以下終結點:

POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

<REGION_IDENTIFIER> 替換為與您的訂閱區域相匹配的標識符。

區域和終結點

文本轉語音服務支持多個區域。以下是一些可用的區域及其對應的終結點:

  • 澳大利亞東部: https://australiaeast.tts.speech.microsoft.com
  • 巴西南部: https://brazilsouth.tts.speech.microsoft.com
  • 加拿大中部: https://canadacentral.tts.speech.microsoft.com
  • 美國東部: https://eastus.tts.speech.microsoft.com
  • 西歐: https://westeurope.tts.speech.microsoft.com

確保選擇與您的語音資源區域匹配的終結點。

音頻輸出格式

在請求中,您可以指定音頻輸出格式,支持的格式包括但不限于:

  • riff-24khz-16bit-mono-pcm
  • audio-24khz-192kbitrate-mono-mp3
  • ogg-24khz-16bit-mono-opus

注意事項

  • 每個請求都需包含有效的身份驗證信息。
  • 對于長文本,生成的音頻長度不能超過 10 分鐘。
  • 預生成的神經網絡聲音和定制聲音的費用不同,具體請參考語音服務定價。

后續步驟

  • 創建免費 Azure 帳戶以開始使用服務。
  • 了解神經網絡定制聲音的使用方法。
  • 探索批處理合成的功能。

通過遵循這些指南,您可以有效地使用文本轉語音 REST API 將文本轉換為高質量的語音輸出。

 

詳情查看鏈接:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming

<
依賴服務
>
<
產品問答
>
?
文本轉語音是如何計費的?
文本轉語音服務按字符計費。 查看定價說明中可計費字符的定義。
?
文本轉語音合成請求的速率限制是多少?
文本轉語音的合成速率在收到更多請求時會自動調整。 每個語音資源都設有默認速率限制。 費率可根據業務理由進行調整,不會因費率上限增加而產生額外的費用。 請在語音服務配額和限制中查看更多詳細信息。
?
如何向最終用戶披露語音是合成語音?
我們建議每個用戶在使用 TTS 服務時都應遵守我們的行為準則。 披露語音的合成性質有多種方式,包括隱式和顯式署名。 請參考披露設計準則。
?
如何降低語音應用的延遲?
我們為你提供了一些提示,以降低延遲并為用戶提供最佳性能。 請參閱使用語音 SDK 降低語音合成延遲。
?
TTS 支持哪些輸出音頻格式?
TTS 服務支持采用常用采樣率的各種流式處理和非流式處理音頻格式。 所有 TTS 預生成的神經語音都可支持 48 kHz 和 24 kHz 的高保真音頻輸出。 可以根據需要對音頻重新采樣以支持其他速率。 請參閱音頻輸出。
?
是否可以自定義語音以重讀特定字詞?
某些語音支持調整強調,具體取決于區域設置。 請參閱強調標記。
?
每種情緒是否可以有多種不同的強烈程度,比如悲傷、有點悲傷等?
某些語音支持調整風格程度,具體取決于區域設置。 請參閱 mstts:express-as 標記。
?
是否可以在同一組訓練數據中包含重復的文本句子?
否。 該服務將標記重復的句子,并僅保留第一個導入的句子。 有關腳本選擇條件,請參閱錄制自定義語音示例。
?
是否可以在同一組訓練數據中包含多個風格?
建議在一組訓練數據中保持一致風格。 如果風格不同,請將數據放入不同的訓練集中。 在這種情況下,可以考慮使用神經網絡定制聲音的多風格語音訓練功能。 有關腳本選擇條件,請參閱錄制自定義語音示例。
?
通過 SSML 切換風格是否適用于神經網絡定制聲音?
通過 SSML 切換風格適用于預生成的多風格語音和 CNV 多風格語音。 通過多風格訓練,可以創建以不同風格說話的語音,還可以通過 SSML 調整這些風格。
<
關于我們
>
微軟Azure是微軟公司提供的云計算服務,以即付即用和免費試用的方式,支持企業構建、部署和管理工作負載。Azure擁有豐富的產品線,包括虛擬機、AI服務、容器服務、混合云解決方案等,滿足不同業務需求。其全球基礎結構覆蓋廣泛,確保數據安全和合規性。Azure致力于幫助企業實現數字化轉型,通過創新技術推動業務增長。
聯系信息
服務時間: 09:00~18:00
電話號碼: 400-820-6069

什么是 Azure?

Azure 云平臺匯集的產品和云服務超過 200 種,旨在幫助你將新解決方案付諸實踐,以便解決當今的難題,并創造未來。利用所選的工具和框架,在多個云中、在本地以及在邊緣生成、運行和管理應用程序。

合作伙伴:

<
合作案例
>

<
最可能同場景使用的其他API
>