## 文本轉語音功能支持

1、文字轉語音:將文字進行語音合成,轉為擬人態的聲音。

2、語音定義:是否可標記添加停頓、數字、日期和時間格式以及其他發音規則,實現語音自定義。

3、音高調節:對所選語音的音高進行個性化設置。

4、講話速度調整:調整語音的講話速度。

5、音色定義:是否提供多語音、多種音色以適配不同場景的語音合成需求。

6、情感強度控制:是否支持自定義情感強度。

文本轉語音支持的語言

不同的廠商支持的語言各不相同,例如:微軟文字轉語音產品支持當前大部分國家和地區的官方語言;

文本轉語音集成方式

通常是2種集成方式:

1、【文本轉語音API
-是否支持在線實時合成服務,支持可發起網絡請求的服務或設備的語音合成請求;
-是否支持批量合成服務,例如小說、新聞等長篇文本的批量合成;
2、【文本轉語音SDK
-輕巧簡便,滿足手機、智能硬件等快速集成,支持在/離線的服務調用;

文本轉語音的工作原理

先進的語音合成模型均以參數神經網絡為基礎。文本轉語音 (TTS) 合成通常分兩步完成。

聲碼器網絡將時間對齊的特征轉換為音頻波形。準備用于合成的輸入文本需要文本分析,例如將文本轉換為單詞和句子,識別和擴展縮寫以及辨認和分析表達式。表達式包含日期、金額和機場代碼。

將文本分析的輸出傳遞到語言分析中,用于改進發音、計算單詞的持續時間、破譯語音的音期結構,以及理解語法信息。

然后,將語言分析的輸出輸入到語音合成神經網絡模型,例如 Tacotron2,該模型將文本轉換為梅爾頻譜圖,然后輸入到 Wave Glow 等神經聲碼器模型,從而生成自然發音的語音。

熱門的 TTS 深度學習模型包括 Wavenet、Tacotron 2 和 WaveGlow。

2006 年,Google WaveNet 引入了深度學習技術,采用一種新方法,一次直接對音頻信號的原始波形進行一個樣本建模。其模型為概率和自回歸,且每個音頻樣本的預測分布均以所有之前的樣本為條件。WaveNet 是一個全卷積神經網絡,卷積層具有各種膨脹因子,允許其感受野隨深度呈指數增長。輸入序列是人類說話者記錄的波形。

Google WaveNet.DeepMind)

Tacotron 2 是一種神經網絡架構,用于從文本中使用帶有注意力的循環序列到序列模型直接進行語音合成。編碼器(下圖中的藍色塊)將整個文本轉換為固定大小的隱藏特征表示。然后,自回歸解碼器(橙色塊)使用此特征表示,一次生成一個頻譜圖幀。

用于 PyTorch 模型的 NVIDIA Tacotron 2 和 WaveGlow。WaveGlow 是一個基于流的模型,它使用梅爾頻譜圖來生成語音。

在訓練過程中,模型通過一系列流程學習將數據集分布轉換為球形高斯分布。流的一個步驟包含一個可逆卷積,然后是一個修改后的 WaveNet 架構,該架構用作仿射耦合層。在推理期間,網絡為反向網絡,音頻樣本則從高斯分布中生成。

## 文字轉語音品牌服務商

文字轉語音API是人工智能大模型的一種典型應用,需要的訓練數據較多,特征聲音模型需要采購,對資金量的要求比較大,一般都是大企業提供該類服務,例如:

一站搜索、試用、比較全球API!
冪簡集成已收錄 5527種API!
試用API,一次比較多個渠道