Polly API 的核心功能和特點

支持多語言和多語音

Polly API 支持多種語言和方言,能夠生成幾十種不同的語音。用戶可以根據具體需求選擇不同的語音風格和語言,使其更適合國際化應用場景。例如,支持英語(多種口音)、法語、中文、日語等。

神經 TTS 提供更自然的語音

Polly 的神經 TTS 技術通過深度學習模型生成更加逼真的語音,能夠模擬人類的發音語調、重音和停頓。相比標準 TTS,神經 TTS 的聲音更加自然,適合需要高質量語音的場景。

SSML 集成功能

Polly 支持語音合成標記語言(SSML),允許開發者通過標簽控制語音的語速、音調、重音和停頓。例如,SSML 標簽可以用于在一段文本中插入停頓或調整語調,使語音更加個性化。

// 使用 SSML 創建自然語音
String ssmlText = "Hello, welcome to Amazon Polly!  How can I assist you today?";
SynthesizeSpeechRequest synthReq = SynthesizeSpeechRequest.builder()
        .text(ssmlText)
        .textType("ssml")
        .voiceId("Joanna")
        .outputFormat(OutputFormat.MP3)
        .build();

靈活的音頻格式輸出

Polly 支持多種音頻格式輸出,如 MP3 和 OGG。開發者可以選擇最適合應用需求的格式。

語音定制和實時響應

用戶可以通過自定義詞典和語音參數來調整語音輸出,使其完全符合特定需求。此外,Polly 的實時響應能力滿足對低延遲的要求,比如在對話式 AI 系統中的使用。


如何配置和使用 Polly API

配置 AWS CLI

為了使用 Polly API,首先需要安裝和配置 AWS CLI(命令行界面)。以下是具體步驟:

檢查 AWS CLI 是否安裝

在終端中運行以下命令,檢查 AWS CLI 是否已正確安裝:

aws --version

安裝 AWS CLI

如果未安裝,可以通過以下命令安裝 AWS CLI:

curl "https://awscli.amazonaws.com/AWSCLIV2.pkg" -o "AWSCLIV2.pkg"
sudo installer -pkg AWSCLIV2.pkg -target /

安裝完成后再次檢查版本:

aws --version

配置 AWS CLI

運行以下命令配置 AWS CLI:

aws configure

系統會提示輸入以下信息:

AWS CLI 配置

驗證配置

完成配置后,可以運行以下命令驗證是否配置成功:

aws polly describe-voices

如果返回 Amazon Polly 的語音列表,則說明配置成功。


使用 Polly API 進行文本轉語音的 Java 示例

以下是一個使用 Java 和 Polly API 的示例代碼:

添加依賴

在 Maven 項目中添加以下依賴:


    software.amazon.awssdk
    polly
    2.20.100

    software.amazon.awssdk
    auth
    2.20.100

示例代碼

import software.amazon.awssdk.auth.credentials.AwsBasicCredentials;
import software.amazon.awssdk.auth.credentials.StaticCredentialsProvider;
import software.amazon.awssdk.regions.Region;
import software.amazon.awssdk.services.polly.PollyClient;
import software.amazon.awssdk.services.polly.model.*;
import java.nio.file.Path;
import java.nio.file.Paths;

public class AmazonPollyExample {

    public static void main(String[] args) {
        AwsBasicCredentials awsCreds = AwsBasicCredentials.create(
                "your-access-key-id",   // 替換為您的 AWS Access Key ID
                "your-secret-access-key" // 替換為您的 AWS Secret Access Key
        );

        PollyClient polly = PollyClient.builder()
                .region(Region.US_EAST_1)
                .credentialsProvider(StaticCredentialsProvider.create(awsCreds))
                .build();

        try {
            SynthesizeSpeechRequest synthReq = SynthesizeSpeechRequest.builder()
                    .text("Hello, welcome to Amazon Polly!")
                    .voiceId("Joanna")
                    .outputFormat(OutputFormat.MP3)
                    .build();

            Path outputPath = Paths.get("output.mp3");
            polly.synthesizeSpeech(synthReq, outputPath);

            System.out.println("Audio file saved as output.mp3");
        } finally {
            polly.close();
        }
    }
}

運行該代碼后,您將獲得一個名為 output.mp3 的音頻文件,其中包含指定文本的語音播放。


比較 Polly API 與其他 TTS 服務

Google Cloud TTS API

Google 提供的 TTS API 使用了 WaveNet 技術,可以生成高質量的語音。其特點是支持大量語言和方言,以及更廣泛的語音定制功能。

Microsoft Azure TTS API

Microsoft Azure 提供的 TTS 服務支持不同的說話風格(如對話式或專業語調),并且允許用戶創建自定義語音模型。

IBM Watson TTS API

IBM Watson 專注于語音的表現力和細節控制,適合需要高精度語音合成的場景。

相比之下,Polly API 的優勢在于其更高的性價比,以及 12 個月免費試用計劃。


結論

Amazon Polly 是一款功能強大且易于使用的文本轉語音服務,適合各種應用場景。無論是開發對話式 AI 系統、創建教育內容,還是為視覺障礙用戶提供語音輔助,Polly API 都能提供高效的解決方案。


FAQ

  1. 問:Polly API 提供免費試用嗎?

  2. 問:如何選擇合適的語音 ID?

  3. 問:Polly 是否支持實時語音生成?

  4. 問:如何使用 SSML 控制語音輸出?

  5. 問:Polly 支持哪些輸出格式?

上一篇:

星火語音大模型的 API Key 獲取指南

下一篇:

彩云天氣跟墨跡哪個準:深入探討天氣應用的未來
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費