文本轉語音-Microsoft

文本轉語音-Microsoft

專用API
服務商 服務商: Microsoft
【更新時間: 2024.07.18】 構建自然說話的應用程序和服務。文本到語音通過定制的、逼真的語音生成器使您的品牌脫穎而出,文字轉語音并使用不同的說話風格和情緒語氣來適應您的使用場景。文字到語音支持多種語言。
瀏覽次數
24
采購人數
1
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是Microsoft的文本轉語音?

微軟Azure的文本轉語音服務提供了一種逼真、可定制的語音生成解決方案,支持細粒度控制和靈活部署。用戶可以根據自己的需求定制語音輸出。此外,Azure還提供了豐富的資源和工具來幫助用戶快速開始使用和構建語音服務。

什么是Microsoft的文本轉語音接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用Microsoft的文本轉語音,從而實現程序的自動化交互,提高服務效率。

Microsoft的文本轉語音有哪些核心功能?

逼真的合成語音

實現流暢、自然的文本轉語音,與人聲的語調和情感相匹配。

可定制的文本說話者聲音

創建一個獨特的人工智能語音生成器來反映您的品牌形象。

細粒度的文本對話音頻控制

通過輕松調整速率、音高、發音、停頓等,根據您的場景調整語音輸出。

靈活部署

在云端、本地或容器邊緣的任何地方運行文本轉語音。

定制您的語音輸出

微調合成語音以適合您的場景。 使用語音合成標記語言 (SSML) 或 音頻內容創建工具定義詞典 并控制語音參數,例如發音、音高、速率、停頓和語調 。

從云端到邊緣的任何地方部署文本轉語音

無論您的數據位于何處,都可以運行文本轉語音。使用容器將逼真的語音合成構建到針對強大的云功能和邊緣位置進行優化的應用程序中 。

Microsoft的文本轉語音的核心優勢是什么?

1. 為您的品牌打造定制聲音

  • 通過獨特的 定制聲音讓您的品牌脫穎而出。使用自定義神經語音功能開發高度逼真的語音,以實現更自然的對話界面,從 30 分鐘的音頻開始。

2.通過云人工智能服務推動應用創新

  • 了解您的組織可以開始使用人工智能以快速實現價值的五種關鍵方法。

3.全面的隱私和安全

  • AI 語音是 Azure AI 服務的一部分,已  通過 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO認證。隨時查看和刪除您的自定義語音數據和合成語音模型。您的數據在存儲時會被加密。訓練您的數據仍然屬于您。在數據處理或音頻語音生成過程中不會存儲您的文本數據。

4.內置全面的安全性和合規性

  • Microsoft 每年在網絡安全研發方面的投資超過10 億美元。
  • 我們雇用了 3,500 多名致力于數據安全和隱私的安全專家。

在哪些場景會用到Microsoft的文本轉語音?

客戶服務

在呼叫中心或自動客服系統中,提供自然流暢的語音交互,提升客戶體驗。

語言學習

提供語言學習應用中的發音指導和聽力練習材料。

會議錄聽

可以幫助提升會議錄聽的效率和質量,無論是在企業內部會議、遠程教育、在線研討會還是其他需要語音輸出的場合。

多設備對話

Azure 文字轉語音服務可以幫助開發者構建跨設備、無縫且一致的對話體驗。

語音助手

Azure 文字轉語音服務提供了強大的功能和靈活性,非常適合用于構建和增強語音助手的語音交互能力

 

<
產品價格
>

免費版

類別 特征 價格
語音轉文本
(按秒計費)
標準 每月 5 小時免費音頻3
風俗 每月免費 5 小時音頻3
端點托管:每月免費 1 個模型1
對話轉錄多通道音頻預覽 每月 5 小時免費音頻
文本轉語音
(按字符計費)
神經 每月免費 50 萬個字符
語音翻譯
(按秒計費)
標準 每月 5 小時免費音頻
說話人識別
(按交易計費)
說話者驗證2 每月 10,000 筆交易免費
說話人識別2 每月 10,000 筆交易免費
語音配置文件存儲 每月 10,000 筆交易免費

即用即付:僅按使用量付費

類別 價格
語音轉文本
(按秒計費)
標準 實時轉錄:每小時1 美元
快速轉錄預覽每小時不適用9
批量轉錄:每小時0.18 美元1
風俗 實時轉錄:每小時1.20 美元
批量轉錄:每小時0.225 美元1
端點托管:每個模型每小時0.0538 美元
自定義語音訓練5每計算小時 10 美元
增強的附加功能:
  • 連續語言識別
  • 分類
  • 發音評估(韻律、語法、詞匯、主題)
實時:每個功能每小時0.30 美元
批量(連續語言識別、二值化):包含在標準/自定義中(無額外費用)
對話轉錄多通道音頻預覽 每小時2.10 美元2
語音翻譯
(按秒計費)
實時語音翻譯 每音頻小時2.50 美元3
視頻翻譯預覽 批量:每輸出視頻分鐘不適用
內容編輯:每輸出視頻分鐘不適用
個人語音:每輸出視頻分鐘 不適用
文字轉語音8 標準語音 神經網絡:每 100 萬個字符15 美元
神經網絡 HD 4每 100 萬個字符 不適用
自定義語音 專業聲音:
合成:每 100 萬個字符24 美元
語音模型訓練:每個計算小時52 美元,每次訓練最高4,992 美元
端點托管:每個模型每小時4.04 美元
個人聲音6
合成:每 100 萬個字符不適用
語音創建:免費
語音配置文件存儲:每月每 1,000 個語音配置文件 不適用
增強的附加功能:頭像預覽 標準:N/A每分鐘
風俗:
實時綜合:每分鐘N/A
批量綜合:每分鐘 N/A
端點托管:每小時每個模型 N/A
說話人識別
(按交易計費)
說話者驗證7 每 1,000 筆交易5 美元
說話者識別7 每 1,000 筆交易10 美元
語音配置文件存儲 每 1,000 個語音配置文件0.20 USD(每月 10,000 個免費語音配置文件)

 

其他價格信息請查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先決條件

  • Azure 訂閱 - 免費創建訂閱。
  • 在 Azure 門戶中創建語音資源。
  • 你的語音資源密鑰和地區。 部署語音資源后,選擇“轉到資源”以查看和管理密鑰。 有關 Azure AI 服務資源的詳細信息,請參閱獲取資源密鑰。

 

設置環境

語音 SDK 以 NuGet 包的形式提供,實現了 .NET Standard 2.0。 稍后在本指南中安裝語音 SDK。 有關任何要求,請參閱安裝語音 SDK。

 

設置環境變量。

必須對應用程序進行身份驗證才能訪問 Azure AI 服務資源。 對于生產,請使用安全的方式存儲和訪問憑據。 例如,獲取語音資源的密鑰后,請將其寫入運行應用程序的本地計算機上的新環境變量。

 提示

請不要直接在代碼中包含密鑰,并且絕不公開發布密鑰。 有關 Azure Key Vault 等更多身份驗證選項,請參閱 Azure AI 服務安全性。

若要為語音資源密鑰設置環境變量,請打開控制臺窗口,并按照操作系統和開發環境的說明進行操作。

  • 要設置 SPEECH_KEY 環境變量,請將“your-key”替換為你的資源的某一個密鑰。
  • 要設置 SPEECH_REGION 環境變量,請將 “your-region”替換為你的資源的某一個地區。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加環境變量后,你可能需要重啟任何需要讀取環境變量的程序(包括控制臺窗口)。 例如,如果使用 Visual Studio 作為編輯器,請在運行示例之前重啟 Visual Studio。

 

合成到揚聲器輸出

按照以下步驟創建控制臺應用程序并安裝語音 SDK。

  1. 在需要新項目的文件夾中打開命令提示符窗口。 運行以下命令,使用 .NET CLI 創建控制臺應用程序。

    dotnet new console

    該命令會在項目目錄中創建 Program.cs 文件。

  2. 使用 .NET CLI 在新項目中安裝語音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 將 Program.cs 的內容替換為以下代碼。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改語音合成語言,請將 en-US-AvaMultilingualNeural 替換為另一種受支持的語音。

    所有神經網絡聲音都是多語言的,并且能夠流利地使用自己的語言和英語。 例如,如果英語的輸入文本為“I'm excited to try text to speech”并且你設置了 es-ES-ElviraNeural,則該文本將用帶西班牙口音的英語講出。 如果語音使用的不是輸入文本的語言,則語音服務不會輸出合成的音頻。

  5. 運行新的控制臺應用程序,開始將語音合成到默認揚聲器。
    dotnet run
  6. 輸入要朗讀的一些文本。 例如,鍵入“我對嘗試文本轉語音非常興奮”。 選擇 Enter 鍵可聽到合成的語音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

詳細指南請查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
產品問答
>
?
計費如何運作?
對于語音轉文本和語音翻譯,使用量按一秒增量計費。 對于文本轉語音:使用量按字符計費。檢查定價說明中字符的定義。 對于自定義神經語音托管:使用量按端點每秒計費。查看定價說明中的詳細信息。 對于個人語音配置文件存儲:使用量按每天的語音配置文件計費。查看定價說明中的詳細信息。 對于文本轉語音頭像,使用量按秒計費。 對于語音轉文本和文本轉語音(包括 Avatar),自定義模型的端點托管按每個模型每秒計費。
?
什么是“自定義語音模型”?
語音服務使用戶能夠根據自己的聲學和語言數據調整基線模型,從而生成可用于語音轉文本和語音翻譯的自定義語音模型。
?
什么是語言模型以及為什么要定制它? 。
語言模型是單詞序列上的概率分布。語言模型幫助系統根據單詞序列本身的可能性來決定聽起來相似的單詞序列。例如,“識別語音”和“破壞美麗的海灘”聽起來很相似,但第一個假設發生的可能性要大得多,因此語言模型會分配更高的分數。如果您希望應用程序的語音查詢包含特定詞匯項,例如典型語音中很少出現的產品名稱或行話,那么您可能可以通過自定義語言模型來獲得改進的性能。例如,如果您正在構建一個通過語音搜索 MSDN 的應用程序,“面向對象”、“命名空間”或“點網”等術語可能會比典型的語音應用程序更頻繁地出現。定制語言模型將使系統能夠學習這一點
?
什么是聲學模型以及為什么要定制它?
聲學模型是一種分類器,它將音頻的短片段標記為每種語言的幾個音素或聲音單元之一。然后可以將這些音素拼接在一起形成單詞。例如,單詞“speech”由四個音素“sp iy ch”組成。這些分類按每秒 100 次的數量級進行。定制聲學模型可以使系統學會在非典型環境中更好地識別語音。例如,如果您有一款專供倉庫或工廠工人使用的應用程序,則定制的聲學模型可以在這些環境中存在噪音的情況下更準確地識別語音。
?
什么是“自定義神經語音”?
語音服務提供各種文本轉語音 (TTS) 語音字體,但自定義神經語音允許您構建適合您的需求和品牌的自定義語音。閱讀博客了解更多信息。
?
什么是語言識別?
語言識別允許您識別口語的切換并相應地轉錄語音。這可以應用于音頻語言未知或說話者可能說多種語言的場景。單語言識別無需額外付費。連續語言識別是一項增強的附加功能。訪問文檔以了解更多信息。
?
什么是發音評估?
發音評估評估語音發音并向說話者提供有關口語音頻的準確性和流暢性的反饋。通過發音評估,語言學習者可以練習、獲得即時反饋并提高發音,以便他們能夠自信地說話和表達。教育工作者可以利用該功能實時評估多個說話者的發音。訪問文檔以了解更多信息。
<
關于我們
>
Microsoft(微軟公司)是一家全球知名的科技公司,以其廣泛的計算機軟件、消費電子產品以及相關服務聞名于世。成立于1975年,由比爾·蓋茨和保羅·艾倫創立,總部位于美國華盛頓州雷德蒙德。Microsoft開發和銷售多種電腦軟件、電子游戲機、個人電腦以及移動設備等產品。其中,Windows操作系統、Microsoft Office辦公軟件套件以及Bing搜索引擎等產品在全球范圍內廣受用戶青睞。此外,Microsoft還通過Azure提供云計算服務,支持企業數字化轉型和創新。
聯系信息
服務時間: 00:00:00至24:00:00
電話號碼: (425) 882-8080
電話號碼: (425) 706-7329

 

公司簡介

隨時了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點等。

 

 

關于我們

認識 Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領導者。

 

 

我們的價值觀

了解我們如何利用技術來創建平臺和資源,造就長遠的積極影響。

 

特色計劃和項目

透過數字了解可持續發展

到 2030 年,Microsoft 將實現負排碳目標。 通過互動方式了解我們公司改善對環境的影響的其他方式。

透過數字深入了解 

公司的社會責任

我們相信技術是造福人類的強大力量,并且正在努力創造一個可持續未來,使每個人都可以享受到技術帶來的好處和機會。

了解我們的方法 

故事

在 Microsoft,我們受到來自世界各地的人們的啟發,他們利用技術去做富有想象力、創新以及能改變生活的事情。 我們分享他們的故事。

查看他們的故事 

Microsoft AI

在以人為本的設計中,AI 可以擴展你的能力,解放你的思維,讓你自由進行更具創造性和策略性的嘗試,幫助你和你的組織達成更多成就。

了解 Microsoft AI 
<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

免費版

類別 特征 價格
語音轉文本
(按秒計費)
標準 每月 5 小時免費音頻3
風俗 每月免費 5 小時音頻3
端點托管:每月免費 1 個模型1
對話轉錄多通道音頻預覽 每月 5 小時免費音頻
文本轉語音
(按字符計費)
神經 每月免費 50 萬個字符
語音翻譯
(按秒計費)
標準 每月 5 小時免費音頻
說話人識別
(按交易計費)
說話者驗證2 每月 10,000 筆交易免費
說話人識別2 每月 10,000 筆交易免費
語音配置文件存儲 每月 10,000 筆交易免費

即用即付:僅按使用量付費

類別 價格
語音轉文本
(按秒計費)
標準 實時轉錄:每小時1 美元
快速轉錄預覽每小時不適用9
批量轉錄:每小時0.18 美元1
風俗 實時轉錄:每小時1.20 美元
批量轉錄:每小時0.225 美元1
端點托管:每個模型每小時0.0538 美元
自定義語音訓練5每計算小時 10 美元
增強的附加功能:
  • 連續語言識別
  • 分類
  • 發音評估(韻律、語法、詞匯、主題)
實時:每個功能每小時0.30 美元
批量(連續語言識別、二值化):包含在標準/自定義中(無額外費用)
對話轉錄多通道音頻預覽 每小時2.10 美元2
語音翻譯
(按秒計費)
實時語音翻譯 每音頻小時2.50 美元3
視頻翻譯預覽 批量:每輸出視頻分鐘不適用
內容編輯:每輸出視頻分鐘不適用
個人語音:每輸出視頻分鐘 不適用
文字轉語音8 標準語音 神經網絡:每 100 萬個字符15 美元
神經網絡 HD 4每 100 萬個字符 不適用
自定義語音 專業聲音:
合成:每 100 萬個字符24 美元
語音模型訓練:每個計算小時52 美元,每次訓練最高4,992 美元
端點托管:每個模型每小時4.04 美元
個人聲音6
合成:每 100 萬個字符不適用
語音創建:免費
語音配置文件存儲:每月每 1,000 個語音配置文件 不適用
增強的附加功能:頭像預覽 標準:N/A每分鐘
風俗:
實時綜合:每分鐘N/A
批量綜合:每分鐘 N/A
端點托管:每小時每個模型 N/A
說話人識別
(按交易計費)
說話者驗證7 每 1,000 筆交易5 美元
說話者識別7 每 1,000 筆交易10 美元
語音配置文件存儲 每 1,000 個語音配置文件0.20 USD(每月 10,000 個免費語音配置文件)

 

其他價格信息請查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先決條件

  • Azure 訂閱 - 免費創建訂閱
  • 在 Azure 門戶中創建語音資源。
  • 你的語音資源密鑰和地區。 部署語音資源后,選擇“轉到資源”以查看和管理密鑰。 有關 Azure AI 服務資源的詳細信息,請參閱獲取資源密鑰。

 

設置環境

語音 SDK 以 NuGet 包的形式提供,實現了 .NET Standard 2.0。 稍后在本指南中安裝語音 SDK。 有關任何要求,請參閱安裝語音 SDK。

 

設置環境變量。

必須對應用程序進行身份驗證才能訪問 Azure AI 服務資源。 對于生產,請使用安全的方式存儲和訪問憑據。 例如,獲取語音資源的密鑰后,請將其寫入運行應用程序的本地計算機上的新環境變量。

 提示

請不要直接在代碼中包含密鑰,并且絕不公開發布密鑰。 有關 Azure Key Vault 等更多身份驗證選項,請參閱 Azure AI 服務安全性。

若要為語音資源密鑰設置環境變量,請打開控制臺窗口,并按照操作系統和開發環境的說明進行操作。

  • 要設置 SPEECH_KEY 環境變量,請將“your-key”替換為你的資源的某一個密鑰。
  • 要設置 SPEECH_REGION 環境變量,請將 “your-region”替換為你的資源的某一個地區。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加環境變量后,你可能需要重啟任何需要讀取環境變量的程序(包括控制臺窗口)。 例如,如果使用 Visual Studio 作為編輯器,請在運行示例之前重啟 Visual Studio。

 

合成到揚聲器輸出

按照以下步驟創建控制臺應用程序并安裝語音 SDK。

  1. 在需要新項目的文件夾中打開命令提示符窗口。 運行以下命令,使用 .NET CLI 創建控制臺應用程序。

    dotnet new console

    該命令會在項目目錄中創建 Program.cs 文件。

  2. 使用 .NET CLI 在新項目中安裝語音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 將 Program.cs 的內容替換為以下代碼。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改語音合成語言,請將 en-US-AvaMultilingualNeural 替換為另一種受支持的語音。

    所有神經網絡聲音都是多語言的,并且能夠流利地使用自己的語言和英語。 例如,如果英語的輸入文本為“I'm excited to try text to speech”并且你設置了 es-ES-ElviraNeural,則該文本將用帶西班牙口音的英語講出。 如果語音使用的不是輸入文本的語言,則語音服務不會輸出合成的音頻。

  5. 運行新的控制臺應用程序,開始將語音合成到默認揚聲器。
    dotnet run
  6. 輸入要朗讀的一些文本。 例如,鍵入“我對嘗試文本轉語音非常興奮”。 選擇 Enter 鍵可聽到合成的語音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

詳細指南請查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
依賴服務
>
<
產品問答
>
?
計費如何運作?
對于語音轉文本和語音翻譯,使用量按一秒增量計費。 對于文本轉語音:使用量按字符計費。檢查定價說明中字符的定義。 對于自定義神經語音托管:使用量按端點每秒計費。查看定價說明中的詳細信息。 對于個人語音配置文件存儲:使用量按每天的語音配置文件計費。查看定價說明中的詳細信息。 對于文本轉語音頭像,使用量按秒計費。 對于語音轉文本和文本轉語音(包括 Avatar),自定義模型的端點托管按每個模型每秒計費。
?
什么是“自定義語音模型”?
語音服務使用戶能夠根據自己的聲學和語言數據調整基線模型,從而生成可用于語音轉文本和語音翻譯的自定義語音模型。
?
什么是語言模型以及為什么要定制它? 。
語言模型是單詞序列上的概率分布。語言模型幫助系統根據單詞序列本身的可能性來決定聽起來相似的單詞序列。例如,“識別語音”和“破壞美麗的海灘”聽起來很相似,但第一個假設發生的可能性要大得多,因此語言模型會分配更高的分數。如果您希望應用程序的語音查詢包含特定詞匯項,例如典型語音中很少出現的產品名稱或行話,那么您可能可以通過自定義語言模型來獲得改進的性能。例如,如果您正在構建一個通過語音搜索 MSDN 的應用程序,“面向對象”、“命名空間”或“點網”等術語可能會比典型的語音應用程序更頻繁地出現。定制語言模型將使系統能夠學習這一點
?
什么是聲學模型以及為什么要定制它?
聲學模型是一種分類器,它將音頻的短片段標記為每種語言的幾個音素或聲音單元之一。然后可以將這些音素拼接在一起形成單詞。例如,單詞“speech”由四個音素“sp iy ch”組成。這些分類按每秒 100 次的數量級進行。定制聲學模型可以使系統學會在非典型環境中更好地識別語音。例如,如果您有一款專供倉庫或工廠工人使用的應用程序,則定制的聲學模型可以在這些環境中存在噪音的情況下更準確地識別語音。
?
什么是“自定義神經語音”?
語音服務提供各種文本轉語音 (TTS) 語音字體,但自定義神經語音允許您構建適合您的需求和品牌的自定義語音。閱讀博客了解更多信息。
?
什么是語言識別?
語言識別允許您識別口語的切換并相應地轉錄語音。這可以應用于音頻語言未知或說話者可能說多種語言的場景。單語言識別無需額外付費。連續語言識別是一項增強的附加功能。訪問文檔以了解更多信息。
?
什么是發音評估?
發音評估評估語音發音并向說話者提供有關口語音頻的準確性和流暢性的反饋。通過發音評估,語言學習者可以練習、獲得即時反饋并提高發音,以便他們能夠自信地說話和表達。教育工作者可以利用該功能實時評估多個說話者的發音。訪問文檔以了解更多信息。
<
關于我們
>
Microsoft(微軟公司)是一家全球知名的科技公司,以其廣泛的計算機軟件、消費電子產品以及相關服務聞名于世。成立于1975年,由比爾·蓋茨和保羅·艾倫創立,總部位于美國華盛頓州雷德蒙德。Microsoft開發和銷售多種電腦軟件、電子游戲機、個人電腦以及移動設備等產品。其中,Windows操作系統、Microsoft Office辦公軟件套件以及Bing搜索引擎等產品在全球范圍內廣受用戶青睞。此外,Microsoft還通過Azure提供云計算服務,支持企業數字化轉型和創新。
聯系信息
服務時間: 00:00:00至24:00:00
電話號碼: (425) 882-8080
電話號碼: (425) 706-7329

 

公司簡介

隨時了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點等。

 

 

關于我們

認識 Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領導者。

 

 

我們的價值觀

了解我們如何利用技術來創建平臺和資源,造就長遠的積極影響。

 

特色計劃和項目

透過數字了解可持續發展

到 2030 年,Microsoft 將實現負排碳目標。 通過互動方式了解我們公司改善對環境的影響的其他方式。

透過數字深入了解 

公司的社會責任

我們相信技術是造福人類的強大力量,并且正在努力創造一個可持續未來,使每個人都可以享受到技術帶來的好處和機會。

了解我們的方法 

故事

在 Microsoft,我們受到來自世界各地的人們的啟發,他們利用技術去做富有想象力、創新以及能改變生活的事情。 我們分享他們的故事。

查看他們的故事 

Microsoft AI

在以人為本的設計中,AI 可以擴展你的能力,解放你的思維,讓你自由進行更具創造性和策略性的嘗試,幫助你和你的組織達成更多成就。

了解 Microsoft AI 
<
最可能同場景使用的其他API
>