文本轉(zhuǎn)語(yǔ)音-Microsoft

文本轉(zhuǎn)語(yǔ)音-Microsoft

專(zhuān)用API
服務(wù)商 服務(wù)商: Microsoft
【更新時(shí)間: 2024.07.18】 構(gòu)建自然說(shuō)話的應(yīng)用程序和服務(wù)。文本到語(yǔ)音通過(guò)定制的、逼真的語(yǔ)音生成器使您的品牌脫穎而出,文字轉(zhuǎn)語(yǔ)音并使用不同的說(shuō)話風(fēng)格和情緒語(yǔ)氣來(lái)適應(yīng)您的使用場(chǎng)景。文字到語(yǔ)音支持多種語(yǔ)言。
瀏覽次數(shù)
24
采購(gòu)人數(shù)
1
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個(gè)人&企業(yè)
收藏
×
完成
取消
×
書(shū)簽名稱(chēng)
確定
<
產(chǎn)品介紹
>

什么是Microsoft的文本轉(zhuǎn)語(yǔ)音?

微軟Azure的文本轉(zhuǎn)語(yǔ)音服務(wù)提供了一種逼真、可定制的語(yǔ)音生成解決方案,支持細(xì)粒度控制和靈活部署。用戶(hù)可以根據(jù)自己的需求定制語(yǔ)音輸出。此外,Azure還提供了豐富的資源和工具來(lái)幫助用戶(hù)快速開(kāi)始使用和構(gòu)建語(yǔ)音服務(wù)。

什么是Microsoft的文本轉(zhuǎn)語(yǔ)音接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過(guò)公網(wǎng)HTTP協(xié)議調(diào)用Microsoft的文本轉(zhuǎn)語(yǔ)音,從而實(shí)現(xiàn)程序的自動(dòng)化交互,提高服務(wù)效率。

Microsoft的文本轉(zhuǎn)語(yǔ)音有哪些核心功能?

逼真的合成語(yǔ)音

實(shí)現(xiàn)流暢、自然的文本轉(zhuǎn)語(yǔ)音,與人聲的語(yǔ)調(diào)和情感相匹配。

可定制的文本說(shuō)話者聲音

創(chuàng)建一個(gè)獨(dú)特的人工智能語(yǔ)音生成器來(lái)反映您的品牌形象。

細(xì)粒度的文本對(duì)話音頻控制

通過(guò)輕松調(diào)整速率、音高、發(fā)音、停頓等,根據(jù)您的場(chǎng)景調(diào)整語(yǔ)音輸出。

靈活部署

在云端、本地或容器邊緣的任何地方運(yùn)行文本轉(zhuǎn)語(yǔ)音。

定制您的語(yǔ)音輸出

微調(diào)合成語(yǔ)音以適合您的場(chǎng)景。 使用語(yǔ)音合成標(biāo)記語(yǔ)言 (SSML) 或 音頻內(nèi)容創(chuàng)建工具定義詞典 并控制語(yǔ)音參數(shù),例如發(fā)音、音高、速率、停頓和語(yǔ)調(diào) 。

從云端到邊緣的任何地方部署文本轉(zhuǎn)語(yǔ)音

無(wú)論您的數(shù)據(jù)位于何處,都可以運(yùn)行文本轉(zhuǎn)語(yǔ)音。使用容器將逼真的語(yǔ)音合成構(gòu)建到針對(duì)強(qiáng)大的云功能和邊緣位置進(jìn)行優(yōu)化的應(yīng)用程序中 。

Microsoft的文本轉(zhuǎn)語(yǔ)音的核心優(yōu)勢(shì)是什么?

1. 為您的品牌打造定制聲音

  • 通過(guò)獨(dú)特的 定制聲音讓您的品牌脫穎而出。使用自定義神經(jīng)語(yǔ)音功能開(kāi)發(fā)高度逼真的語(yǔ)音,以實(shí)現(xiàn)更自然的對(duì)話界面,從 30 分鐘的音頻開(kāi)始。

2.通過(guò)云人工智能服務(wù)推動(dòng)應(yīng)用創(chuàng)新

  • 了解您的組織可以開(kāi)始使用人工智能以快速實(shí)現(xiàn)價(jià)值的五種關(guān)鍵方法。

3.全面的隱私和安全

  • AI 語(yǔ)音是 Azure AI 服務(wù)的一部分,已  通過(guò) SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO認(rèn)證。隨時(shí)查看和刪除您的自定義語(yǔ)音數(shù)據(jù)和合成語(yǔ)音模型。您的數(shù)據(jù)在存儲(chǔ)時(shí)會(huì)被加密。訓(xùn)練您的數(shù)據(jù)仍然屬于您。在數(shù)據(jù)處理或音頻語(yǔ)音生成過(guò)程中不會(huì)存儲(chǔ)您的文本數(shù)據(jù)。

4.內(nèi)置全面的安全性和合規(guī)性

  • Microsoft 每年在網(wǎng)絡(luò)安全研發(fā)方面的投資超過(guò)10 億美元。
  • 我們雇用了 3,500 多名致力于數(shù)據(jù)安全和隱私的安全專(zhuān)家。

在哪些場(chǎng)景會(huì)用到Microsoft的文本轉(zhuǎn)語(yǔ)音?

客戶(hù)服務(wù)

在呼叫中心或自動(dòng)客服系統(tǒng)中,提供自然流暢的語(yǔ)音交互,提升客戶(hù)體驗(yàn)。

語(yǔ)言學(xué)習(xí)

提供語(yǔ)言學(xué)習(xí)應(yīng)用中的發(fā)音指導(dǎo)和聽(tīng)力練習(xí)材料。

會(huì)議錄聽(tīng)

可以幫助提升會(huì)議錄聽(tīng)的效率和質(zhì)量,無(wú)論是在企業(yè)內(nèi)部會(huì)議、遠(yuǎn)程教育、在線研討會(huì)還是其他需要語(yǔ)音輸出的場(chǎng)合。

多設(shè)備對(duì)話

Azure 文字轉(zhuǎn)語(yǔ)音服務(wù)可以幫助開(kāi)發(fā)者構(gòu)建跨設(shè)備、無(wú)縫且一致的對(duì)話體驗(yàn)。

語(yǔ)音助手

Azure 文字轉(zhuǎn)語(yǔ)音服務(wù)提供了強(qiáng)大的功能和靈活性,非常適合用于構(gòu)建和增強(qiáng)語(yǔ)音助手的語(yǔ)音交互能力

 

<
產(chǎn)品價(jià)格
>

免費(fèi)版

類(lèi)別 特征 價(jià)格
語(yǔ)音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時(shí)免費(fèi)音頻3
風(fēng)俗 每月免費(fèi) 5 小時(shí)音頻3
端點(diǎn)托管:每月免費(fèi) 1 個(gè)模型1
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 每月 5 小時(shí)免費(fèi)音頻
文本轉(zhuǎn)語(yǔ)音
(按字符計(jì)費(fèi))
神經(jīng) 每月免費(fèi) 50 萬(wàn)個(gè)字符
語(yǔ)音翻譯
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時(shí)免費(fèi)音頻
說(shuō)話人識(shí)別
(按交易計(jì)費(fèi))
說(shuō)話者驗(yàn)證2 每月 10,000 筆交易免費(fèi)
說(shuō)話人識(shí)別2 每月 10,000 筆交易免費(fèi)
語(yǔ)音配置文件存儲(chǔ) 每月 10,000 筆交易免費(fèi)

即用即付:僅按使用量付費(fèi)

類(lèi)別 價(jià)格
語(yǔ)音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1 美元
快速轉(zhuǎn)錄預(yù)覽每小時(shí)不適用9
批量轉(zhuǎn)錄:每小時(shí)0.18 美元1
風(fēng)俗 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1.20 美元
批量轉(zhuǎn)錄:每小時(shí)0.225 美元1
端點(diǎn)托管:每個(gè)模型每小時(shí)0.0538 美元
自定義語(yǔ)音訓(xùn)練5每計(jì)算小時(shí) 10 美元
增強(qiáng)的附加功能:
  • 連續(xù)語(yǔ)言識(shí)別
  • 分類(lèi)
  • 發(fā)音評(píng)估(韻律、語(yǔ)法、詞匯、主題)
實(shí)時(shí):每個(gè)功能每小時(shí)0.30 美元
批量(連續(xù)語(yǔ)言識(shí)別、二值化):包含在標(biāo)準(zhǔn)/自定義中(無(wú)額外費(fèi)用)
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 每小時(shí)2.10 美元2
語(yǔ)音翻譯
(按秒計(jì)費(fèi))
實(shí)時(shí)語(yǔ)音翻譯 每音頻小時(shí)2.50 美元3
視頻翻譯預(yù)覽 批量:每輸出視頻分鐘不適用
內(nèi)容編輯:每輸出視頻分鐘不適用
個(gè)人語(yǔ)音:每輸出視頻分鐘 不適用
文字轉(zhuǎn)語(yǔ)音8 標(biāo)準(zhǔn)語(yǔ)音 神經(jīng)網(wǎng)絡(luò):每 100 萬(wàn)個(gè)字符15 美元
神經(jīng)網(wǎng)絡(luò) HD 4每 100 萬(wàn)個(gè)字符 不適用
自定義語(yǔ)音 專(zhuān)業(yè)聲音:
合成:每 100 萬(wàn)個(gè)字符24 美元
語(yǔ)音模型訓(xùn)練:每個(gè)計(jì)算小時(shí)52 美元,每次訓(xùn)練最高4,992 美元
端點(diǎn)托管:每個(gè)模型每小時(shí)4.04 美元
個(gè)人聲音6
合成:每 100 萬(wàn)個(gè)字符不適用
語(yǔ)音創(chuàng)建:免費(fèi)
語(yǔ)音配置文件存儲(chǔ):每月每 1,000 個(gè)語(yǔ)音配置文件 不適用
增強(qiáng)的附加功能:頭像預(yù)覽 標(biāo)準(zhǔn):N/A每分鐘
風(fēng)俗:
實(shí)時(shí)綜合:每分鐘N/A
批量綜合:每分鐘 N/A
端點(diǎn)托管:每小時(shí)每個(gè)模型 N/A
說(shuō)話人識(shí)別
(按交易計(jì)費(fèi))
說(shuō)話者驗(yàn)證7 每 1,000 筆交易5 美元
說(shuō)話者識(shí)別7 每 1,000 筆交易10 美元
語(yǔ)音配置文件存儲(chǔ) 每 1,000 個(gè)語(yǔ)音配置文件0.20 USD(每月 10,000 個(gè)免費(fèi)語(yǔ)音配置文件)

 

其他價(jià)格信息請(qǐng)查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先決條件

 

設(shè)置環(huán)境

語(yǔ)音 SDK 以 NuGet 包的形式提供,實(shí)現(xiàn)了 .NET Standard 2.0。 稍后在本指南中安裝語(yǔ)音 SDK。 有關(guān)任何要求,請(qǐng)參閱安裝語(yǔ)音 SDK

 

設(shè)置環(huán)境變量。

必須對(duì)應(yīng)用程序進(jìn)行身份驗(yàn)證才能訪問(wèn) Azure AI 服務(wù)資源。 對(duì)于生產(chǎn),請(qǐng)使用安全的方式存儲(chǔ)和訪問(wèn)憑據(jù)。 例如,獲取語(yǔ)音資源的密鑰后,請(qǐng)將其寫(xiě)入運(yùn)行應(yīng)用程序的本地計(jì)算機(jī)上的新環(huán)境變量。

 提示

請(qǐng)不要直接在代碼中包含密鑰,并且絕不公開(kāi)發(fā)布密鑰。 有關(guān) Azure Key Vault 等更多身份驗(yàn)證選項(xiàng),請(qǐng)參閱 Azure AI 服務(wù)安全性

若要為語(yǔ)音資源密鑰設(shè)置環(huán)境變量,請(qǐng)打開(kāi)控制臺(tái)窗口,并按照操作系統(tǒng)和開(kāi)發(fā)環(huán)境的說(shuō)明進(jìn)行操作。

  • 要設(shè)置 SPEECH_KEY 環(huán)境變量,請(qǐng)將“your-key”替換為你的資源的某一個(gè)密鑰。
  • 要設(shè)置 SPEECH_REGION 環(huán)境變量,請(qǐng)將 “your-region”替換為你的資源的某一個(gè)地區(qū)。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加環(huán)境變量后,你可能需要重啟任何需要讀取環(huán)境變量的程序(包括控制臺(tái)窗口)。 例如,如果使用 Visual Studio 作為編輯器,請(qǐng)?jiān)谶\(yùn)行示例之前重啟 Visual Studio。

 

合成到揚(yáng)聲器輸出

按照以下步驟創(chuàng)建控制臺(tái)應(yīng)用程序并安裝語(yǔ)音 SDK。

  1. 在需要新項(xiàng)目的文件夾中打開(kāi)命令提示符窗口。 運(yùn)行以下命令,使用 .NET CLI 創(chuàng)建控制臺(tái)應(yīng)用程序。

    dotnet new console

    該命令會(huì)在項(xiàng)目目錄中創(chuàng)建 Program.cs 文件。

  2. 使用 .NET CLI 在新項(xiàng)目中安裝語(yǔ)音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 將 Program.cs 的內(nèi)容替換為以下代碼。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改語(yǔ)音合成語(yǔ)言,請(qǐng)將 en-US-AvaMultilingualNeural 替換為另一種受支持的語(yǔ)音

    所有神經(jīng)網(wǎng)絡(luò)聲音都是多語(yǔ)言的,并且能夠流利地使用自己的語(yǔ)言和英語(yǔ)。 例如,如果英語(yǔ)的輸入文本為“I'm excited to try text to speech”并且你設(shè)置了 es-ES-ElviraNeural,則該文本將用帶西班牙口音的英語(yǔ)講出。 如果語(yǔ)音使用的不是輸入文本的語(yǔ)言,則語(yǔ)音服務(wù)不會(huì)輸出合成的音頻。

  5. 運(yùn)行新的控制臺(tái)應(yīng)用程序,開(kāi)始將語(yǔ)音合成到默認(rèn)揚(yáng)聲器。
    dotnet run
  6. 輸入要朗讀的一些文本。 例如,鍵入“我對(duì)嘗試文本轉(zhuǎn)語(yǔ)音非常興奮”。 選擇 Enter 鍵可聽(tīng)到合成的語(yǔ)音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

詳細(xì)指南請(qǐng)查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
產(chǎn)品問(wèn)答
>
?
計(jì)費(fèi)如何運(yùn)作?
對(duì)于語(yǔ)音轉(zhuǎn)文本和語(yǔ)音翻譯,使用量按一秒增量計(jì)費(fèi)。 對(duì)于文本轉(zhuǎn)語(yǔ)音:使用量按字符計(jì)費(fèi)。檢查定價(jià)說(shuō)明中字符的定義。 對(duì)于自定義神經(jīng)語(yǔ)音托管:使用量按端點(diǎn)每秒計(jì)費(fèi)。查看定價(jià)說(shuō)明中的詳細(xì)信息。 對(duì)于個(gè)人語(yǔ)音配置文件存儲(chǔ):使用量按每天的語(yǔ)音配置文件計(jì)費(fèi)。查看定價(jià)說(shuō)明中的詳細(xì)信息。 對(duì)于文本轉(zhuǎn)語(yǔ)音頭像,使用量按秒計(jì)費(fèi)。 對(duì)于語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音(包括 Avatar),自定義模型的端點(diǎn)托管按每個(gè)模型每秒計(jì)費(fèi)。
?
什么是“自定義語(yǔ)音模型”?
語(yǔ)音服務(wù)使用戶(hù)能夠根據(jù)自己的聲學(xué)和語(yǔ)言數(shù)據(jù)調(diào)整基線模型,從而生成可用于語(yǔ)音轉(zhuǎn)文本和語(yǔ)音翻譯的自定義語(yǔ)音模型。
?
什么是語(yǔ)言模型以及為什么要定制它? 。
語(yǔ)言模型是單詞序列上的概率分布。語(yǔ)言模型幫助系統(tǒng)根據(jù)單詞序列本身的可能性來(lái)決定聽(tīng)起來(lái)相似的單詞序列。例如,“識(shí)別語(yǔ)音”和“破壞美麗的海灘”聽(tīng)起來(lái)很相似,但第一個(gè)假設(shè)發(fā)生的可能性要大得多,因此語(yǔ)言模型會(huì)分配更高的分?jǐn)?shù)。如果您希望應(yīng)用程序的語(yǔ)音查詢(xún)包含特定詞匯項(xiàng),例如典型語(yǔ)音中很少出現(xiàn)的產(chǎn)品名稱(chēng)或行話,那么您可能可以通過(guò)自定義語(yǔ)言模型來(lái)獲得改進(jìn)的性能。例如,如果您正在構(gòu)建一個(gè)通過(guò)語(yǔ)音搜索 MSDN 的應(yīng)用程序,“面向?qū)ο蟆薄ⅰ懊臻g”或“點(diǎn)網(wǎng)”等術(shù)語(yǔ)可能會(huì)比典型的語(yǔ)音應(yīng)用程序更頻繁地出現(xiàn)。定制語(yǔ)言模型將使系統(tǒng)能夠?qū)W習(xí)這一點(diǎn)
?
什么是聲學(xué)模型以及為什么要定制它?
聲學(xué)模型是一種分類(lèi)器,它將音頻的短片段標(biāo)記為每種語(yǔ)言的幾個(gè)音素或聲音單元之一。然后可以將這些音素拼接在一起形成單詞。例如,單詞“speech”由四個(gè)音素“sp iy ch”組成。這些分類(lèi)按每秒 100 次的數(shù)量級(jí)進(jìn)行。定制聲學(xué)模型可以使系統(tǒng)學(xué)會(huì)在非典型環(huán)境中更好地識(shí)別語(yǔ)音。例如,如果您有一款專(zhuān)供倉(cāng)庫(kù)或工廠工人使用的應(yīng)用程序,則定制的聲學(xué)模型可以在這些環(huán)境中存在噪音的情況下更準(zhǔn)確地識(shí)別語(yǔ)音。
?
什么是“自定義神經(jīng)語(yǔ)音”?
語(yǔ)音服務(wù)提供各種文本轉(zhuǎn)語(yǔ)音 (TTS) 語(yǔ)音字體,但自定義神經(jīng)語(yǔ)音允許您構(gòu)建適合您的需求和品牌的自定義語(yǔ)音。閱讀博客了解更多信息。
?
什么是語(yǔ)言識(shí)別?
語(yǔ)言識(shí)別允許您識(shí)別口語(yǔ)的切換并相應(yīng)地轉(zhuǎn)錄語(yǔ)音。這可以應(yīng)用于音頻語(yǔ)言未知或說(shuō)話者可能說(shuō)多種語(yǔ)言的場(chǎng)景。單語(yǔ)言識(shí)別無(wú)需額外付費(fèi)。連續(xù)語(yǔ)言識(shí)別是一項(xiàng)增強(qiáng)的附加功能。訪問(wèn)文檔以了解更多信息。
?
什么是發(fā)音評(píng)估?
發(fā)音評(píng)估評(píng)估語(yǔ)音發(fā)音并向說(shuō)話者提供有關(guān)口語(yǔ)音頻的準(zhǔn)確性和流暢性的反饋。通過(guò)發(fā)音評(píng)估,語(yǔ)言學(xué)習(xí)者可以練習(xí)、獲得即時(shí)反饋并提高發(fā)音,以便他們能夠自信地說(shuō)話和表達(dá)。教育工作者可以利用該功能實(shí)時(shí)評(píng)估多個(gè)說(shuō)話者的發(fā)音。訪問(wèn)文檔以了解更多信息。
<
關(guān)于我們
>
Microsoft
企業(yè)
Microsoft(微軟公司)是一家全球知名的科技公司,以其廣泛的計(jì)算機(jī)軟件、消費(fèi)電子產(chǎn)品以及相關(guān)服務(wù)聞名于世。成立于1975年,由比爾·蓋茨和保羅·艾倫創(chuàng)立,總部位于美國(guó)華盛頓州雷德蒙德。Microsoft開(kāi)發(fā)和銷(xiāo)售多種電腦軟件、電子游戲機(jī)、個(gè)人電腦以及移動(dòng)設(shè)備等產(chǎn)品。其中,Windows操作系統(tǒng)、Microsoft Office辦公軟件套件以及Bing搜索引擎等產(chǎn)品在全球范圍內(nèi)廣受用戶(hù)青睞。此外,Microsoft還通過(guò)Azure提供云計(jì)算服務(wù),支持企業(yè)數(shù)字化轉(zhuǎn)型和創(chuàng)新。
聯(lián)系信息
服務(wù)時(shí)間: 00:00:00至24:00:00
電話號(hào)碼: (425) 882-8080
電話號(hào)碼: (425) 706-7329

 

公司簡(jiǎn)介

隨時(shí)了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點(diǎn)等。

 

 

關(guān)于我們

認(rèn)識(shí) Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領(lǐng)導(dǎo)者。

 

 

我們的價(jià)值觀

了解我們?nèi)绾卫眉夹g(shù)來(lái)創(chuàng)建平臺(tái)和資源,造就長(zhǎng)遠(yuǎn)的積極影響。

 

特色計(jì)劃和項(xiàng)目

透過(guò)數(shù)字了解可持續(xù)發(fā)展

到 2030 年,Microsoft 將實(shí)現(xiàn)負(fù)排碳目標(biāo)。 通過(guò)互動(dòng)方式了解我們公司改善對(duì)環(huán)境的影響的其他方式。

透過(guò)數(shù)字深入了解 

公司的社會(huì)責(zé)任

我們相信技術(shù)是造福人類(lèi)的強(qiáng)大力量,并且正在努力創(chuàng)造一個(gè)可持續(xù)未來(lái),使每個(gè)人都可以享受到技術(shù)帶來(lái)的好處和機(jī)會(huì)。

了解我們的方法 

故事

在 Microsoft,我們受到來(lái)自世界各地的人們的啟發(fā),他們利用技術(shù)去做富有想象力、創(chuàng)新以及能改變生活的事情。 我們分享他們的故事。

查看他們的故事 

Microsoft AI

在以人為本的設(shè)計(jì)中,AI 可以擴(kuò)展你的能力,解放你的思維,讓你自由進(jìn)行更具創(chuàng)造性和策略性的嘗試,幫助你和你的組織達(dá)成更多成就。

了解 Microsoft AI 
<
最可能同場(chǎng)景使用的其他API
>
API接口列表
<
產(chǎn)品價(jià)格
>

免費(fèi)版

類(lèi)別 特征 價(jià)格
語(yǔ)音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時(shí)免費(fèi)音頻3
風(fēng)俗 每月免費(fèi) 5 小時(shí)音頻3
端點(diǎn)托管:每月免費(fèi) 1 個(gè)模型1
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 每月 5 小時(shí)免費(fèi)音頻
文本轉(zhuǎn)語(yǔ)音
(按字符計(jì)費(fèi))
神經(jīng) 每月免費(fèi) 50 萬(wàn)個(gè)字符
語(yǔ)音翻譯
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 每月 5 小時(shí)免費(fèi)音頻
說(shuō)話人識(shí)別
(按交易計(jì)費(fèi))
說(shuō)話者驗(yàn)證2 每月 10,000 筆交易免費(fèi)
說(shuō)話人識(shí)別2 每月 10,000 筆交易免費(fèi)
語(yǔ)音配置文件存儲(chǔ) 每月 10,000 筆交易免費(fèi)

即用即付:僅按使用量付費(fèi)

類(lèi)別 價(jià)格
語(yǔ)音轉(zhuǎn)文本
(按秒計(jì)費(fèi))
標(biāo)準(zhǔn) 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1 美元
快速轉(zhuǎn)錄預(yù)覽每小時(shí)不適用9
批量轉(zhuǎn)錄:每小時(shí)0.18 美元1
風(fēng)俗 實(shí)時(shí)轉(zhuǎn)錄:每小時(shí)1.20 美元
批量轉(zhuǎn)錄:每小時(shí)0.225 美元1
端點(diǎn)托管:每個(gè)模型每小時(shí)0.0538 美元
自定義語(yǔ)音訓(xùn)練5每計(jì)算小時(shí) 10 美元
增強(qiáng)的附加功能:
  • 連續(xù)語(yǔ)言識(shí)別
  • 分類(lèi)
  • 發(fā)音評(píng)估(韻律、語(yǔ)法、詞匯、主題)
實(shí)時(shí):每個(gè)功能每小時(shí)0.30 美元
批量(連續(xù)語(yǔ)言識(shí)別、二值化):包含在標(biāo)準(zhǔn)/自定義中(無(wú)額外費(fèi)用)
對(duì)話轉(zhuǎn)錄多通道音頻預(yù)覽 每小時(shí)2.10 美元2
語(yǔ)音翻譯
(按秒計(jì)費(fèi))
實(shí)時(shí)語(yǔ)音翻譯 每音頻小時(shí)2.50 美元3
視頻翻譯預(yù)覽 批量:每輸出視頻分鐘不適用
內(nèi)容編輯:每輸出視頻分鐘不適用
個(gè)人語(yǔ)音:每輸出視頻分鐘 不適用
文字轉(zhuǎn)語(yǔ)音8 標(biāo)準(zhǔn)語(yǔ)音 神經(jīng)網(wǎng)絡(luò):每 100 萬(wàn)個(gè)字符15 美元
神經(jīng)網(wǎng)絡(luò) HD 4每 100 萬(wàn)個(gè)字符 不適用
自定義語(yǔ)音 專(zhuān)業(yè)聲音:
合成:每 100 萬(wàn)個(gè)字符24 美元
語(yǔ)音模型訓(xùn)練:每個(gè)計(jì)算小時(shí)52 美元,每次訓(xùn)練最高4,992 美元
端點(diǎn)托管:每個(gè)模型每小時(shí)4.04 美元
個(gè)人聲音6
合成:每 100 萬(wàn)個(gè)字符不適用
語(yǔ)音創(chuàng)建:免費(fèi)
語(yǔ)音配置文件存儲(chǔ):每月每 1,000 個(gè)語(yǔ)音配置文件 不適用
增強(qiáng)的附加功能:頭像預(yù)覽 標(biāo)準(zhǔn):N/A每分鐘
風(fēng)俗:
實(shí)時(shí)綜合:每分鐘N/A
批量綜合:每分鐘 N/A
端點(diǎn)托管:每小時(shí)每個(gè)模型 N/A
說(shuō)話人識(shí)別
(按交易計(jì)費(fèi))
說(shuō)話者驗(yàn)證7 每 1,000 筆交易5 美元
說(shuō)話者識(shí)別7 每 1,000 筆交易10 美元
語(yǔ)音配置文件存儲(chǔ) 每 1,000 個(gè)語(yǔ)音配置文件0.20 USD(每月 10,000 個(gè)免費(fèi)語(yǔ)音配置文件)

 

其他價(jià)格信息請(qǐng)查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先決條件

 

設(shè)置環(huán)境

語(yǔ)音 SDK 以 NuGet 包的形式提供,實(shí)現(xiàn)了 .NET Standard 2.0。 稍后在本指南中安裝語(yǔ)音 SDK。 有關(guān)任何要求,請(qǐng)參閱安裝語(yǔ)音 SDK

 

設(shè)置環(huán)境變量。

必須對(duì)應(yīng)用程序進(jìn)行身份驗(yàn)證才能訪問(wèn) Azure AI 服務(wù)資源。 對(duì)于生產(chǎn),請(qǐng)使用安全的方式存儲(chǔ)和訪問(wèn)憑據(jù)。 例如,獲取語(yǔ)音資源的密鑰后,請(qǐng)將其寫(xiě)入運(yùn)行應(yīng)用程序的本地計(jì)算機(jī)上的新環(huán)境變量。

 提示

請(qǐng)不要直接在代碼中包含密鑰,并且絕不公開(kāi)發(fā)布密鑰。 有關(guān) Azure Key Vault 等更多身份驗(yàn)證選項(xiàng),請(qǐng)參閱 Azure AI 服務(wù)安全性

若要為語(yǔ)音資源密鑰設(shè)置環(huán)境變量,請(qǐng)打開(kāi)控制臺(tái)窗口,并按照操作系統(tǒng)和開(kāi)發(fā)環(huán)境的說(shuō)明進(jìn)行操作。

  • 要設(shè)置 SPEECH_KEY 環(huán)境變量,請(qǐng)將“your-key”替換為你的資源的某一個(gè)密鑰。
  • 要設(shè)置 SPEECH_REGION 環(huán)境變量,請(qǐng)將 “your-region”替換為你的資源的某一個(gè)地區(qū)。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加環(huán)境變量后,你可能需要重啟任何需要讀取環(huán)境變量的程序(包括控制臺(tái)窗口)。 例如,如果使用 Visual Studio 作為編輯器,請(qǐng)?jiān)谶\(yùn)行示例之前重啟 Visual Studio。

 

合成到揚(yáng)聲器輸出

按照以下步驟創(chuàng)建控制臺(tái)應(yīng)用程序并安裝語(yǔ)音 SDK。

  1. 在需要新項(xiàng)目的文件夾中打開(kāi)命令提示符窗口。 運(yùn)行以下命令,使用 .NET CLI 創(chuàng)建控制臺(tái)應(yīng)用程序。

    dotnet new console

    該命令會(huì)在項(xiàng)目目錄中創(chuàng)建 Program.cs 文件。

  2. 使用 .NET CLI 在新項(xiàng)目中安裝語(yǔ)音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 將 Program.cs 的內(nèi)容替換為以下代碼。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改語(yǔ)音合成語(yǔ)言,請(qǐng)將 en-US-AvaMultilingualNeural 替換為另一種受支持的語(yǔ)音

    所有神經(jīng)網(wǎng)絡(luò)聲音都是多語(yǔ)言的,并且能夠流利地使用自己的語(yǔ)言和英語(yǔ)。 例如,如果英語(yǔ)的輸入文本為“I'm excited to try text to speech”并且你設(shè)置了 es-ES-ElviraNeural,則該文本將用帶西班牙口音的英語(yǔ)講出。 如果語(yǔ)音使用的不是輸入文本的語(yǔ)言,則語(yǔ)音服務(wù)不會(huì)輸出合成的音頻。

  5. 運(yùn)行新的控制臺(tái)應(yīng)用程序,開(kāi)始將語(yǔ)音合成到默認(rèn)揚(yáng)聲器。
    dotnet run
  6. 輸入要朗讀的一些文本。 例如,鍵入“我對(duì)嘗試文本轉(zhuǎn)語(yǔ)音非常興奮”。 選擇 Enter 鍵可聽(tīng)到合成的語(yǔ)音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

詳細(xì)指南請(qǐng)查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
依賴(lài)服務(wù)
>
<
產(chǎn)品問(wèn)答
>
?
計(jì)費(fèi)如何運(yùn)作?
對(duì)于語(yǔ)音轉(zhuǎn)文本和語(yǔ)音翻譯,使用量按一秒增量計(jì)費(fèi)。 對(duì)于文本轉(zhuǎn)語(yǔ)音:使用量按字符計(jì)費(fèi)。檢查定價(jià)說(shuō)明中字符的定義。 對(duì)于自定義神經(jīng)語(yǔ)音托管:使用量按端點(diǎn)每秒計(jì)費(fèi)。查看定價(jià)說(shuō)明中的詳細(xì)信息。 對(duì)于個(gè)人語(yǔ)音配置文件存儲(chǔ):使用量按每天的語(yǔ)音配置文件計(jì)費(fèi)。查看定價(jià)說(shuō)明中的詳細(xì)信息。 對(duì)于文本轉(zhuǎn)語(yǔ)音頭像,使用量按秒計(jì)費(fèi)。 對(duì)于語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音(包括 Avatar),自定義模型的端點(diǎn)托管按每個(gè)模型每秒計(jì)費(fèi)。
?
什么是“自定義語(yǔ)音模型”?
語(yǔ)音服務(wù)使用戶(hù)能夠根據(jù)自己的聲學(xué)和語(yǔ)言數(shù)據(jù)調(diào)整基線模型,從而生成可用于語(yǔ)音轉(zhuǎn)文本和語(yǔ)音翻譯的自定義語(yǔ)音模型。
?
什么是語(yǔ)言模型以及為什么要定制它? 。
語(yǔ)言模型是單詞序列上的概率分布。語(yǔ)言模型幫助系統(tǒng)根據(jù)單詞序列本身的可能性來(lái)決定聽(tīng)起來(lái)相似的單詞序列。例如,“識(shí)別語(yǔ)音”和“破壞美麗的海灘”聽(tīng)起來(lái)很相似,但第一個(gè)假設(shè)發(fā)生的可能性要大得多,因此語(yǔ)言模型會(huì)分配更高的分?jǐn)?shù)。如果您希望應(yīng)用程序的語(yǔ)音查詢(xún)包含特定詞匯項(xiàng),例如典型語(yǔ)音中很少出現(xiàn)的產(chǎn)品名稱(chēng)或行話,那么您可能可以通過(guò)自定義語(yǔ)言模型來(lái)獲得改進(jìn)的性能。例如,如果您正在構(gòu)建一個(gè)通過(guò)語(yǔ)音搜索 MSDN 的應(yīng)用程序,“面向?qū)ο蟆薄ⅰ懊臻g”或“點(diǎn)網(wǎng)”等術(shù)語(yǔ)可能會(huì)比典型的語(yǔ)音應(yīng)用程序更頻繁地出現(xiàn)。定制語(yǔ)言模型將使系統(tǒng)能夠?qū)W習(xí)這一點(diǎn)
?
什么是聲學(xué)模型以及為什么要定制它?
聲學(xué)模型是一種分類(lèi)器,它將音頻的短片段標(biāo)記為每種語(yǔ)言的幾個(gè)音素或聲音單元之一。然后可以將這些音素拼接在一起形成單詞。例如,單詞“speech”由四個(gè)音素“sp iy ch”組成。這些分類(lèi)按每秒 100 次的數(shù)量級(jí)進(jìn)行。定制聲學(xué)模型可以使系統(tǒng)學(xué)會(huì)在非典型環(huán)境中更好地識(shí)別語(yǔ)音。例如,如果您有一款專(zhuān)供倉(cāng)庫(kù)或工廠工人使用的應(yīng)用程序,則定制的聲學(xué)模型可以在這些環(huán)境中存在噪音的情況下更準(zhǔn)確地識(shí)別語(yǔ)音。
?
什么是“自定義神經(jīng)語(yǔ)音”?
語(yǔ)音服務(wù)提供各種文本轉(zhuǎn)語(yǔ)音 (TTS) 語(yǔ)音字體,但自定義神經(jīng)語(yǔ)音允許您構(gòu)建適合您的需求和品牌的自定義語(yǔ)音。閱讀博客了解更多信息。
?
什么是語(yǔ)言識(shí)別?
語(yǔ)言識(shí)別允許您識(shí)別口語(yǔ)的切換并相應(yīng)地轉(zhuǎn)錄語(yǔ)音。這可以應(yīng)用于音頻語(yǔ)言未知或說(shuō)話者可能說(shuō)多種語(yǔ)言的場(chǎng)景。單語(yǔ)言識(shí)別無(wú)需額外付費(fèi)。連續(xù)語(yǔ)言識(shí)別是一項(xiàng)增強(qiáng)的附加功能。訪問(wèn)文檔以了解更多信息。
?
什么是發(fā)音評(píng)估?
發(fā)音評(píng)估評(píng)估語(yǔ)音發(fā)音并向說(shuō)話者提供有關(guān)口語(yǔ)音頻的準(zhǔn)確性和流暢性的反饋。通過(guò)發(fā)音評(píng)估,語(yǔ)言學(xué)習(xí)者可以練習(xí)、獲得即時(shí)反饋并提高發(fā)音,以便他們能夠自信地說(shuō)話和表達(dá)。教育工作者可以利用該功能實(shí)時(shí)評(píng)估多個(gè)說(shuō)話者的發(fā)音。訪問(wèn)文檔以了解更多信息。
<
關(guān)于我們
>
Microsoft
企業(yè)
Microsoft(微軟公司)是一家全球知名的科技公司,以其廣泛的計(jì)算機(jī)軟件、消費(fèi)電子產(chǎn)品以及相關(guān)服務(wù)聞名于世。成立于1975年,由比爾·蓋茨和保羅·艾倫創(chuàng)立,總部位于美國(guó)華盛頓州雷德蒙德。Microsoft開(kāi)發(fā)和銷(xiāo)售多種電腦軟件、電子游戲機(jī)、個(gè)人電腦以及移動(dòng)設(shè)備等產(chǎn)品。其中,Windows操作系統(tǒng)、Microsoft Office辦公軟件套件以及Bing搜索引擎等產(chǎn)品在全球范圍內(nèi)廣受用戶(hù)青睞。此外,Microsoft還通過(guò)Azure提供云計(jì)算服務(wù),支持企業(yè)數(shù)字化轉(zhuǎn)型和創(chuàng)新。
聯(lián)系信息
服務(wù)時(shí)間: 00:00:00至24:00:00
電話號(hào)碼: (425) 882-8080
電話號(hào)碼: (425) 706-7329

 

公司簡(jiǎn)介

隨時(shí)了解 Microsoft 的最新消息 - 包括公司基本信息、新聞、全球辦公地點(diǎn)等。

 

 

關(guān)于我們

認(rèn)識(shí) Microsoft 員工,探索引人入勝的故事,了解塑造公司愿景的領(lǐng)導(dǎo)者。

 

 

我們的價(jià)值觀

了解我們?nèi)绾卫眉夹g(shù)來(lái)創(chuàng)建平臺(tái)和資源,造就長(zhǎng)遠(yuǎn)的積極影響。

 

特色計(jì)劃和項(xiàng)目

透過(guò)數(shù)字了解可持續(xù)發(fā)展

到 2030 年,Microsoft 將實(shí)現(xiàn)負(fù)排碳目標(biāo)。 通過(guò)互動(dòng)方式了解我們公司改善對(duì)環(huán)境的影響的其他方式。

透過(guò)數(shù)字深入了解 

公司的社會(huì)責(zé)任

我們相信技術(shù)是造福人類(lèi)的強(qiáng)大力量,并且正在努力創(chuàng)造一個(gè)可持續(xù)未來(lái),使每個(gè)人都可以享受到技術(shù)帶來(lái)的好處和機(jī)會(huì)。

了解我們的方法 

故事

在 Microsoft,我們受到來(lái)自世界各地的人們的啟發(fā),他們利用技術(shù)去做富有想象力、創(chuàng)新以及能改變生活的事情。 我們分享他們的故事。

查看他們的故事 

Microsoft AI

在以人為本的設(shè)計(jì)中,AI 可以擴(kuò)展你的能力,解放你的思維,讓你自由進(jìn)行更具創(chuàng)造性和策略性的嘗試,幫助你和你的組織達(dá)成更多成就。

了解 Microsoft AI 
<
最可能同場(chǎng)景使用的其他API
>