AssemblyAI 流媒體語音到文本

AssemblyAI 流媒體語音到文本

專用API
服務(wù)商 服務(wù)商: AssemblyAI
【更新時間: 2024.07.12】 將實時音頻流同步轉(zhuǎn)換為文本,準(zhǔn)確率接近90%,延遲600毫秒。同步轉(zhuǎn)錄對話、會議和現(xiàn)場活動,即時提升現(xiàn)場互動。
0元起 (支持套餐) 去服務(wù)商官網(wǎng)采購>
瀏覽次數(shù)
17
采購人數(shù)
2
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個人&企業(yè)
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是AssemblyAI 流媒體語音到文本?

將實時音頻流同步轉(zhuǎn)換為文本,準(zhǔn)確率接近 90%,延遲小于 600 毫秒。

什么是AssemblyAI 流媒體語音到文本接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用AssemblyAI 流媒體語音到文本,從而實現(xiàn)程序的自動化交互,提高服務(wù)效率。

AssemblyAI 流媒體語音到文本有哪些核心功能?

1. 自動將現(xiàn)場音頻轉(zhuǎn)換為文本:同步轉(zhuǎn)錄對話、會議和現(xiàn)場活動,并立即提升現(xiàn)場互動。
2. 流式轉(zhuǎn)錄:以高精度、低延遲轉(zhuǎn)錄現(xiàn)場音頻。
3. 自動標(biāo)點和大小寫:自動為轉(zhuǎn)錄文本添加專有名詞的大小寫和標(biāo)點符號。
4. 自定義詞匯:提高針對您的特定用例或產(chǎn)品所特有或定制的詞匯的準(zhǔn)確性。
5. ITN/格式化:自動將口頭形式的文本轉(zhuǎn)換為正確的書面格式,以提高文字記錄的可讀性。
6. 話語結(jié)束檢測:自定義話語結(jié)束檢測,以便更準(zhǔn)確地檢測一個說話者在流式語音轉(zhuǎn)文本中何時結(jié)束話語。

AssemblyAI 實時游樂場的插圖。頂部有一個按鈕,上面寫著“開始說話”的文字。下面有一個時間戳和輸出,上面寫著“你好,今天是”的文字

 

AssemblyAI 流媒體語音到文本的核心優(yōu)勢是什么?

低延遲
自動轉(zhuǎn)錄現(xiàn)場音頻,幾乎瞬間,與定制的端點控制。
行業(yè)領(lǐng)先的品質(zhì)
獲得高度準(zhǔn)確的結(jié)果。
高并發(fā)
輕松處理大容量音頻文件。
自動添加大小寫和標(biāo)點符號的專有名詞的轉(zhuǎn)錄文本。
每月更新和改進(jìn)

在我們的更新日志中查看每周的產(chǎn)品和準(zhǔn)確性改進(jìn)。

企業(yè)級安全性

AssemblyAI致力于最高標(biāo)準(zhǔn)的安全實踐,以確保您和您客戶的數(shù)據(jù)安全。

在哪些場景會用到AssemblyAI 流媒體語音到文本?

1. 語音轉(zhuǎn)文本

在市場上最準(zhǔn)確的語音轉(zhuǎn)文本模型的基礎(chǔ)上構(gòu)建,準(zhǔn)確率達(dá) 92.5% 以上。

2. 語音理解

利用音頻智能從語音數(shù)據(jù)中提取最大價值,并利用 LeMUR 發(fā)揮大型語言模型的作用。

<
產(chǎn)品價格
>

<
使用指南
>

步驟1:安裝SDK?

通過pip安裝軟件包:

步驟2:配置SDK?

在這一步中,您將創(chuàng)建一個SDK客戶端,并將其配置為使用您的API密鑰。

  1. 瀏覽到“您的API密鑰”下的文本,然后單擊該文本以復(fù)制它。
  2. 使用您的API密鑰創(chuàng)建新客戶端。將YOUR_API_KEY替換為復(fù)制的API密鑰。

步驟3:提交音頻進(jìn)行轉(zhuǎn)錄?

在此步驟中,您將提交音頻文件進(jìn)行轉(zhuǎn)錄,并等待轉(zhuǎn)錄完成。處理音頻文件所需的時間取決于其持續(xù)時間和啟用的模型。大多數(shù)的傳輸在45秒內(nèi)完成。

  1. 指定要轉(zhuǎn)錄的音頻的URL。URL需要可以從AssemblyAI的服務(wù)器訪問。有關(guān)支持的格式列表,請參閱常見問題解答
    不支持YouTube URL。如果你想轉(zhuǎn)錄YouTube視頻,你需要先下載音頻。
  2. 要生成轉(zhuǎn)錄本,請將音頻URL傳遞到transcribe()

    這可能需要一分鐘,而我們正在處理音頻。

    選擇語音模型

    您可以選擇要使用的模型類別,以實現(xiàn)最適合您的應(yīng)用程序的成本-性能權(quán)衡。請參見選擇語音模型

  3. 如果轉(zhuǎn)錄失敗,轉(zhuǎn)錄的status將被設(shè)置為error。要查看失敗的原因,您可以打印error的值。
  4. 打印完整的成績單。
  5. 運行應(yīng)用程序并等待它完成。

您已成功轉(zhuǎn)錄第一個音頻文件。中可以查看所有已提交的轉(zhuǎn)錄作業(yè)。

步驟4:啟用其他AI模型?

通過使用轉(zhuǎn)錄選項啟用我們的任何AI模型,您可以從音頻中提取更多見解。在這一步中,您將啟用Speaker diarization模型來檢測誰說了什么。

  1. 創(chuàng)建一個TranscriptionConfig,將speaker_labels設(shè)置為True,然后將其作為第二個參數(shù)傳遞給transcribe()
  2. 除了完整的文字記錄外,您現(xiàn)在還可以訪問每個發(fā)言者的發(fā)言。

轉(zhuǎn)錄對象中的許多屬性只有在啟用相應(yīng)的模型后才可用。有關(guān)詳細(xì)信息,請參閱語音轉(zhuǎn)文本音頻智能下的模型。

<
產(chǎn)品問答
>
?
流式語音轉(zhuǎn)文本的延遲是多少?
延遲小于600毫秒。
?
AssemblyAI的流式語音轉(zhuǎn)文本服務(wù)有哪些特點?
特點包括低延遲、行業(yè)領(lǐng)先的品質(zhì)、高并發(fā)、自動添加高級標(biāo)點符號和大小寫、自定義詞匯、ITN/格式化、話語結(jié)束檢測等。
?
如何為轉(zhuǎn)錄文本自動添加專有名詞的大小寫和標(biāo)點符號?
AssemblyAI的流式語音轉(zhuǎn)文本服務(wù)會自動為轉(zhuǎn)錄文本添加專有名詞的大小寫和標(biāo)點符號。
<
關(guān)于我們
>
AssemblyAI
企業(yè)
AssemblyAI是一家領(lǐng)先的人工智能公司,專注于開發(fā)先進(jìn)的語音人工智能模型。公司提供包括準(zhǔn)確語音轉(zhuǎn)文字、說話人識別、情感分析、章節(jié)檢測、個人信息編輯等功能的API服務(wù)。其最新推出的Universal-1模型,經(jīng)過12.5百萬小時多語言音頻數(shù)據(jù)訓(xùn)練,代表了公司在語音識別技術(shù)上的最新突破。AssemblyAI致力于幫助客戶通過語音數(shù)據(jù)構(gòu)建創(chuàng)新的AI產(chǎn)品,并通過持續(xù)的模型更新,確保客戶始終能夠使用到最前沿的AI技術(shù)。
聯(lián)系信息
服務(wù)時間: 0:00 - 24:00
網(wǎng)頁在線客服: 咨詢

合作客戶

<
最可能同場景使用的其他API
>
API接口列表
<
產(chǎn)品價格
>

<
使用指南
>

步驟1:安裝SDK?

通過pip安裝軟件包:

步驟2:配置SDK?

在這一步中,您將創(chuàng)建一個SDK客戶端,并將其配置為使用您的API密鑰。

  1. 瀏覽到“您的API密鑰”下的文本,然后單擊該文本以復(fù)制它。
  2. 使用您的API密鑰創(chuàng)建新客戶端。將YOUR_API_KEY替換為復(fù)制的API密鑰。

步驟3:提交音頻進(jìn)行轉(zhuǎn)錄?

在此步驟中,您將提交音頻文件進(jìn)行轉(zhuǎn)錄,并等待轉(zhuǎn)錄完成。處理音頻文件所需的時間取決于其持續(xù)時間和啟用的模型。大多數(shù)的傳輸在45秒內(nèi)完成。

  1. 指定要轉(zhuǎn)錄的音頻的URL。URL需要可以從AssemblyAI的服務(wù)器訪問。有關(guān)支持的格式列表,請參閱常見問題解答
    不支持YouTube URL。如果你想轉(zhuǎn)錄YouTube視頻,你需要先下載音頻。
  2. 要生成轉(zhuǎn)錄本,請將音頻URL傳遞到transcribe()

    這可能需要一分鐘,而我們正在處理音頻。

    選擇語音模型

    您可以選擇要使用的模型類別,以實現(xiàn)最適合您的應(yīng)用程序的成本-性能權(quán)衡。請參見選擇語音模型

  3. 如果轉(zhuǎn)錄失敗,轉(zhuǎn)錄的status將被設(shè)置為error。要查看失敗的原因,您可以打印error的值。
  4. 打印完整的成績單。
  5. 運行應(yīng)用程序并等待它完成。

您已成功轉(zhuǎn)錄第一個音頻文件。中可以查看所有已提交的轉(zhuǎn)錄作業(yè)。

步驟4:啟用其他AI模型?

通過使用轉(zhuǎn)錄選項啟用我們的任何AI模型,您可以從音頻中提取更多見解。在這一步中,您將啟用Speaker diarization模型來檢測誰說了什么。

  1. 創(chuàng)建一個TranscriptionConfig,將speaker_labels設(shè)置為True,然后將其作為第二個參數(shù)傳遞給transcribe()
  2. 除了完整的文字記錄外,您現(xiàn)在還可以訪問每個發(fā)言者的發(fā)言。

轉(zhuǎn)錄對象中的許多屬性只有在啟用相應(yīng)的模型后才可用。有關(guān)詳細(xì)信息,請參閱語音轉(zhuǎn)文本音頻智能下的模型。

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
流式語音轉(zhuǎn)文本的延遲是多少?
延遲小于600毫秒。
?
AssemblyAI的流式語音轉(zhuǎn)文本服務(wù)有哪些特點?
特點包括低延遲、行業(yè)領(lǐng)先的品質(zhì)、高并發(fā)、自動添加高級標(biāo)點符號和大小寫、自定義詞匯、ITN/格式化、話語結(jié)束檢測等。
?
如何為轉(zhuǎn)錄文本自動添加專有名詞的大小寫和標(biāo)點符號?
AssemblyAI的流式語音轉(zhuǎn)文本服務(wù)會自動為轉(zhuǎn)錄文本添加專有名詞的大小寫和標(biāo)點符號。
<
關(guān)于我們
>
AssemblyAI
企業(yè)
AssemblyAI是一家領(lǐng)先的人工智能公司,專注于開發(fā)先進(jìn)的語音人工智能模型。公司提供包括準(zhǔn)確語音轉(zhuǎn)文字、說話人識別、情感分析、章節(jié)檢測、個人信息編輯等功能的API服務(wù)。其最新推出的Universal-1模型,經(jīng)過12.5百萬小時多語言音頻數(shù)據(jù)訓(xùn)練,代表了公司在語音識別技術(shù)上的最新突破。AssemblyAI致力于幫助客戶通過語音數(shù)據(jù)構(gòu)建創(chuàng)新的AI產(chǎn)品,并通過持續(xù)的模型更新,確保客戶始終能夠使用到最前沿的AI技術(shù)。
聯(lián)系信息
服務(wù)時間: 0:00 - 24:00
網(wǎng)頁在線客服: 咨詢

合作客戶

<
最可能同場景使用的其他API
>