AssemblyAI 流媒體語音到文本

AssemblyAI 流媒體語音到文本

專用API
服務商 服務商: AssemblyAI
【更新時間: 2024.07.12】 將實時音頻流同步轉換為文本,準確率接近90%,延遲600毫秒。同步轉錄對話、會議和現場活動,即時提升現場互動。
0元起 (支持套餐) 去服務商官網采購>
瀏覽次數
17
采購人數
2
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是AssemblyAI 流媒體語音到文本?

將實時音頻流同步轉換為文本,準確率接近 90%,延遲小于 600 毫秒。

什么是AssemblyAI 流媒體語音到文本接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用AssemblyAI 流媒體語音到文本,從而實現程序的自動化交互,提高服務效率。

AssemblyAI 流媒體語音到文本有哪些核心功能?

1. 自動將現場音頻轉換為文本:同步轉錄對話、會議和現場活動,并立即提升現場互動。
2. 流式轉錄:以高精度、低延遲轉錄現場音頻。
3. 自動標點和大小寫:自動為轉錄文本添加專有名詞的大小寫和標點符號。
4. 自定義詞匯:提高針對您的特定用例或產品所特有或定制的詞匯的準確性。
5. ITN/格式化:自動將口頭形式的文本轉換為正確的書面格式,以提高文字記錄的可讀性。
6. 話語結束檢測:自定義話語結束檢測,以便更準確地檢測一個說話者在流式語音轉文本中何時結束話語。

AssemblyAI 實時游樂場的插圖。頂部有一個按鈕,上面寫著“開始說話”的文字。下面有一個時間戳和輸出,上面寫著“你好,今天是”的文字

 

AssemblyAI 流媒體語音到文本的核心優勢是什么?

低延遲
自動轉錄現場音頻,幾乎瞬間,與定制的端點控制。
行業領先的品質
獲得高度準確的結果。
高并發
輕松處理大容量音頻文件。
自動添加大小寫和標點符號的專有名詞的轉錄文本。
每月更新和改進

在我們的更新日志中查看每周的產品和準確性改進。

企業級安全性

AssemblyAI致力于最高標準的安全實踐,以確保您和您客戶的數據安全。

在哪些場景會用到AssemblyAI 流媒體語音到文本?

1. 語音轉文本

在市場上最準確的語音轉文本模型的基礎上構建,準確率達 92.5% 以上。

2. 語音理解

利用音頻智能從語音數據中提取最大價值,并利用 LeMUR 發揮大型語言模型的作用。

<
產品價格
>

<
使用指南
>

步驟1:安裝SDK?

通過pip安裝軟件包:

步驟2:配置SDK?

在這一步中,您將創建一個SDK客戶端,并將其配置為使用您的API密鑰。

  1. 瀏覽到“您的API密鑰”下的文本,然后單擊該文本以復制它。
  2. 使用您的API密鑰創建新客戶端。將YOUR_API_KEY替換為復制的API密鑰。

步驟3:提交音頻進行轉錄?

在此步驟中,您將提交音頻文件進行轉錄,并等待轉錄完成。處理音頻文件所需的時間取決于其持續時間和啟用的模型。大多數的傳輸在45秒內完成。

  1. 指定要轉錄的音頻的URL。URL需要可以從AssemblyAI的服務器訪問。有關支持的格式列表,請參閱常見問題解答
    不支持YouTube URL。如果你想轉錄YouTube視頻,你需要先下載音頻。
  2. 要生成轉錄本,請將音頻URL傳遞到transcribe()

    這可能需要一分鐘,而我們正在處理音頻。

    選擇語音模型

    您可以選擇要使用的模型類別,以實現最適合您的應用程序的成本-性能權衡。請參見選擇語音模型

  3. 如果轉錄失敗,轉錄的status將被設置為error。要查看失敗的原因,您可以打印error的值。
  4. 打印完整的成績單。
  5. 運行應用程序并等待它完成。

您已成功轉錄第一個音頻文件。中可以查看所有已提交的轉錄作業。

步驟4:啟用其他AI模型?

通過使用轉錄選項啟用我們的任何AI模型,您可以從音頻中提取更多見解。在這一步中,您將啟用Speaker diarization模型來檢測誰說了什么。

  1. 創建一個TranscriptionConfig,將speaker_labels設置為True,然后將其作為第二個參數傳遞給transcribe()
  2. 除了完整的文字記錄外,您現在還可以訪問每個發言者的發言。

轉錄對象中的許多屬性只有在啟用相應的模型后才可用。有關詳細信息,請參閱語音轉文本音頻智能下的模型。

<
產品問答
>
?
流式語音轉文本的延遲是多少?
延遲小于600毫秒。
?
AssemblyAI的流式語音轉文本服務有哪些特點?
特點包括低延遲、行業領先的品質、高并發、自動添加高級標點符號和大小寫、自定義詞匯、ITN/格式化、話語結束檢測等。
?
如何為轉錄文本自動添加專有名詞的大小寫和標點符號?
AssemblyAI的流式語音轉文本服務會自動為轉錄文本添加專有名詞的大小寫和標點符號。
<
關于我們
>
AssemblyAI是一家領先的人工智能公司,專注于開發先進的語音人工智能模型。公司提供包括準確語音轉文字、說話人識別、情感分析、章節檢測、個人信息編輯等功能的API服務。其最新推出的Universal-1模型,經過12.5百萬小時多語言音頻數據訓練,代表了公司在語音識別技術上的最新突破。AssemblyAI致力于幫助客戶通過語音數據構建創新的AI產品,并通過持續的模型更新,確保客戶始終能夠使用到最前沿的AI技術。
聯系信息
服務時間: 0:00 - 24:00
網頁在線客服: 咨詢

合作客戶

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

<
使用指南
>

步驟1:安裝SDK?

通過pip安裝軟件包:

步驟2:配置SDK?

在這一步中,您將創建一個SDK客戶端,并將其配置為使用您的API密鑰。

  1. 瀏覽到“您的API密鑰”下的文本,然后單擊該文本以復制它。
  2. 使用您的API密鑰創建新客戶端。將YOUR_API_KEY替換為復制的API密鑰。

步驟3:提交音頻進行轉錄?

在此步驟中,您將提交音頻文件進行轉錄,并等待轉錄完成。處理音頻文件所需的時間取決于其持續時間和啟用的模型。大多數的傳輸在45秒內完成。

  1. 指定要轉錄的音頻的URL。URL需要可以從AssemblyAI的服務器訪問。有關支持的格式列表,請參閱常見問題解答
    不支持YouTube URL。如果你想轉錄YouTube視頻,你需要先下載音頻。
  2. 要生成轉錄本,請將音頻URL傳遞到transcribe()

    這可能需要一分鐘,而我們正在處理音頻。

    選擇語音模型

    您可以選擇要使用的模型類別,以實現最適合您的應用程序的成本-性能權衡。請參見選擇語音模型

  3. 如果轉錄失敗,轉錄的status將被設置為error。要查看失敗的原因,您可以打印error的值。
  4. 打印完整的成績單。
  5. 運行應用程序并等待它完成。

您已成功轉錄第一個音頻文件。中可以查看所有已提交的轉錄作業。

步驟4:啟用其他AI模型?

通過使用轉錄選項啟用我們的任何AI模型,您可以從音頻中提取更多見解。在這一步中,您將啟用Speaker diarization模型來檢測誰說了什么。

  1. 創建一個TranscriptionConfig,將speaker_labels設置為True,然后將其作為第二個參數傳遞給transcribe()
  2. 除了完整的文字記錄外,您現在還可以訪問每個發言者的發言。

轉錄對象中的許多屬性只有在啟用相應的模型后才可用。有關詳細信息,請參閱語音轉文本音頻智能下的模型。

<
依賴服務
>
<
產品問答
>
?
流式語音轉文本的延遲是多少?
延遲小于600毫秒。
?
AssemblyAI的流式語音轉文本服務有哪些特點?
特點包括低延遲、行業領先的品質、高并發、自動添加高級標點符號和大小寫、自定義詞匯、ITN/格式化、話語結束檢測等。
?
如何為轉錄文本自動添加專有名詞的大小寫和標點符號?
AssemblyAI的流式語音轉文本服務會自動為轉錄文本添加專有名詞的大小寫和標點符號。
<
關于我們
>
AssemblyAI是一家領先的人工智能公司,專注于開發先進的語音人工智能模型。公司提供包括準確語音轉文字、說話人識別、情感分析、章節檢測、個人信息編輯等功能的API服務。其最新推出的Universal-1模型,經過12.5百萬小時多語言音頻數據訓練,代表了公司在語音識別技術上的最新突破。AssemblyAI致力于幫助客戶通過語音數據構建創新的AI產品,并通過持續的模型更新,確保客戶始終能夠使用到最前沿的AI技術。
聯系信息
服務時間: 0:00 - 24:00
網頁在線客服: 咨詢

合作客戶

<
最可能同場景使用的其他API
>