![]() |
AssemblyAI 流媒體語音到文本
專用API
【更新時間: 2024.07.12】
將實時音頻流同步轉換為文本,準確率接近90%,延遲600毫秒。同步轉錄對話、會議和現場活動,即時提升現場互動。
|
瀏覽次數
17
采購人數
2
試用次數
0
試用
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是AssemblyAI 流媒體語音到文本?
將實時音頻流同步轉換為文本,準確率接近 90%,延遲小于 600 毫秒。
什么是AssemblyAI 流媒體語音到文本接口?
AssemblyAI 流媒體語音到文本有哪些核心功能?
1. 自動將現場音頻轉換為文本:同步轉錄對話、會議和現場活動,并立即提升現場互動。
2. 流式轉錄:以高精度、低延遲轉錄現場音頻。
3. 自動標點和大小寫:自動為轉錄文本添加專有名詞的大小寫和標點符號。
4. 自定義詞匯:提高針對您的特定用例或產品所特有或定制的詞匯的準確性。
5. ITN/格式化:自動將口頭形式的文本轉換為正確的書面格式,以提高文字記錄的可讀性。
6. 話語結束檢測:自定義話語結束檢測,以便更準確地檢測一個說話者在流式語音轉文本中何時結束話語。
AssemblyAI 流媒體語音到文本的核心優勢是什么?
低延遲自動轉錄現場音頻,幾乎瞬間,與定制的端點控制。
|
行業領先的品質獲得高度準確的結果。
|
高并發輕松處理大容量音頻文件。
|
自動添加大小寫和標點符號的專有名詞的轉錄文本。
|
每月更新和改進在我們的更新日志中查看每周的產品和準確性改進。 |
企業級安全性AssemblyAI致力于最高標準的安全實踐,以確保您和您客戶的數據安全。 |
在哪些場景會用到AssemblyAI 流媒體語音到文本?
1. 語音轉文本
在市場上最準確的語音轉文本模型的基礎上構建,準確率達 92.5% 以上。
2. 語音理解
利用音頻智能從語音數據中提取最大價值,并利用 LeMUR 發揮大型語言模型的作用。




步驟1:安裝SDK?
通過pip安裝軟件包:
步驟2:配置SDK?
在這一步中,您將創建一個SDK客戶端,并將其配置為使用您的API密鑰。
-
瀏覽到“您的API密鑰”下的文本,然后單擊該文本以復制它。
-
使用您的API密鑰創建新客戶端。將
YOUR_API_KEY
替換為復制的API密鑰。
步驟3:提交音頻進行轉錄?
在此步驟中,您將提交音頻文件進行轉錄,并等待轉錄完成。處理音頻文件所需的時間取決于其持續時間和啟用的模型。大多數的傳輸在45秒內完成。
-
指定要轉錄的音頻的URL。URL需要可以從AssemblyAI的服務器訪問。有關支持的格式列表,請參閱常見問題解答。不支持YouTube URL。如果你想轉錄YouTube視頻,你需要先下載音頻。
-
要生成轉錄本,請將音頻URL傳遞到
transcribe()
。這可能需要一分鐘,而我們正在處理音頻。
選擇語音模型您可以選擇要使用的模型類別,以實現最適合您的應用程序的成本-性能權衡。請參見選擇語音模型。
-
如果轉錄失敗,轉錄的
status
將被設置為error
。要查看失敗的原因,您可以打印error
的值。 -
打印完整的成績單。
-
運行應用程序并等待它完成。
您已成功轉錄第一個音頻文件。中可以查看所有已提交的轉錄作業。
步驟4:啟用其他AI模型?
通過使用轉錄選項啟用我們的任何AI模型,您可以從音頻中提取更多見解。在這一步中,您將啟用Speaker diarization模型來檢測誰說了什么。
-
創建一個
TranscriptionConfig
,將speaker_labels
設置為True
,然后將其作為第二個參數傳遞給transcribe()
。 -
除了完整的文字記錄外,您現在還可以訪問每個發言者的發言。




合作客戶




步驟1:安裝SDK?
通過pip安裝軟件包:
步驟2:配置SDK?
在這一步中,您將創建一個SDK客戶端,并將其配置為使用您的API密鑰。
-
瀏覽到“您的API密鑰”下的文本,然后單擊該文本以復制它。
-
使用您的API密鑰創建新客戶端。將
YOUR_API_KEY
替換為復制的API密鑰。
步驟3:提交音頻進行轉錄?
在此步驟中,您將提交音頻文件進行轉錄,并等待轉錄完成。處理音頻文件所需的時間取決于其持續時間和啟用的模型。大多數的傳輸在45秒內完成。
-
指定要轉錄的音頻的URL。URL需要可以從AssemblyAI的服務器訪問。有關支持的格式列表,請參閱常見問題解答。不支持YouTube URL。如果你想轉錄YouTube視頻,你需要先下載音頻。
-
要生成轉錄本,請將音頻URL傳遞到
transcribe()
。這可能需要一分鐘,而我們正在處理音頻。
選擇語音模型您可以選擇要使用的模型類別,以實現最適合您的應用程序的成本-性能權衡。請參見選擇語音模型。
-
如果轉錄失敗,轉錄的
status
將被設置為error
。要查看失敗的原因,您可以打印error
的值。 -
打印完整的成績單。
-
運行應用程序并等待它完成。
您已成功轉錄第一個音頻文件。中可以查看所有已提交的轉錄作業。
步驟4:啟用其他AI模型?
通過使用轉錄選項啟用我們的任何AI模型,您可以從音頻中提取更多見解。在這一步中,您將啟用Speaker diarization模型來檢測誰說了什么。
-
創建一個
TranscriptionConfig
,將speaker_labels
設置為True
,然后將其作為第二個參數傳遞給transcribe()
。 -
除了完整的文字記錄外,您現在還可以訪問每個發言者的發言。






合作客戶