實時語音識別-百度智能云
專用API
【更新時間: 2024.06.25】
WebSocket 是基于TCP的全雙工協議,即建立連接后通訊雙方都可以不斷發送數據。
WebSocket 協議由rfc6455定義, 下面介紹常見WebSocket 庫的調用流程及參數
一般需要各編程語言的W...
|
瀏覽次數
30
采購人數
0
試用次數
0
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是百度智能云的實時語音識別?
實時語音識別是一種先進的技術,能夠在語音被說出的同時迅速將其轉換為文字。它基于Deep Peak2端到端的建模方法,通過超過10萬小時的訓練數據和多采樣率、多場景的聲學模型,實現高精度的語音識別能力。特別是針對近場中文普通話,其識別準確率可達到98%。該技術不僅支持普通話及帶輕微口音的中文,還支持英文的識別。通過使用大規模數據集訓練的語言模型,它可以智能糾錯并根據語音內容理解與停頓情況自動添加適當的標點符號,如句號、感嘆號、問號等。實時語音識別服務可以通過WebSocket API或Android、iOS、Linux SDK等多種調用方式進行接入,適應多種操作系統和設備。
什么是百度智能云的實時語音識別接口?
百度智能云的實時語音識別有哪些核心功能?
技術領先識別準確
基于Deep Peak2端到端建模,超過10萬小時數據訓練,多采樣率多場景聲學建模,近場中文普通話識別準確率達98%
|
多語種識別
支持普通話和略帶口音的中文識別;支持英文識別
|
智能語言處理
使用大規模數據集訓練語言模型,對識別中間結果進行智能糾錯,并根據語音的內容理解和停頓智能匹配合適的標點符號,。!?
|
多種調用方式
支持WebSocket API,支持Android、iOS、Linux SDK,可以在多種操作系統、多種設備終端上調用,快速上手,簡單易用
|
毫秒級實時識別音頻流
首包響應時間毫秒級,并實時展示中間文字結果,快速識別音頻流
|
文字識別結果支持時間戳
識別返回的文字結果帶有時間戳,展示VAD切分句子開始和結束時間,方便進行功能開發
|
百度智能云的實時語音識別的核心優勢是什么?
識別效果領先
基于Deep Peak2端到端建模,多采樣率多場景聲學建模,近場中文普通話識別準確率達98%
|
支持多設備終端
支持WebSocket API方式、Android、iOS、Linux SDK方式調用,可以適用于多種操作系統、多設備終端均可使用
|
服務穩定高效
企業級穩定服務保障,專有集群承載大流量并發,高效靈活,服務穩定
|
模型自助優化
中文普通話模型可在語音自訓練平臺上零代碼自助訓練,上傳文本語料即可有效提升業務詞匯的識別準確率5-25%
|
在哪些場景會用到百度智能云的實時語音識別?




三步完成賬號的基本注冊與認證:
1:點擊進入控制臺,選擇需要使用的AI服務項。若為未登錄狀態,將跳轉至登錄界面,請您使用百度賬號登錄。如還未持有百度賬戶,可以點擊此處注冊百度賬號。
2:首次使用,登錄后將會進入開發者認證頁面,請填寫相關信息完成開發者認證。注:(如您之前已經是百度云用戶或百度開發者中心用戶,此步可略過。)
3:通過控制臺左側導航,選擇語音技術,進入語音技術的控制面板,進行相關操作。
1.領取免費額度
新用戶使用語音技術可以在控制臺領取相應接口的免費測試額度進行接口調用,免費額度有效期自領取成功之日開始計算,有效期截止后,免費調用額度清零。詳情可點擊此處查看 語音識別免費額度 | 語音合成免費額度 | 呼叫中心語音免費額度。
2.創建應用
您需要創建應用才可正式調用語音技術能力,應用是您調用服務的基本操作單元,您可以基于應用創建成功后獲取的API Key及Secret Key,進行接口調用操作,及相關配置。您可按照下圖所示的操作流程,完成創建操作。
應用名稱: 用于標識您所創建的應用的名稱,支持中英文、數字、下劃線及中橫線,此名稱一經創建完畢,不可修改。
接口選擇: 每個應用可以勾選業務所需的所有AI服務的接口權限(僅可勾選具備免費試用權限的接口能力),語音技術下全部接口已默認勾選,創建應用完畢,此應用即具備了所勾選服務的調用權限。
語音包名:如果您需要使用語音技術SDK服務(iOS/Android),需要綁定包名信息,以便生成授權License。
應用歸屬:可選擇個人使用或公司使用服務,若為公司使用,可與專屬商務經理溝通,獲取專業的售前支持。
應用描述: 對此應用的業務場景進行描述。
3.獲取密鑰
在您創建完畢應用后,平臺將會分配給您此應用的相關憑證,主要為AppID、API Key、Secret Key。以上三個信息是您應用實際開發的主要憑證,請您妥善保管。下圖為示例內容:
4.生成簽名
您需要使用創建應用所分配到的AppID、API Key及Secret Key,進行Access Token(用戶身份驗證和授權的憑證)的生成,方法詳見 Access Token獲取,我們為您準備了幾種常見語言的請求示例代碼。
溫馨提示:Access Token的有效期為30天(以秒為單位),請您集成時注意在程序中定期請求新的token。
5.啟動開發
目前語音技術主要有兩種方式使用:API與SDK,您可以選擇各產品的文檔,查看具體使用方法及參數。詳情可點擊此處查看 語音識別導覽 | 語音合成導覽 | 呼叫中心語音導覽。




安全合規可信的云服務 |
||||




三步完成賬號的基本注冊與認證:
1:點擊進入控制臺,選擇需要使用的AI服務項。若為未登錄狀態,將跳轉至登錄界面,請您使用百度賬號登錄。如還未持有百度賬戶,可以點擊此處注冊百度賬號。
2:首次使用,登錄后將會進入開發者認證頁面,請填寫相關信息完成開發者認證。注:(如您之前已經是百度云用戶或百度開發者中心用戶,此步可略過。)
3:通過控制臺左側導航,選擇語音技術,進入語音技術的控制面板,進行相關操作。
1.領取免費額度
新用戶使用語音技術可以在控制臺領取相應接口的免費測試額度進行接口調用,免費額度有效期自領取成功之日開始計算,有效期截止后,免費調用額度清零。詳情可點擊此處查看 語音識別免費額度 | 語音合成免費額度 | 呼叫中心語音免費額度。
2.創建應用
您需要創建應用才可正式調用語音技術能力,應用是您調用服務的基本操作單元,您可以基于應用創建成功后獲取的API Key及Secret Key,進行接口調用操作,及相關配置。您可按照下圖所示的操作流程,完成創建操作。
應用名稱: 用于標識您所創建的應用的名稱,支持中英文、數字、下劃線及中橫線,此名稱一經創建完畢,不可修改。
接口選擇: 每個應用可以勾選業務所需的所有AI服務的接口權限(僅可勾選具備免費試用權限的接口能力),語音技術下全部接口已默認勾選,創建應用完畢,此應用即具備了所勾選服務的調用權限。
語音包名:如果您需要使用語音技術SDK服務(iOS/Android),需要綁定包名信息,以便生成授權License。
應用歸屬:可選擇個人使用或公司使用服務,若為公司使用,可與專屬商務經理溝通,獲取專業的售前支持。
應用描述: 對此應用的業務場景進行描述。
3.獲取密鑰
在您創建完畢應用后,平臺將會分配給您此應用的相關憑證,主要為AppID、API Key、Secret Key。以上三個信息是您應用實際開發的主要憑證,請您妥善保管。下圖為示例內容:
4.生成簽名
您需要使用創建應用所分配到的AppID、API Key及Secret Key,進行Access Token(用戶身份驗證和授權的憑證)的生成,方法詳見 Access Token獲取,我們為您準備了幾種常見語言的請求示例代碼。
溫馨提示:Access Token的有效期為30天(以秒為單位),請您集成時注意在程序中定期請求新的token。
5.啟動開發
目前語音技術主要有兩種方式使用:API與SDK,您可以選擇各產品的文檔,查看具體使用方法及參數。詳情可點擊此處查看 語音識別導覽 | 語音合成導覽 | 呼叫中心語音導覽。






安全合規可信的云服務 |
||||


|
|
|
|
|
|
|
|
|
|
|
|