實時語音識別-百度智能云

實時語音識別-百度智能云

專用API
【更新時間: 2024.06.25】 WebSocket 是基于TCP的全雙工協議,即建立連接后通訊雙方都可以不斷發送數據。 WebSocket 協議由rfc6455定義, 下面介紹常見WebSocket 庫的調用流程及參數 一般需要各編程語言的W...
調用時長后付費(3 元/小時) (支持套餐) 去服務商官網采購>
瀏覽次數
30
采購人數
0
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是百度智能云的實時語音識別?

      實時語音識別是一種先進的技術,能夠在語音被說出的同時迅速將其轉換為文字。它基于Deep Peak2端到端的建模方法,通過超過10萬小時的訓練數據和多采樣率、多場景的聲學模型,實現高精度的語音識別能力。特別是針對近場中文普通話,其識別準確率可達到98%。該技術不僅支持普通話及帶輕微口音的中文,還支持英文的識別。通過使用大規模數據集訓練的語言模型,它可以智能糾錯并根據語音內容理解與停頓情況自動添加適當的標點符號,如句號、感嘆號、問號等。實時語音識別服務可以通過WebSocket API或Android、iOS、Linux SDK等多種調用方式進行接入,適應多種操作系統和設備。

什么是百度智能云的實時語音識別接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用百度智能云的實時語音識別,從而實現程序的自動化交互,提高服務效率。

百度智能云的實時語音識別有哪些核心功能?

多語種識別
支持普通話和略帶口音的中文識別;支持英文識別
智能語言處理
使用大規模數據集訓練語言模型,對識別中間結果進行智能糾錯,并根據語音的內容理解和停頓智能匹配合適的標點符號,。!?
毫秒級實時識別音頻流
首包響應時間毫秒級,并實時展示中間文字結果,快速識別音頻流
文字識別結果支持時間戳
識別返回的文字結果帶有時間戳,展示VAD切分句子開始和結束時間,方便進行功能開發

百度智能云的實時語音識別的核心優勢是什么?

識別效果領先
基于Deep Peak2端到端建模,多采樣率多場景聲學建模,近場中文普通話識別準確率達98%
支持多設備終端
支持WebSocket API方式、Android、iOS、Linux SDK方式調用,可以適用于多種操作系統、多設備終端均可使用

 

服務穩定高效
企業級穩定服務保障,專有集群承載大流量并發,高效靈活,服務穩定
模型自助優化
中文普通話模型可在語音自訓練平臺上零代碼自助訓練,上傳文本語料即可有效提升業務詞匯的識別準確率5-25%

 

在哪些場景會用到百度智能云的實時語音識別?

1.演講字幕同屏
大會演講可以在屏幕上實時展示嘉賓演講字幕,逐字展示并智能糾錯
 
 
2.視頻直播字幕
直播新玩法,主播說話可以直接將說話內容實時轉寫為字幕展示在屏幕上,或者可進行二次字幕編輯
 
3.視頻直播字幕
直播新玩法,主播說話可以直接將說話內容實時轉寫為字幕展示在屏幕上,或者可進行二次字幕編輯
 
 
<
產品價格
>

<
使用指南
>

三步完成賬號的基本注冊與認證:

1:點擊進入控制臺,選擇需要使用的AI服務項。若為未登錄狀態,將跳轉至登錄界面,請您使用百度賬號登錄。如還未持有百度賬戶,可以點擊此處注冊百度賬號

2:首次使用,登錄后將會進入開發者認證頁面,請填寫相關信息完成開發者認證。注:(如您之前已經是百度云用戶或百度開發者中心用戶,此步可略過。)

3:通過控制臺左側導航,選擇語音技術,進入語音技術的控制面板,進行相關操作。

1.領取免費額度

新用戶使用語音技術可以在控制臺領取相應接口的免費測試額度進行接口調用,免費額度有效期自領取成功之日開始計算,有效期截止后,免費調用額度清零。詳情可點擊此處查看 語音識別免費額度 | 語音合成免費額度 | 呼叫中心語音免費額度

微信截圖_20221130182012.png

2.創建應用

您需要創建應用才可正式調用語音技術能力,應用是您調用服務的基本操作單元,您可以基于應用創建成功后獲取的API Key及Secret Key,進行接口調用操作,及相關配置。您可按照下圖所示的操作流程,完成創建操作。

微信截圖_20221130182124.png

微信截圖_20221130182151.png

應用名稱: 用于標識您所創建的應用的名稱,支持中英文、數字、下劃線及中橫線,此名稱一經創建完畢,不可修改。

接口選擇: 每個應用可以勾選業務所需的所有AI服務的接口權限(僅可勾選具備免費試用權限的接口能力),語音技術下全部接口已默認勾選,創建應用完畢,此應用即具備了所勾選服務的調用權限。

語音包名:如果您需要使用語音技術SDK服務(iOS/Android),需要綁定包名信息,以便生成授權License。

應用歸屬:可選擇個人使用或公司使用服務,若為公司使用,可與專屬商務經理溝通,獲取專業的售前支持。

應用描述: 對此應用的業務場景進行描述。

 

3.獲取密鑰

在您創建完畢應用后,平臺將會分配給您此應用的相關憑證,主要為AppID、API Key、Secret Key。以上三個信息是您應用實際開發的主要憑證,請您妥善保管。下圖為示例內容:

image.png

 

4.生成簽名

您需要使用創建應用所分配到的AppID、API Key及Secret Key,進行Access Token(用戶身份驗證和授權的憑證)的生成,方法詳見 Access Token獲取,我們為您準備了幾種常見語言的請求示例代碼。

溫馨提示:Access Token的有效期為30天(以秒為單位),請您集成時注意在程序中定期請求新的token。

 

5.啟動開發

目前語音技術主要有兩種方式使用:API與SDK,您可以選擇各產品的文檔,查看具體使用方法及參數。詳情可點擊此處查看 語音識別導覽 | 語音合成導覽 | 呼叫中心語音導覽

<
產品問答
>
?
語音識別結果與音頻內容不匹配?
語音識別返回結果與音頻內容不匹配,例如:“嗨嗨嗨”、“嗯嗯嗯嗯嗯”、“什么”等錯誤返回。 解決方法:排查音頻采樣率、聲道、格式等參數是否符合接口規范。如與要求不符,需要用工具對音頻進行轉碼,轉碼工具跳轉。
?
3300錯誤碼怎么辦?
語音識別api使用的是HTTP POST方法, BODY里直接放置json, Content-Type頭部為 application/json。 并非常見的瀏覽器表單請求(application/x-www-form-urlencoded或者multipart/x-www-form-urlencoded)。 必填字段:format rate channel cuid token cuid token cuid token cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一組。 必填字段如format rate channel cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一種,并確認音頻時長截取為60s以下。語音識別api使用的是HTTP POST方法, BODY里直接放置json, Content-Type頭部為 application/json。 并非常見的瀏覽器表單請求(application/x-www-form-urlencoded或者multipart/x-www-form-urlencoded)。 必填字段:format rate channel cuid token cuid token cuid token cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一組。 必填字段如format rate channel cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一種,并確認音頻時長截取為60s以下。
?
行業與場景限制
根據工信部《綜合整治騷擾電話專項行動方案》、《關于推進綜合整治騷擾電話專項行動的工作方案》,相關能力不得用于商業營銷類、惡意騷擾類和違法犯罪類騷擾電話類場景,也不支持在貸款、理財、信用卡、股票、基金、債券、保險、售房租房、醫療機構、保健食品、人力資源服務、旅游等場景的騷擾電話營銷行為。
?
商務合作的流程是怎樣的?
請在Speech官網底部點擊“商務合作”,詳細描述您的需求。或者在百度云提交工單申請合作。請在Speech官網底部點擊“商務合作”,詳細描述您的需求。或者在百度云提交工單申請合作。
?
離線可以支持識別任意詞識別(聽寫識別)嗎?
我們推薦使用在線識別,離線識別僅支持命令詞識別。如果您有強烈、明確的離線任意詞識別的場景,請詳細描述您的需求,在官網底部點擊“商務合作”,我們會有專人聯系。
?
覺得識別不準確怎么辦?
請對類似的語音做多次嘗試,并整理錄音文件、識別的日志(帶sn)、期望的識別結果以及實際的識別結果文件,在QQ群或通過百度云工單提交給我們。請對類似的語音做多次嘗試,并整理錄音文件、識別的日志(帶sn)、期望的識別結果以及實際的識別結果文件,在QQ群或通過百度云工單提交給我們。
<
關于我們
>
北京百度網訊科技有限公司是一家領先的人工智能平臺型公司,提供全面的云服務和解決方案。公司依托強大的云計算能力,結合百度大腦和大數據技術,為企業和開發者提供包括云服務器、對象存儲、內容分發網絡、人工智能、企業服務等在內的多樣化產品和服務。通過智能化解決方案,百度智能云助力各行業實現數字化轉型和智能化升級,推動產業創新和社會進步。
聯系信息
服務時間: 7 * 24
電話號碼: +86 10 5992 8888
網頁在線客服: 咨詢

 

安全合規可信的云服務

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

<
使用指南
>

三步完成賬號的基本注冊與認證:

1:點擊進入控制臺,選擇需要使用的AI服務項。若為未登錄狀態,將跳轉至登錄界面,請您使用百度賬號登錄。如還未持有百度賬戶,可以點擊此處注冊百度賬號

2:首次使用,登錄后將會進入開發者認證頁面,請填寫相關信息完成開發者認證。注:(如您之前已經是百度云用戶或百度開發者中心用戶,此步可略過。)

3:通過控制臺左側導航,選擇語音技術,進入語音技術的控制面板,進行相關操作。

1.領取免費額度

新用戶使用語音技術可以在控制臺領取相應接口的免費測試額度進行接口調用,免費額度有效期自領取成功之日開始計算,有效期截止后,免費調用額度清零。詳情可點擊此處查看 語音識別免費額度 | 語音合成免費額度 | 呼叫中心語音免費額度

微信截圖_20221130182012.png

2.創建應用

您需要創建應用才可正式調用語音技術能力,應用是您調用服務的基本操作單元,您可以基于應用創建成功后獲取的API Key及Secret Key,進行接口調用操作,及相關配置。您可按照下圖所示的操作流程,完成創建操作。

微信截圖_20221130182124.png

微信截圖_20221130182151.png

應用名稱: 用于標識您所創建的應用的名稱,支持中英文、數字、下劃線及中橫線,此名稱一經創建完畢,不可修改。

接口選擇: 每個應用可以勾選業務所需的所有AI服務的接口權限(僅可勾選具備免費試用權限的接口能力),語音技術下全部接口已默認勾選,創建應用完畢,此應用即具備了所勾選服務的調用權限。

語音包名:如果您需要使用語音技術SDK服務(iOS/Android),需要綁定包名信息,以便生成授權License。

應用歸屬:可選擇個人使用或公司使用服務,若為公司使用,可與專屬商務經理溝通,獲取專業的售前支持。

應用描述: 對此應用的業務場景進行描述。

 

3.獲取密鑰

在您創建完畢應用后,平臺將會分配給您此應用的相關憑證,主要為AppID、API Key、Secret Key。以上三個信息是您應用實際開發的主要憑證,請您妥善保管。下圖為示例內容:

image.png

 

4.生成簽名

您需要使用創建應用所分配到的AppID、API Key及Secret Key,進行Access Token(用戶身份驗證和授權的憑證)的生成,方法詳見 Access Token獲取,我們為您準備了幾種常見語言的請求示例代碼。

溫馨提示:Access Token的有效期為30天(以秒為單位),請您集成時注意在程序中定期請求新的token。

 

5.啟動開發

目前語音技術主要有兩種方式使用:API與SDK,您可以選擇各產品的文檔,查看具體使用方法及參數。詳情可點擊此處查看 語音識別導覽 | 語音合成導覽 | 呼叫中心語音導覽

<
依賴服務
>
<
產品問答
>
?
語音識別結果與音頻內容不匹配?
語音識別返回結果與音頻內容不匹配,例如:“嗨嗨嗨”、“嗯嗯嗯嗯嗯”、“什么”等錯誤返回。 解決方法:排查音頻采樣率、聲道、格式等參數是否符合接口規范。如與要求不符,需要用工具對音頻進行轉碼,轉碼工具跳轉。
?
3300錯誤碼怎么辦?
語音識別api使用的是HTTP POST方法, BODY里直接放置json, Content-Type頭部為 application/json。 并非常見的瀏覽器表單請求(application/x-www-form-urlencoded或者multipart/x-www-form-urlencoded)。 必填字段:format rate channel cuid token cuid token cuid token cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一組。 必填字段如format rate channel cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一種,并確認音頻時長截取為60s以下。語音識別api使用的是HTTP POST方法, BODY里直接放置json, Content-Type頭部為 application/json。 并非常見的瀏覽器表單請求(application/x-www-form-urlencoded或者multipart/x-www-form-urlencoded)。 必填字段:format rate channel cuid token cuid token cuid token cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一組。 必填字段如format rate channel cuid token,請勿漏填。此外 (speech, len) 及 (url, callback) 這兩組參數必須二選一,如果都填,默認處理第一種,并確認音頻時長截取為60s以下。
?
行業與場景限制
根據工信部《綜合整治騷擾電話專項行動方案》、《關于推進綜合整治騷擾電話專項行動的工作方案》,相關能力不得用于商業營銷類、惡意騷擾類和違法犯罪類騷擾電話類場景,也不支持在貸款、理財、信用卡、股票、基金、債券、保險、售房租房、醫療機構、保健食品、人力資源服務、旅游等場景的騷擾電話營銷行為。
?
商務合作的流程是怎樣的?
請在Speech官網底部點擊“商務合作”,詳細描述您的需求。或者在百度云提交工單申請合作。請在Speech官網底部點擊“商務合作”,詳細描述您的需求。或者在百度云提交工單申請合作。
?
離線可以支持識別任意詞識別(聽寫識別)嗎?
我們推薦使用在線識別,離線識別僅支持命令詞識別。如果您有強烈、明確的離線任意詞識別的場景,請詳細描述您的需求,在官網底部點擊“商務合作”,我們會有專人聯系。
?
覺得識別不準確怎么辦?
請對類似的語音做多次嘗試,并整理錄音文件、識別的日志(帶sn)、期望的識別結果以及實際的識別結果文件,在QQ群或通過百度云工單提交給我們。請對類似的語音做多次嘗試,并整理錄音文件、識別的日志(帶sn)、期望的識別結果以及實際的識別結果文件,在QQ群或通過百度云工單提交給我們。
<
關于我們
>
北京百度網訊科技有限公司是一家領先的人工智能平臺型公司,提供全面的云服務和解決方案。公司依托強大的云計算能力,結合百度大腦和大數據技術,為企業和開發者提供包括云服務器、對象存儲、內容分發網絡、人工智能、企業服務等在內的多樣化產品和服務。通過智能化解決方案,百度智能云助力各行業實現數字化轉型和智能化升級,推動產業創新和社會進步。
聯系信息
服務時間: 7 * 24
電話號碼: +86 10 5992 8888
網頁在線客服: 咨詢

 

安全合規可信的云服務

<
合作案例
>

壽光蔬菜

 

泰康人壽

 

國家電網 國網新疆電力公司

 

常熟經濟技術開發區

 

火星人集成灶

 

寶鋼集團

 

BAOWU

 

源創電噴

 

恒逸

 

中國建材集團有限公司

 

國家電網湖南電力公司

 

 

重慶兩江新區 三一重工 徐州工業
<
最可能同場景使用的其他API
>