音視頻字幕-北京火山引擎

音視頻字幕-北京火山引擎

專用API
【更新時間: 2024.06.27】 基于語音識別技術,能夠自動將音/視頻中的語音、歌詞轉換為字幕文本,適用于輔助視頻字幕創作和外掛字幕自動生成。產品支持多個語種的識別、打軸,是完美適配視頻創作和視頻觀看場景的智能字幕解決方案。
瀏覽次數
202
采購人數
2
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是北京火山引擎的音視頻字幕?

基于語音識別技術,能夠自動將音/視頻中的語音、歌詞轉換為字幕文本,適用于輔助視頻字幕創作和外掛字幕自動生成。產品支持多個語種的識別、打軸,是完美適配視頻創作和視頻觀看場景的智能字幕解決方案。

什么是北京火山引擎的音視頻字幕接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用北京火山引擎的音視頻字幕 ,從而實現程序的自動化交互,提高服務效率。

北京火山引擎的音視頻字幕有哪些核心功能?

  1. 音視頻字幕生成:基于語音識別技術,能夠自動將音/視頻中的語音、歌詞轉換為字幕文本,并一鍵生成與音視頻對應的字幕內容展示。這個功能適用于視頻剪輯、視頻觀看、視頻會議等多個場景。

  2. 自動字幕打軸:支持視頻創作者同時上傳音視頻和對應的文本內容,無需識別轉文字,直接給字幕配時間軸,使其隨原聲滾動。這種功能特別適用于已有文本場景下的視頻創作,支持說話打軸和歌詞打軸兩種模式。

北京火山引擎的音視頻字幕的核心優勢是什么?

服務穩定

日均調用量超千萬,支持大流量并發,提供企業級穩定的服務保障。

1. 高準確率

音視頻字幕采用業內先進的語音識別技術,基于司內的視頻平臺(抖音、剪映、西瓜等),沉淀了海量的一手數據,在字幕領域不斷深耕優化,字準確率達業內領先水平。

2. 超低延時

超低延時的服務體驗,已接入業務的全天平均時延約1.39秒。

3. 語種豐富

支持中、英、日、韓、俄、法、西語等多國語言識別;支持粵語、吳語、閩南語、維語等多地區方言的識別。

4. 精準切分

中、英、西語支持分句級全自動判斷說話或唱歌,無需手動切換。

5. 接入迅捷

全鏈路的基礎字幕方案,適配絕大多數字幕場景的需求,無需復雜的集成邏輯,低成本開發,即接即用。

在哪些場景會用到北京火山引擎的音視頻字幕?

1. 音視頻字幕編輯

支持視頻創作者一鍵生成音/視頻語音字幕,并在此基礎上進行編輯,節省10倍以上字幕編輯時間。

2. 自動外掛字幕

自動提取視頻的原有字幕,支持通過接口接入外部機器翻譯實現內容互通,用戶可享受觀看外語視頻的樂趣。

3. 自動字幕打軸

針對已有對應文本的視頻剪輯場景,可以實現自動將文本分句,并與視頻時間線完美對齊。

<
產品價格
>

<
使用指南
>

視頻字幕功能整體處理流程分為三個階段:

  1. 客戶端抽取視頻中音軌,轉成音頻文件;
  2. 把音頻文件發送至后端集群,獲取任務 ID;
  3. 通過任務 ID 訪問后端接口獲取結果。

指南詳情鏈接:https://www.volcengine.com/docs/6561/80909

<
產品問答
>
?
如果人耳聽不清音頻,模型識別效果也不符合預期,該如何優化?
建議錄音時,靠近錄音設備,控制錄音環境的噪音,避免多人同時說話;可以降低語速,避免吞音和變形;盡量避免兒童不清晰的說話聲,以及模型不支持的語種和方言。
?
如果識別字準符合預期,但后處理效果不符合,該如何優化?
后處理問題分為以下幾類: 分句過長、過碎 建議您通過調整參數words_per_line(每行最長字符)來控制每個分句的最大長度。 "words_per_line" 會受到語言影響,中文默認值是16個字,英文是60個字母。值越小,分句越短;值越大,分句越長。 有的分句會在句中斷開 分句會綜合考慮音頻的停頓、文本的語義以及說話人轉換等信息,同時也受限于每句最長字數的限制,因此存在句中斷開的情況。 開啟ITN后,有些中文未轉成阿拉伯數字 一般情況下,會根據書面文本中常用的形態進行轉換,并不是所有數字都需要轉成阿拉伯數字。如果仍出現“應轉未轉”的問題,您可以通過創建工單,選擇 [語音技術] - [語音技術相關產品反饋],將問題和對應音頻反饋給我們優化。
?
支持的語種和方言有哪些?
支持中文普通話、英語、粵語方言。如果有其他語種或方言需求,您可以通過創建工單,選擇 [語音技術] - [語音技術相關產品反饋],與我們聯系。
?
中文模型能識別少量英文單詞或字母嗎?
可以,支持識別中英文混合的音頻。
?
音視頻字幕服務支持哪些采樣率?
支持16000 Hz的采樣率。其他格式文件會被轉換至16000 Hz,再進行語音識別。需注意,使用其他采樣率或格式,可能會出現轉換問題。
?
字幕時間提前結束了怎么辦?
建議您通過調整參數adjust_endtime(每句的尾字延遲參數)來控制字幕展示的時長。 "adjust_endtime" 的取值范圍是0~500ms,語音字幕默認值是 300ms, 歌詞字幕 500ms。值越小,字幕持續時間越短;值越大,字幕持續時間越長。
<
關于我們
>
北京火山引擎科技有限公司是一家提供云計算服務的高科技企業,致力于通過穩定、安全、高性能的云服務助力企業數字化轉型。公司旗下擁有包括云服務器、GPU云服務器、機器學習平臺、內容分發網絡等在內的豐富產品線,同時提供企業級AI應用開發平臺、客戶數據平臺、增長分析等解決方案,服務于汽車、金融、文娛、大消費、醫療健康、傳媒等多個行業,推動全行業的云上增長。
聯系信息
服務時間: 10:00-19:00(工作日)
電話號碼: 400-850-0030轉1
郵箱: service@volcengine.com
火山引擎是什么
 
火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和應用工具開放給外部企業,幫助企業構建體驗創新、數據驅動和敏捷迭代等數字化能力,實現業務可持續增長。

 

 
全方位產品矩陣
 
提供云基礎到智能應用的全鏈路支撐
 

計算

存儲

數據庫 容器與中間件
人工智能與機器學習 網絡 CDN與邊緣 大數據
視頻云 安全 企業服務與云通信 查看全部產品
 
豐富的解決方案
助你積極應對各類業務難題
 

企業上云
基于多云開放的高可用架構,火山引擎幫助企業業務快速云上部署,保障業務運行穩定,不斷追求極致性能,使企業云上每一次計算及存儲都能獲得最優配置。

 

音視頻
基于字節跳動音視頻場景下的產品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業務創新敏捷落地。

 

智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業務視角出發,持續串聯內容生產、內容管理、公私域運營等環節,提供覆蓋營銷全鏈路的完整解決方案。

 

汽車行業
基于抖音集團在智能與數據領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構建精細化用戶運營和業務增長能力。

 

金融行業
基于字節跳動的技術積累,火山引擎為金融機構提供從底層技術架構到技術中臺,再到各類智能應用的全方位技術支持,構建數字敏捷,激發金融活力。

 

文娛行業
基于抖音集團穩定的基礎產品能力、數據驅動的營銷增長套件、AI加持的智能互動產品與多媒體技術,火山引擎為企業構建穩定業務、擴大用戶觸點、驅動交互創新、實現業務增長。

 

醫療
基于對生物醫學行業的關注,火山引擎與行業深度結合,通過BT+IT技術推動行業加速,為客戶提供多場景的解決方案,支持客戶業務創新、敏捷落地。

 

政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數據、人工智能、物聯網等技術能力,全面助力城市實現數字化轉型,在城市治理、文旅營銷等場景中全面實現效率提升。

 

通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內容引入、生產、運營、分發、消費的端到端服務能力,打造完善的媒體數智化運營體系。

 

大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數據、算法、AI、內容等能力,實現從投放到交易的數據化閉環,幫助企業數字化運營效率提升。

 

優質的服務,全方位的支持
火山引擎堅定進入云市場
我們將始終堅持三個關鍵的理念

定制化服務方案
火山引擎能夠提供專業的解決方案咨詢服務,架構師1V1量身定制契合業務需求的高性價比服務方案

全方位業務響應
提供7x24小時全天候人工客服,多渠道覆蓋支持客戶各種類型的業務訴求,飛書值班號提供快捷、全面的響應支持

專業化技術支持
甄選100%通過火山引擎技術考核的服務工程師,做到技術有支持,服務有溫度,問題有響應,落地有閉環

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

<
使用指南
>

視頻字幕功能整體處理流程分為三個階段:

  1. 客戶端抽取視頻中音軌,轉成音頻文件;
  2. 把音頻文件發送至后端集群,獲取任務 ID;
  3. 通過任務 ID 訪問后端接口獲取結果。

指南詳情鏈接:https://www.volcengine.com/docs/6561/80909

<
依賴服務
>
<
產品問答
>
?
如果人耳聽不清音頻,模型識別效果也不符合預期,該如何優化?
建議錄音時,靠近錄音設備,控制錄音環境的噪音,避免多人同時說話;可以降低語速,避免吞音和變形;盡量避免兒童不清晰的說話聲,以及模型不支持的語種和方言。
?
如果識別字準符合預期,但后處理效果不符合,該如何優化?
后處理問題分為以下幾類: 分句過長、過碎 建議您通過調整參數words_per_line(每行最長字符)來控制每個分句的最大長度。 "words_per_line" 會受到語言影響,中文默認值是16個字,英文是60個字母。值越小,分句越短;值越大,分句越長。 有的分句會在句中斷開 分句會綜合考慮音頻的停頓、文本的語義以及說話人轉換等信息,同時也受限于每句最長字數的限制,因此存在句中斷開的情況。 開啟ITN后,有些中文未轉成阿拉伯數字 一般情況下,會根據書面文本中常用的形態進行轉換,并不是所有數字都需要轉成阿拉伯數字。如果仍出現“應轉未轉”的問題,您可以通過創建工單,選擇 [語音技術] - [語音技術相關產品反饋],將問題和對應音頻反饋給我們優化。
?
支持的語種和方言有哪些?
支持中文普通話、英語、粵語方言。如果有其他語種或方言需求,您可以通過創建工單,選擇 [語音技術] - [語音技術相關產品反饋],與我們聯系。
?
中文模型能識別少量英文單詞或字母嗎?
可以,支持識別中英文混合的音頻。
?
音視頻字幕服務支持哪些采樣率?
支持16000 Hz的采樣率。其他格式文件會被轉換至16000 Hz,再進行語音識別。需注意,使用其他采樣率或格式,可能會出現轉換問題。
?
字幕時間提前結束了怎么辦?
建議您通過調整參數adjust_endtime(每句的尾字延遲參數)來控制字幕展示的時長。 "adjust_endtime" 的取值范圍是0~500ms,語音字幕默認值是 300ms, 歌詞字幕 500ms。值越小,字幕持續時間越短;值越大,字幕持續時間越長。
<
關于我們
>
北京火山引擎科技有限公司是一家提供云計算服務的高科技企業,致力于通過穩定、安全、高性能的云服務助力企業數字化轉型。公司旗下擁有包括云服務器、GPU云服務器、機器學習平臺、內容分發網絡等在內的豐富產品線,同時提供企業級AI應用開發平臺、客戶數據平臺、增長分析等解決方案,服務于汽車、金融、文娛、大消費、醫療健康、傳媒等多個行業,推動全行業的云上增長。
聯系信息
服務時間: 10:00-19:00(工作日)
電話號碼: 400-850-0030轉1
郵箱: service@volcengine.com
火山引擎是什么
 
火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和應用工具開放給外部企業,幫助企業構建體驗創新、數據驅動和敏捷迭代等數字化能力,實現業務可持續增長。

 

 
全方位產品矩陣
 
提供云基礎到智能應用的全鏈路支撐
 

計算

存儲

數據庫 容器與中間件
人工智能與機器學習 網絡 CDN與邊緣 大數據
視頻云 安全 企業服務與云通信 查看全部產品
 
豐富的解決方案
助你積極應對各類業務難題
 

企業上云
基于多云開放的高可用架構,火山引擎幫助企業業務快速云上部署,保障業務運行穩定,不斷追求極致性能,使企業云上每一次計算及存儲都能獲得最優配置。

 

音視頻
基于字節跳動音視頻場景下的產品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業務創新敏捷落地。

 

智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業務視角出發,持續串聯內容生產、內容管理、公私域運營等環節,提供覆蓋營銷全鏈路的完整解決方案。

 

汽車行業
基于抖音集團在智能與數據領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構建精細化用戶運營和業務增長能力。

 

金融行業
基于字節跳動的技術積累,火山引擎為金融機構提供從底層技術架構到技術中臺,再到各類智能應用的全方位技術支持,構建數字敏捷,激發金融活力。

 

文娛行業
基于抖音集團穩定的基礎產品能力、數據驅動的營銷增長套件、AI加持的智能互動產品與多媒體技術,火山引擎為企業構建穩定業務、擴大用戶觸點、驅動交互創新、實現業務增長。

 

醫療
基于對生物醫學行業的關注,火山引擎與行業深度結合,通過BT+IT技術推動行業加速,為客戶提供多場景的解決方案,支持客戶業務創新、敏捷落地。

 

政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數據、人工智能、物聯網等技術能力,全面助力城市實現數字化轉型,在城市治理、文旅營銷等場景中全面實現效率提升。

 

通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內容引入、生產、運營、分發、消費的端到端服務能力,打造完善的媒體數智化運營體系。

 

大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數據、算法、AI、內容等能力,實現從投放到交易的數據化閉環,幫助企業數字化運營效率提升。

 

優質的服務,全方位的支持
火山引擎堅定進入云市場
我們將始終堅持三個關鍵的理念

定制化服務方案
火山引擎能夠提供專業的解決方案咨詢服務,架構師1V1量身定制契合業務需求的高性價比服務方案

全方位業務響應
提供7x24小時全天候人工客服,多渠道覆蓋支持客戶各種類型的業務訴求,飛書值班號提供快捷、全面的響應支持

專業化技術支持
甄選100%通過火山引擎技術考核的服務工程師,做到技術有支持,服務有溫度,問題有響應,落地有閉環

<
最可能同場景使用的其他API
>