音視頻字幕-北京火山引擎

音視頻字幕-北京火山引擎

專用API
【更新時間: 2024.06.27】 基于語音識別技術(shù),能夠自動將音/視頻中的語音、歌詞轉(zhuǎn)換為字幕文本,適用于輔助視頻字幕創(chuàng)作和外掛字幕自動生成。產(chǎn)品支持多個語種的識別、打軸,是完美適配視頻創(chuàng)作和視頻觀看場景的智能字幕解決方案。
瀏覽次數(shù)
160
采購人數(shù)
1
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個人&企業(yè)
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是北京火山引擎的音視頻字幕?

基于語音識別技術(shù),能夠自動將音/視頻中的語音、歌詞轉(zhuǎn)換為字幕文本,適用于輔助視頻字幕創(chuàng)作和外掛字幕自動生成。產(chǎn)品支持多個語種的識別、打軸,是完美適配視頻創(chuàng)作和視頻觀看場景的智能字幕解決方案。

什么是北京火山引擎的音視頻字幕接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用北京火山引擎的音視頻字幕,從而實現(xiàn)程序的自動化交互,提高服務(wù)效率。

北京火山引擎的音視頻字幕有哪些核心功能?

  1. 音視頻字幕生成:基于語音識別技術(shù),能夠自動將音/視頻中的語音、歌詞轉(zhuǎn)換為字幕文本,并一鍵生成與音視頻對應(yīng)的字幕內(nèi)容展示。這個功能適用于視頻剪輯、視頻觀看、視頻會議等多個場景。

  2. 自動字幕打軸:支持視頻創(chuàng)作者同時上傳音視頻和對應(yīng)的文本內(nèi)容,無需識別轉(zhuǎn)文字,直接給字幕配時間軸,使其隨原聲滾動。這種功能特別適用于已有文本場景下的視頻創(chuàng)作,支持說話打軸和歌詞打軸兩種模式。

北京火山引擎的音視頻字幕的核心優(yōu)勢是什么?

服務(wù)穩(wěn)定

日均調(diào)用量超千萬,支持大流量并發(fā),提供企業(yè)級穩(wěn)定的服務(wù)保障。

1. 高準確率

音視頻字幕采用業(yè)內(nèi)先進的語音識別技術(shù),基于司內(nèi)的視頻平臺(抖音、剪映、西瓜等),沉淀了海量的一手數(shù)據(jù),在字幕領(lǐng)域不斷深耕優(yōu)化,字準確率達業(yè)內(nèi)領(lǐng)先水平。

2. 超低延時

超低延時的服務(wù)體驗,已接入業(yè)務(wù)的全天平均時延約1.39秒。

3. 語種豐富

支持中、英、日、韓、俄、法、西語等多國語言識別;支持粵語、吳語、閩南語、維語等多地區(qū)方言的識別。

4. 精準切分

中、英、西語支持分句級全自動判斷說話或唱歌,無需手動切換。

5. 接入迅捷

全鏈路的基礎(chǔ)字幕方案,適配絕大多數(shù)字幕場景的需求,無需復(fù)雜的集成邏輯,低成本開發(fā),即接即用。

在哪些場景會用到北京火山引擎的音視頻字幕?

1. 音視頻字幕編輯

支持視頻創(chuàng)作者一鍵生成音/視頻語音字幕,并在此基礎(chǔ)上進行編輯,節(jié)省10倍以上字幕編輯時間。

2. 自動外掛字幕

自動提取視頻的原有字幕,支持通過接口接入外部機器翻譯實現(xiàn)內(nèi)容互通,用戶可享受觀看外語視頻的樂趣。

3. 自動字幕打軸

針對已有對應(yīng)文本的視頻剪輯場景,可以實現(xiàn)自動將文本分句,并與視頻時間線完美對齊。

<
產(chǎn)品價格
>

<
使用指南
>

視頻字幕功能整體處理流程分為三個階段:

  1. 客戶端抽取視頻中音軌,轉(zhuǎn)成音頻文件;
  2. 把音頻文件發(fā)送至后端集群,獲取任務(wù) ID;
  3. 通過任務(wù) ID 訪問后端接口獲取結(jié)果。

指南詳情鏈接:https://www.volcengine.com/docs/6561/80909

<
產(chǎn)品問答
>
?
如果人耳聽不清音頻,模型識別效果也不符合預(yù)期,該如何優(yōu)化?
建議錄音時,靠近錄音設(shè)備,控制錄音環(huán)境的噪音,避免多人同時說話;可以降低語速,避免吞音和變形;盡量避免兒童不清晰的說話聲,以及模型不支持的語種和方言。
?
如果識別字準符合預(yù)期,但后處理效果不符合,該如何優(yōu)化?
后處理問題分為以下幾類: 分句過長、過碎 建議您通過調(diào)整參數(shù)words_per_line(每行最長字符)來控制每個分句的最大長度。 "words_per_line" 會受到語言影響,中文默認值是16個字,英文是60個字母。值越小,分句越短;值越大,分句越長。 有的分句會在句中斷開 分句會綜合考慮音頻的停頓、文本的語義以及說話人轉(zhuǎn)換等信息,同時也受限于每句最長字數(shù)的限制,因此存在句中斷開的情況。 開啟ITN后,有些中文未轉(zhuǎn)成阿拉伯數(shù)字 一般情況下,會根據(jù)書面文本中常用的形態(tài)進行轉(zhuǎn)換,并不是所有數(shù)字都需要轉(zhuǎn)成阿拉伯數(shù)字。如果仍出現(xiàn)“應(yīng)轉(zhuǎn)未轉(zhuǎn)”的問題,您可以通過創(chuàng)建工單,選擇 [語音技術(shù)] - [語音技術(shù)相關(guān)產(chǎn)品反饋],將問題和對應(yīng)音頻反饋給我們優(yōu)化。
?
支持的語種和方言有哪些?
支持中文普通話、英語、粵語方言。如果有其他語種或方言需求,您可以通過創(chuàng)建工單,選擇 [語音技術(shù)] - [語音技術(shù)相關(guān)產(chǎn)品反饋],與我們聯(lián)系。
?
中文模型能識別少量英文單詞或字母嗎?
可以,支持識別中英文混合的音頻。
?
音視頻字幕服務(wù)支持哪些采樣率?
支持16000 Hz的采樣率。其他格式文件會被轉(zhuǎn)換至16000 Hz,再進行語音識別。需注意,使用其他采樣率或格式,可能會出現(xiàn)轉(zhuǎn)換問題。
?
字幕時間提前結(jié)束了怎么辦?
建議您通過調(diào)整參數(shù)adjust_endtime(每句的尾字延遲參數(shù))來控制字幕展示的時長。 "adjust_endtime" 的取值范圍是0~500ms,語音字幕默認值是 300ms, 歌詞字幕 500ms。值越小,字幕持續(xù)時間越短;值越大,字幕持續(xù)時間越長。
<
關(guān)于我們
>
北京火山引擎科技有限公司是一家提供云計算服務(wù)的高科技企業(yè),致力于通過穩(wěn)定、安全、高性能的云服務(wù)助力企業(yè)數(shù)字化轉(zhuǎn)型。公司旗下?lián)碛邪ㄔ品?wù)器、GPU云服務(wù)器、機器學(xué)習(xí)平臺、內(nèi)容分發(fā)網(wǎng)絡(luò)等在內(nèi)的豐富產(chǎn)品線,同時提供企業(yè)級AI應(yīng)用開發(fā)平臺、客戶數(shù)據(jù)平臺、增長分析等解決方案,服務(wù)于汽車、金融、文娛、大消費、醫(yī)療健康、傳媒等多個行業(yè),推動全行業(yè)的云上增長。
聯(lián)系信息
服務(wù)時間: 10:00-19:00(工作日)
電話號碼: 400-850-0030轉(zhuǎn)1
郵箱: service@volcengine.com
火山引擎是什么
 
火山引擎是字節(jié)跳動旗下的云服務(wù)平臺,將字節(jié)跳動快速發(fā)展過程中積累的增長方法、技術(shù)能力和應(yīng)用工具開放給外部企業(yè),幫助企業(yè)構(gòu)建體驗創(chuàng)新、數(shù)據(jù)驅(qū)動和敏捷迭代等數(shù)字化能力,實現(xiàn)業(yè)務(wù)可持續(xù)增長。

 

 
全方位產(chǎn)品矩陣
 
提供云基礎(chǔ)到智能應(yīng)用的全鏈路支撐
 

計算

存儲

數(shù)據(jù)庫 容器與中間件
人工智能與機器學(xué)習(xí) 網(wǎng)絡(luò) CDN與邊緣 大數(shù)據(jù)
視頻云 安全 企業(yè)服務(wù)與云通信 查看全部產(chǎn)品
 
豐富的解決方案
助你積極應(yīng)對各類業(yè)務(wù)難題
 

企業(yè)上云
基于多云開放的高可用架構(gòu),火山引擎幫助企業(yè)業(yè)務(wù)快速云上部署,保障業(yè)務(wù)運行穩(wěn)定,不斷追求極致性能,使企業(yè)云上每一次計算及存儲都能獲得最優(yōu)配置。

 

音視頻
基于字節(jié)跳動音視頻場景下的產(chǎn)品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業(yè)務(wù)創(chuàng)新敏捷落地。

 

智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業(yè)務(wù)視角出發(fā),持續(xù)串聯(lián)內(nèi)容生產(chǎn)、內(nèi)容管理、公私域運營等環(huán)節(jié),提供覆蓋營銷全鏈路的完整解決方案。

 

汽車行業(yè)
基于抖音集團在智能與數(shù)據(jù)領(lǐng)域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構(gòu)建精細化用戶運營和業(yè)務(wù)增長能力。

 

金融行業(yè)
基于字節(jié)跳動的技術(shù)積累,火山引擎為金融機構(gòu)提供從底層技術(shù)架構(gòu)到技術(shù)中臺,再到各類智能應(yīng)用的全方位技術(shù)支持,構(gòu)建數(shù)字敏捷,激發(fā)金融活力。

 

文娛行業(yè)
基于抖音集團穩(wěn)定的基礎(chǔ)產(chǎn)品能力、數(shù)據(jù)驅(qū)動的營銷增長套件、AI加持的智能互動產(chǎn)品與多媒體技術(shù),火山引擎為企業(yè)構(gòu)建穩(wěn)定業(yè)務(wù)、擴大用戶觸點、驅(qū)動交互創(chuàng)新、實現(xiàn)業(yè)務(wù)增長。

 

醫(yī)療
基于對生物醫(yī)學(xué)行業(yè)的關(guān)注,火山引擎與行業(yè)深度結(jié)合,通過BT+IT技術(shù)推動行業(yè)加速,為客戶提供多場景的解決方案,支持客戶業(yè)務(wù)創(chuàng)新、敏捷落地。

 

政府文旅
基于抖音集團的技術(shù)底座,火山引擎整合云基礎(chǔ)、數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)能力,全面助力城市實現(xiàn)數(shù)字化轉(zhuǎn)型,在城市治理、文旅營銷等場景中全面實現(xiàn)效率提升。

 

通信傳媒
基于抖音集團在泛資訊、短視頻等領(lǐng)域的前沿能力,火山引擎提供了覆蓋內(nèi)容引入、生產(chǎn)、運營、分發(fā)、消費的端到端服務(wù)能力,打造完善的媒體數(shù)智化運營體系。

 

大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關(guān)系,整合云基礎(chǔ)、數(shù)據(jù)、算法、AI、內(nèi)容等能力,實現(xiàn)從投放到交易的數(shù)據(jù)化閉環(huán),幫助企業(yè)數(shù)字化運營效率提升。

 

優(yōu)質(zhì)的服務(wù),全方位的支持
火山引擎堅定進入云市場
我們將始終堅持三個關(guān)鍵的理念

定制化服務(wù)方案
火山引擎能夠提供專業(yè)的解決方案咨詢服務(wù),架構(gòu)師1V1量身定制契合業(yè)務(wù)需求的高性價比服務(wù)方案

全方位業(yè)務(wù)響應(yīng)
提供7x24小時全天候人工客服,多渠道覆蓋支持客戶各種類型的業(yè)務(wù)訴求,飛書值班號提供快捷、全面的響應(yīng)支持

專業(yè)化技術(shù)支持
甄選100%通過火山引擎技術(shù)考核的服務(wù)工程師,做到技術(shù)有支持,服務(wù)有溫度,問題有響應(yīng),落地有閉環(huán)

<
最可能同場景使用的其他API
>
API接口列表
<
產(chǎn)品價格
>

<
使用指南
>

視頻字幕功能整體處理流程分為三個階段:

  1. 客戶端抽取視頻中音軌,轉(zhuǎn)成音頻文件;
  2. 把音頻文件發(fā)送至后端集群,獲取任務(wù) ID;
  3. 通過任務(wù) ID 訪問后端接口獲取結(jié)果。

指南詳情鏈接:https://www.volcengine.com/docs/6561/80909

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
如果人耳聽不清音頻,模型識別效果也不符合預(yù)期,該如何優(yōu)化?
建議錄音時,靠近錄音設(shè)備,控制錄音環(huán)境的噪音,避免多人同時說話;可以降低語速,避免吞音和變形;盡量避免兒童不清晰的說話聲,以及模型不支持的語種和方言。
?
如果識別字準符合預(yù)期,但后處理效果不符合,該如何優(yōu)化?
后處理問題分為以下幾類: 分句過長、過碎 建議您通過調(diào)整參數(shù)words_per_line(每行最長字符)來控制每個分句的最大長度。 "words_per_line" 會受到語言影響,中文默認值是16個字,英文是60個字母。值越小,分句越短;值越大,分句越長。 有的分句會在句中斷開 分句會綜合考慮音頻的停頓、文本的語義以及說話人轉(zhuǎn)換等信息,同時也受限于每句最長字數(shù)的限制,因此存在句中斷開的情況。 開啟ITN后,有些中文未轉(zhuǎn)成阿拉伯數(shù)字 一般情況下,會根據(jù)書面文本中常用的形態(tài)進行轉(zhuǎn)換,并不是所有數(shù)字都需要轉(zhuǎn)成阿拉伯數(shù)字。如果仍出現(xiàn)“應(yīng)轉(zhuǎn)未轉(zhuǎn)”的問題,您可以通過創(chuàng)建工單,選擇 [語音技術(shù)] - [語音技術(shù)相關(guān)產(chǎn)品反饋],將問題和對應(yīng)音頻反饋給我們優(yōu)化。
?
支持的語種和方言有哪些?
支持中文普通話、英語、粵語方言。如果有其他語種或方言需求,您可以通過創(chuàng)建工單,選擇 [語音技術(shù)] - [語音技術(shù)相關(guān)產(chǎn)品反饋],與我們聯(lián)系。
?
中文模型能識別少量英文單詞或字母嗎?
可以,支持識別中英文混合的音頻。
?
音視頻字幕服務(wù)支持哪些采樣率?
支持16000 Hz的采樣率。其他格式文件會被轉(zhuǎn)換至16000 Hz,再進行語音識別。需注意,使用其他采樣率或格式,可能會出現(xiàn)轉(zhuǎn)換問題。
?
字幕時間提前結(jié)束了怎么辦?
建議您通過調(diào)整參數(shù)adjust_endtime(每句的尾字延遲參數(shù))來控制字幕展示的時長。 "adjust_endtime" 的取值范圍是0~500ms,語音字幕默認值是 300ms, 歌詞字幕 500ms。值越小,字幕持續(xù)時間越短;值越大,字幕持續(xù)時間越長。
<
關(guān)于我們
>
北京火山引擎科技有限公司是一家提供云計算服務(wù)的高科技企業(yè),致力于通過穩(wěn)定、安全、高性能的云服務(wù)助力企業(yè)數(shù)字化轉(zhuǎn)型。公司旗下?lián)碛邪ㄔ品?wù)器、GPU云服務(wù)器、機器學(xué)習(xí)平臺、內(nèi)容分發(fā)網(wǎng)絡(luò)等在內(nèi)的豐富產(chǎn)品線,同時提供企業(yè)級AI應(yīng)用開發(fā)平臺、客戶數(shù)據(jù)平臺、增長分析等解決方案,服務(wù)于汽車、金融、文娛、大消費、醫(yī)療健康、傳媒等多個行業(yè),推動全行業(yè)的云上增長。
聯(lián)系信息
服務(wù)時間: 10:00-19:00(工作日)
電話號碼: 400-850-0030轉(zhuǎn)1
郵箱: service@volcengine.com
火山引擎是什么
 
火山引擎是字節(jié)跳動旗下的云服務(wù)平臺,將字節(jié)跳動快速發(fā)展過程中積累的增長方法、技術(shù)能力和應(yīng)用工具開放給外部企業(yè),幫助企業(yè)構(gòu)建體驗創(chuàng)新、數(shù)據(jù)驅(qū)動和敏捷迭代等數(shù)字化能力,實現(xiàn)業(yè)務(wù)可持續(xù)增長。

 

 
全方位產(chǎn)品矩陣
 
提供云基礎(chǔ)到智能應(yīng)用的全鏈路支撐
 

計算

存儲

數(shù)據(jù)庫 容器與中間件
人工智能與機器學(xué)習(xí) 網(wǎng)絡(luò) CDN與邊緣 大數(shù)據(jù)
視頻云 安全 企業(yè)服務(wù)與云通信 查看全部產(chǎn)品
 
豐富的解決方案
助你積極應(yīng)對各類業(yè)務(wù)難題
 

企業(yè)上云
基于多云開放的高可用架構(gòu),火山引擎幫助企業(yè)業(yè)務(wù)快速云上部署,保障業(yè)務(wù)運行穩(wěn)定,不斷追求極致性能,使企業(yè)云上每一次計算及存儲都能獲得最優(yōu)配置。

 

音視頻
基于字節(jié)跳動音視頻場景下的產(chǎn)品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業(yè)務(wù)創(chuàng)新敏捷落地。

 

智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業(yè)務(wù)視角出發(fā),持續(xù)串聯(lián)內(nèi)容生產(chǎn)、內(nèi)容管理、公私域運營等環(huán)節(jié),提供覆蓋營銷全鏈路的完整解決方案。

 

汽車行業(yè)
基于抖音集團在智能與數(shù)據(jù)領(lǐng)域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構(gòu)建精細化用戶運營和業(yè)務(wù)增長能力。

 

金融行業(yè)
基于字節(jié)跳動的技術(shù)積累,火山引擎為金融機構(gòu)提供從底層技術(shù)架構(gòu)到技術(shù)中臺,再到各類智能應(yīng)用的全方位技術(shù)支持,構(gòu)建數(shù)字敏捷,激發(fā)金融活力。

 

文娛行業(yè)
基于抖音集團穩(wěn)定的基礎(chǔ)產(chǎn)品能力、數(shù)據(jù)驅(qū)動的營銷增長套件、AI加持的智能互動產(chǎn)品與多媒體技術(shù),火山引擎為企業(yè)構(gòu)建穩(wěn)定業(yè)務(wù)、擴大用戶觸點、驅(qū)動交互創(chuàng)新、實現(xiàn)業(yè)務(wù)增長。

 

醫(yī)療
基于對生物醫(yī)學(xué)行業(yè)的關(guān)注,火山引擎與行業(yè)深度結(jié)合,通過BT+IT技術(shù)推動行業(yè)加速,為客戶提供多場景的解決方案,支持客戶業(yè)務(wù)創(chuàng)新、敏捷落地。

 

政府文旅
基于抖音集團的技術(shù)底座,火山引擎整合云基礎(chǔ)、數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)能力,全面助力城市實現(xiàn)數(shù)字化轉(zhuǎn)型,在城市治理、文旅營銷等場景中全面實現(xiàn)效率提升。

 

通信傳媒
基于抖音集團在泛資訊、短視頻等領(lǐng)域的前沿能力,火山引擎提供了覆蓋內(nèi)容引入、生產(chǎn)、運營、分發(fā)、消費的端到端服務(wù)能力,打造完善的媒體數(shù)智化運營體系。

 

大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關(guān)系,整合云基礎(chǔ)、數(shù)據(jù)、算法、AI、內(nèi)容等能力,實現(xiàn)從投放到交易的數(shù)據(jù)化閉環(huán),幫助企業(yè)數(shù)字化運營效率提升。

 

優(yōu)質(zhì)的服務(wù),全方位的支持
火山引擎堅定進入云市場
我們將始終堅持三個關(guān)鍵的理念

定制化服務(wù)方案
火山引擎能夠提供專業(yè)的解決方案咨詢服務(wù),架構(gòu)師1V1量身定制契合業(yè)務(wù)需求的高性價比服務(wù)方案

全方位業(yè)務(wù)響應(yīng)
提供7x24小時全天候人工客服,多渠道覆蓋支持客戶各種類型的業(yè)務(wù)訴求,飛書值班號提供快捷、全面的響應(yīng)支持

專業(yè)化技術(shù)支持
甄選100%通過火山引擎技術(shù)考核的服務(wù)工程師,做到技術(shù)有支持,服務(wù)有溫度,問題有響應(yīng),落地有閉環(huán)

<
最可能同場景使用的其他API
>