音頻技術-北京火山引擎

音頻技術-北京火山引擎

專用API
【更新時間: 2024.06.28】 音頻技術(SAMI)專注于語音合成、音頻處理、音樂理解與創作。我們的優勢在于音樂與音頻的多模態技術融合,自主研發的算法追求卓越性能。我們的目標是利用AI激發創作者的靈感,為用戶帶來創新的交互體驗,探索聲音的無限潛力。
瀏覽次數
96
采購人數
3
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是北京火山引擎的音頻技術?

音頻技術(Speech, Audio & Music Intelligence,簡稱SAMI),主要致力于語音合成、音頻理解與處理、音樂理解與編輯、音樂生成等技術的研究和應用。我們的優勢是基于音樂和音頻的多模態技術融合與創新,自研算法追求更優性能。我們的愿景是用AI賦能創作者,激發創作靈感,為用戶提供全新的交互體驗,發掘聲音的無限可能。

什么是北京火山引擎的音頻技術接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用北京火山引擎的音頻技術,從而實現程序的自動化交互,提高服務效率。

北京火山引擎的音頻技術有哪些核心功能?

1. 文本朗讀(TTS)

我們使用業界領先的語音合成(TTS)技術,將文本轉化為自然流暢、情感豐富、高度擬人化的語音,支持多語種、多方言,現已具備幾十種音色并支持個性化定制,滿足各類場景對文本朗讀的需求。

2. 節拍檢測(BeatTracking)

節拍檢測能夠自動分析獲取音樂的節拍點,發現音樂的更多信息,輔助音樂資源利用。
目前支持在線OpenAPI調用以及離線SDK調用。

3. 音樂轉譜(MIDI)

音樂轉譜將輸入的音頻進行分析,提取導出MIDI格式內容,包含音樂的音符、力度、時長等信息。

4. 音樂標簽(MusicTagging)

音樂標簽通過人聲、曲風、情緒、場景、語言、二級曲風等多個維度分析音樂,自動生成各維度下的標簽。

5. 音源分離(MusicSourceSeparate)

音源分離能夠自動分析歌曲中的人聲和伴奏,進行提取分離用于K歌、二次創作等多種玩法。

6. 音頻降噪與增強(AudioNoiseReductionAndEnhancement)

自研基于dsp算法和深度學習的回聲消除、噪聲抑制、聲音增強,兼顧強降噪與高保真。針對不同場景,采取精準優化措施,尤其在音樂場景下,可以在保證人聲和背景音樂無損傷的前提下,更好地抑制噪聲。
目前可以通過接入音頻技術SDK使用該功能。

7. 音效處理與變聲 (SoundEffectProcessingAndVoiceChange)

提供多種音頻剪輯能力,包含
預置變聲特效 (花栗鼠、小哥哥、麥霸、擴音器、機器人、沒電了、小黃人、巨人)
混響美化音效模板 (KTV、大自然、回音、演唱會、錄音棚、音樂廳、空靈),
支持音頻檢測 (音高檢測、語音活性檢測、音量檢測、響度檢測、延遲檢測),
單點音效器(動態壓縮器、合唱音效、失真音效、回聲音效、濾波器、調整聲像、限制器、混響、顫音、升降調、增益),以及變速不變調等
目前可以通過接入音頻技術SDK使用該功能。

北京火山引擎的音頻技術的核心優勢是什么?

  1. 多模態技術融合與創新:火山引擎的音頻技術不僅僅是單一的語音或音樂處理技術,而是將語音合成、音頻理解與處理、音樂理解與編輯、音樂生成等多種技術進行了融合與創新,這種多模態技術的結合使得火山引擎的音頻技術能夠處理更加復雜和多樣化的音頻任務。

  2. 自研算法追求更優性能:火山引擎在音頻技術領域擁有自主研發的核心算法,這些算法經過不斷優化和迭代,追求在性能上達到最優,能夠在各種應用場景下提供高質量、高效率的音頻處理效果。

  3. 廣泛的產品線和應用能力:火山引擎已經推出了包括文本朗讀(TTS)、節拍檢測(BeatTracking)、音樂轉譜(MIDI)、音樂標簽(MusicTagging)、音源分離(MusicSourceSeparate)、音頻降噪與增強(AudioNoiseReductionAndEnhancement)以及音效處理與變聲(SoundEffectProcessingAndVoiceChange)等一系列音頻技術產品,這些產品能夠滿足不同領域和場景下的音頻處理需求。

  4. 高度擬人化的語音合成技術:火山引擎的文本朗讀(TTS)技術采用業界領先的語音合成技術,能夠將文本轉化為自然流暢、情感豐富、高度擬人化的語音,支持多語種、多方言,并具備幾十種音色和個性化定制能力,為用戶提供了豐富的選擇。

  5. 精準的音頻處理能力:火山引擎的音頻技術不僅限于語音合成,還包括音頻降噪與增強、音效處理與變聲等功能,能夠實現對音頻的精準處理和優化,滿足不同用戶對音頻處理效果的需求。

  6. 用AI賦能創作者:火山引擎的愿景是用AI賦能創作者,通過音頻技術激發創作靈感,為用戶提供全新的交互體驗,發掘聲音的無限可能。這種愿景使得火山引擎的音頻技術不僅僅是一種技術工具,更是一種能夠激發創造力和想象力的力量。

在哪些場景會用到北京火山引擎的音頻技術?

1. 有聲朗讀
用于小說、新聞、廣告等多種語音播報場景,風格多樣,情感豐富
2. 游戲場景
定制npc發音人,個性化語音包
3. 虛擬人物
適配不同虛擬形象的特色聲音,可輸出時間截匹配口型,效果更真實
4. 智能創作
為音視頻編輯的配音、轉場提供多樣化的精品音色,讓創作更精彩



<
產品價格
>

免費服務

API 免費調用量限額 免費調用并發限額
歌詞對齊 100分鐘免費調用,自開通之日3個月 2

 

正式服務

API 調用量(分鐘/月) 梯度價格(元/分鐘) 調用并發限額
歌詞對齊 - 0.2 5

 

次數包

API 調用量(分鐘) 價格(元) 調用并發限額 有效期
歌詞對齊 10000 1800 5 一年
歌詞對齊 50000 8500 5 一年

 

增購并發

API 按月購買(元/并發/月)
歌詞對齊 200
<
使用指南
>

步驟一:注冊賬號

點擊立即注冊,注冊成為火山用戶(如已注冊,請直接登錄)

步驟二:登錄賬號完成實名認證

請點擊立即登錄立即登錄,登錄火山引擎控制臺,完成實名認證。

步驟三:獲取訪問密鑰AccessKey

拿到賬號,并且登錄控制臺后。可以在控制臺的右上角進入到密鑰管理,點擊進入:
在密鑰管理中心,用戶可以創建密鑰,后續在對接的過程中會用到。在這個頁面拿到AccessKey和AccessKey Secret。

步驟四:登錄音頻技術管控臺

使用火山引擎主賬號或者子賬號登錄音頻技術管控臺,默認進入 應用中心-應用管理 界面。
入口一:
從火山引擎首頁→產品→音頻技術→點擊管理控制臺或立即使用,即可進入音頻技術的控制臺。但首次登錄會要求注冊賬號。

入口二:
從火山引擎首頁→右上角管理控制臺→產品及服務列表中選擇音頻技術→即可進入音頻技術的控制臺。
進入控制臺后,會進入應用管理頁面,在這個頁面創建應用,開通API服務等。

步驟五:創建應用獲取appkey

操作路徑: 應用管理 -> 創建應用

  1. 創建應用

  2. 填寫應用信息,創建應用時,可能會發現部分能無法勾選。原因是此時還未開通相應的API服務。可以先完成步驟3的開通服務后,再去勾選應用接入。

  3. 開通服務,請點擊左側導航欄的“服務列表”先開通,則試用期以開通時刻開始計算。如果需要開通正式收費版服務,則繼續點擊“按調用次數付費”或者購買“次數包”。

    4.服務接入應用,可以在能力詳情頁底部的“接入應用”或者是應用管理的右側的“接入應用”特別說明一下,語音合成的功能,有免費的4個音色可以直接調用。要開通試用 其他音色,可以在語音合成的介紹頁的底部開通,試用期一般是15天。
    5.接入應用后,API可以使用。按照接入指南操作。其中用appkey的位置如圖,開發測試。接口開發文檔中要求獲取的token,請在下一篇文章“獲取鑒權Token”中查看。

更新應用

操作路徑: 應用管理 -> 接入能力

 

指南詳情鏈接:https://www.volcengine.com/docs/6489/75565

<
產品問答
>
?
使用OpenAPI GetToken接口調用獲取Token,提示錯誤:{'CodeN': 10001...
原因:當前用戶未開通音頻技術OpenAPI的權限。 解決方法:請進行授權操作:管控臺 → 訪問控制 → 用戶管理 → 關聯策略 → SAMIFullAccess,具體操作可以查看文檔訪問控制-用戶管理。
?
使用OpenAPI GetToken接口調用獲取Token,提示錯誤:{"code":420,"ms...
原因:使用appkey不存在,或者當前用戶與使用appkey不對應,比如主賬號創建的應用、誤使用子賬號的密鑰進行操作。 解決方法:檢查access key和appkey是否匹配。
?
使用OpenAPI GetToken接口調用獲取Token,提示錯誤:{"code":400,"ms...
原因:輸入參數錯誤。 解決方法:檢查HTTP Header是否正確設置Content-Type: application/json;檢查是否有按照要求傳入對應參數。
?
服務請求發送處理,提示錯誤:"status_code": 40200002, "status_tex...
原因:json反序列化問題,客戶端發送body數據json格式錯誤。 解決方法:檢查入參是否符合規范;入參避免直接拼接json文本,盡量使用轉換庫,避免轉義符號導致的json格式錯誤。若錯誤仍然未解決,可以記錄task_id和錯誤碼等請求相關信息,提交工單進行處理。
?
原因:json反序列化問題,客戶端發送body數據json格式錯誤。 解決方法:檢查入參是否符合規范...
問題分析: 音頻技術聚焦音頻/音樂的行業解決方案,暫不承接存儲相關業務 url參數不是必傳的,仍可選擇通過data字段傳入數據 解決方法:如有相關存儲需求,可參考火山引擎-對象存儲
<
關于我們
>
北京火山引擎科技有限公司是一家提供云計算服務的高科技企業,致力于通過穩定、安全、高性能的云服務助力企業數字化轉型。公司旗下擁有包括云服務器、GPU云服務器、機器學習平臺、內容分發網絡等在內的豐富產品線,同時提供企業級AI應用開發平臺、客戶數據平臺、增長分析等解決方案,服務于汽車、金融、文娛、大消費、醫療健康、傳媒等多個行業,推動全行業的云上增長。
聯系信息
服務時間: 10:00-19:00(工作日)
電話號碼: 400-850-0030轉1
郵箱: service@volcengine.com
火山引擎是什么
 
火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和應用工具開放給外部企業,幫助企業構建體驗創新、數據驅動和敏捷迭代等數字化能力,實現業務可持續增長。

 

 
全方位產品矩陣
 
提供云基礎到智能應用的全鏈路支撐
 

計算

存儲

數據庫 容器與中間件
人工智能與機器學習 網絡 CDN與邊緣 大數據
視頻云 安全 企業服務與云通信 查看全部產品
 
豐富的解決方案
助你積極應對各類業務難題
 

企業上云
基于多云開放的高可用架構,火山引擎幫助企業業務快速云上部署,保障業務運行穩定,不斷追求極致性能,使企業云上每一次計算及存儲都能獲得最優配置。

 

音視頻
基于字節跳動音視頻場景下的產品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業務創新敏捷落地。

 

智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業務視角出發,持續串聯內容生產、內容管理、公私域運營等環節,提供覆蓋營銷全鏈路的完整解決方案。

 

汽車行業
基于抖音集團在智能與數據領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構建精細化用戶運營和業務增長能力。

 

金融行業
基于字節跳動的技術積累,火山引擎為金融機構提供從底層技術架構到技術中臺,再到各類智能應用的全方位技術支持,構建數字敏捷,激發金融活力。

 

文娛行業
基于抖音集團穩定的基礎產品能力、數據驅動的營銷增長套件、AI加持的智能互動產品與多媒體技術,火山引擎為企業構建穩定業務、擴大用戶觸點、驅動交互創新、實現業務增長。

 

醫療
基于對生物醫學行業的關注,火山引擎與行業深度結合,通過BT+IT技術推動行業加速,為客戶提供多場景的解決方案,支持客戶業務創新、敏捷落地。

 

政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數據、人工智能、物聯網等技術能力,全面助力城市實現數字化轉型,在城市治理、文旅營銷等場景中全面實現效率提升。

 

通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內容引入、生產、運營、分發、消費的端到端服務能力,打造完善的媒體數智化運營體系。

 

大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數據、算法、AI、內容等能力,實現從投放到交易的數據化閉環,幫助企業數字化運營效率提升。

 

優質的服務,全方位的支持
火山引擎堅定進入云市場
我們將始終堅持三個關鍵的理念

定制化服務方案
火山引擎能夠提供專業的解決方案咨詢服務,架構師1V1量身定制契合業務需求的高性價比服務方案

全方位業務響應
提供7x24小時全天候人工客服,多渠道覆蓋支持客戶各種類型的業務訴求,飛書值班號提供快捷、全面的響應支持

專業化技術支持
甄選100%通過火山引擎技術考核的服務工程師,做到技術有支持,服務有溫度,問題有響應,落地有閉環

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>

免費服務

API 免費調用量限額 免費調用并發限額
歌詞對齊 100分鐘免費調用,自開通之日3個月 2

 

正式服務

API 調用量(分鐘/月) 梯度價格(元/分鐘) 調用并發限額
歌詞對齊 - 0.2 5

 

次數包

API 調用量(分鐘) 價格(元) 調用并發限額 有效期
歌詞對齊 10000 1800 5 一年
歌詞對齊 50000 8500 5 一年

 

增購并發

API 按月購買(元/并發/月)
歌詞對齊 200
<
使用指南
>

步驟一:注冊賬號

點擊立即注冊,注冊成為火山用戶(如已注冊,請直接登錄)

步驟二:登錄賬號完成實名認證

請點擊立即登錄立即登錄,登錄火山引擎控制臺,完成實名認證。

步驟三:獲取訪問密鑰AccessKey

拿到賬號,并且登錄控制臺后。可以在控制臺的右上角進入到密鑰管理,點擊進入:
在密鑰管理中心,用戶可以創建密鑰,后續在對接的過程中會用到。在這個頁面拿到AccessKey和AccessKey Secret。

步驟四:登錄音頻技術管控臺

使用火山引擎主賬號或者子賬號登錄音頻技術管控臺,默認進入 應用中心-應用管理 界面。
入口一:
從火山引擎首頁→產品→音頻技術→點擊管理控制臺或立即使用,即可進入音頻技術的控制臺。但首次登錄會要求注冊賬號。

入口二:
從火山引擎首頁→右上角管理控制臺→產品及服務列表中選擇音頻技術→即可進入音頻技術的控制臺。
進入控制臺后,會進入應用管理頁面,在這個頁面創建應用,開通API服務等。

步驟五:創建應用獲取appkey

操作路徑: 應用管理 -> 創建應用

  1. 創建應用

  2. 填寫應用信息,創建應用時,可能會發現部分能無法勾選。原因是此時還未開通相應的API服務。可以先完成步驟3的開通服務后,再去勾選應用接入。

  3. 開通服務,請點擊左側導航欄的“服務列表”先開通,則試用期以開通時刻開始計算。如果需要開通正式收費版服務,則繼續點擊“按調用次數付費”或者購買“次數包”。

    4.服務接入應用,可以在能力詳情頁底部的“接入應用”或者是應用管理的右側的“接入應用”特別說明一下,語音合成的功能,有免費的4個音色可以直接調用。要開通試用 其他音色,可以在語音合成的介紹頁的底部開通,試用期一般是15天。
    5.接入應用后,API可以使用。按照接入指南操作。其中用appkey的位置如圖,開發測試。接口開發文檔中要求獲取的token,請在下一篇文章“獲取鑒權Token”中查看。

更新應用

操作路徑: 應用管理 -> 接入能力

 

指南詳情鏈接:https://www.volcengine.com/docs/6489/75565

<
依賴服務
>
<
產品問答
>
?
使用OpenAPI GetToken接口調用獲取Token,提示錯誤:{'CodeN': 10001...
原因:當前用戶未開通音頻技術OpenAPI的權限。 解決方法:請進行授權操作:管控臺 → 訪問控制 → 用戶管理 → 關聯策略 → SAMIFullAccess,具體操作可以查看文檔訪問控制-用戶管理。
?
使用OpenAPI GetToken接口調用獲取Token,提示錯誤:{"code":420,"ms...
原因:使用appkey不存在,或者當前用戶與使用appkey不對應,比如主賬號創建的應用、誤使用子賬號的密鑰進行操作。 解決方法:檢查access key和appkey是否匹配。
?
使用OpenAPI GetToken接口調用獲取Token,提示錯誤:{"code":400,"ms...
原因:輸入參數錯誤。 解決方法:檢查HTTP Header是否正確設置Content-Type: application/json;檢查是否有按照要求傳入對應參數。
?
服務請求發送處理,提示錯誤:"status_code": 40200002, "status_tex...
原因:json反序列化問題,客戶端發送body數據json格式錯誤。 解決方法:檢查入參是否符合規范;入參避免直接拼接json文本,盡量使用轉換庫,避免轉義符號導致的json格式錯誤。若錯誤仍然未解決,可以記錄task_id和錯誤碼等請求相關信息,提交工單進行處理。
?
原因:json反序列化問題,客戶端發送body數據json格式錯誤。 解決方法:檢查入參是否符合規范...
問題分析: 音頻技術聚焦音頻/音樂的行業解決方案,暫不承接存儲相關業務 url參數不是必傳的,仍可選擇通過data字段傳入數據 解決方法:如有相關存儲需求,可參考火山引擎-對象存儲
<
關于我們
>
北京火山引擎科技有限公司是一家提供云計算服務的高科技企業,致力于通過穩定、安全、高性能的云服務助力企業數字化轉型。公司旗下擁有包括云服務器、GPU云服務器、機器學習平臺、內容分發網絡等在內的豐富產品線,同時提供企業級AI應用開發平臺、客戶數據平臺、增長分析等解決方案,服務于汽車、金融、文娛、大消費、醫療健康、傳媒等多個行業,推動全行業的云上增長。
聯系信息
服務時間: 10:00-19:00(工作日)
電話號碼: 400-850-0030轉1
郵箱: service@volcengine.com
火山引擎是什么
 
火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和應用工具開放給外部企業,幫助企業構建體驗創新、數據驅動和敏捷迭代等數字化能力,實現業務可持續增長。

 

 
全方位產品矩陣
 
提供云基礎到智能應用的全鏈路支撐
 

計算

存儲

數據庫 容器與中間件
人工智能與機器學習 網絡 CDN與邊緣 大數據
視頻云 安全 企業服務與云通信 查看全部產品
 
豐富的解決方案
助你積極應對各類業務難題
 

企業上云
基于多云開放的高可用架構,火山引擎幫助企業業務快速云上部署,保障業務運行穩定,不斷追求極致性能,使企業云上每一次計算及存儲都能獲得最優配置。

 

音視頻
基于字節跳動音視頻場景下的產品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業務創新敏捷落地。

 

智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業務視角出發,持續串聯內容生產、內容管理、公私域運營等環節,提供覆蓋營銷全鏈路的完整解決方案。

 

汽車行業
基于抖音集團在智能與數據領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構建精細化用戶運營和業務增長能力。

 

金融行業
基于字節跳動的技術積累,火山引擎為金融機構提供從底層技術架構到技術中臺,再到各類智能應用的全方位技術支持,構建數字敏捷,激發金融活力。

 

文娛行業
基于抖音集團穩定的基礎產品能力、數據驅動的營銷增長套件、AI加持的智能互動產品與多媒體技術,火山引擎為企業構建穩定業務、擴大用戶觸點、驅動交互創新、實現業務增長。

 

醫療
基于對生物醫學行業的關注,火山引擎與行業深度結合,通過BT+IT技術推動行業加速,為客戶提供多場景的解決方案,支持客戶業務創新、敏捷落地。

 

政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數據、人工智能、物聯網等技術能力,全面助力城市實現數字化轉型,在城市治理、文旅營銷等場景中全面實現效率提升。

 

通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內容引入、生產、運營、分發、消費的端到端服務能力,打造完善的媒體數智化運營體系。

 

大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數據、算法、AI、內容等能力,實現從投放到交易的數據化閉環,幫助企業數字化運營效率提升。

 

優質的服務,全方位的支持
火山引擎堅定進入云市場
我們將始終堅持三個關鍵的理念

定制化服務方案
火山引擎能夠提供專業的解決方案咨詢服務,架構師1V1量身定制契合業務需求的高性價比服務方案

全方位業務響應
提供7x24小時全天候人工客服,多渠道覆蓋支持客戶各種類型的業務訴求,飛書值班號提供快捷、全面的響應支持

專業化技術支持
甄選100%通過火山引擎技術考核的服務工程師,做到技術有支持,服務有溫度,問題有響應,落地有閉環

<
最可能同場景使用的其他API
>