![]() |
音頻技術-北京火山引擎
專用API
【更新時間: 2024.06.28】
音頻技術(SAMI)專注于語音合成、音頻處理、音樂理解與創作。我們的優勢在于音樂與音頻的多模態技術融合,自主研發的算法追求卓越性能。我們的目標是利用AI激發創作者的靈感,為用戶帶來創新的交互體驗,探索聲音的無限潛力。
0元起
去服務商官網采購>
|
瀏覽次數
96
采購人數
3
試用次數
0
試用
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是北京火山引擎的音頻技術?
音頻技術(Speech, Audio & Music Intelligence,簡稱SAMI),主要致力于語音合成、音頻理解與處理、音樂理解與編輯、音樂生成等技術的研究和應用。我們的優勢是基于音樂和音頻的多模態技術融合與創新,自研算法追求更優性能。我們的愿景是用AI賦能創作者,激發創作靈感,為用戶提供全新的交互體驗,發掘聲音的無限可能。
什么是北京火山引擎的音頻技術接口?
北京火山引擎的音頻技術有哪些核心功能?
1. 文本朗讀(TTS)
我們使用業界領先的語音合成(TTS)技術,將文本轉化為自然流暢、情感豐富、高度擬人化的語音,支持多語種、多方言,現已具備幾十種音色并支持個性化定制,滿足各類場景對文本朗讀的需求。
2. 節拍檢測(BeatTracking)
節拍檢測能夠自動分析獲取音樂的節拍點,發現音樂的更多信息,輔助音樂資源利用。
目前支持在線OpenAPI調用以及離線SDK調用。
3. 音樂轉譜(MIDI)
音樂轉譜將輸入的音頻進行分析,提取導出MIDI格式內容,包含音樂的音符、力度、時長等信息。
4. 音樂標簽(MusicTagging)
音樂標簽通過人聲、曲風、情緒、場景、語言、二級曲風等多個維度分析音樂,自動生成各維度下的標簽。
5. 音源分離(MusicSourceSeparate)
音源分離能夠自動分析歌曲中的人聲和伴奏,進行提取分離用于K歌、二次創作等多種玩法。
6. 音頻降噪與增強(AudioNoiseReductionAndEnhancement)
自研基于dsp算法和深度學習的回聲消除、噪聲抑制、聲音增強,兼顧強降噪與高保真。針對不同場景,采取精準優化措施,尤其在音樂場景下,可以在保證人聲和背景音樂無損傷的前提下,更好地抑制噪聲。
目前可以通過接入音頻技術SDK使用該功能。
7. 音效處理與變聲 (SoundEffectProcessingAndVoiceChange)
提供多種音頻剪輯能力,包含
預置變聲特效 (花栗鼠、小哥哥、麥霸、擴音器、機器人、沒電了、小黃人、巨人)
混響美化音效模板 (KTV、大自然、回音、演唱會、錄音棚、音樂廳、空靈),
支持音頻檢測 (音高檢測、語音活性檢測、音量檢測、響度檢測、延遲檢測),
單點音效器(動態壓縮器、合唱音效、失真音效、回聲音效、濾波器、調整聲像、限制器、混響、顫音、升降調、增益),以及變速不變調等
目前可以通過接入音頻技術SDK使用該功能。
北京火山引擎的音頻技術的核心優勢是什么?
-
多模態技術融合與創新:火山引擎的音頻技術不僅僅是單一的語音或音樂處理技術,而是將語音合成、音頻理解與處理、音樂理解與編輯、音樂生成等多種技術進行了融合與創新,這種多模態技術的結合使得火山引擎的音頻技術能夠處理更加復雜和多樣化的音頻任務。
-
自研算法追求更優性能:火山引擎在音頻技術領域擁有自主研發的核心算法,這些算法經過不斷優化和迭代,追求在性能上達到最優,能夠在各種應用場景下提供高質量、高效率的音頻處理效果。
-
廣泛的產品線和應用能力:火山引擎已經推出了包括文本朗讀(TTS)、節拍檢測(BeatTracking)、音樂轉譜(MIDI)、音樂標簽(MusicTagging)、音源分離(MusicSourceSeparate)、音頻降噪與增強(AudioNoiseReductionAndEnhancement)以及音效處理與變聲(SoundEffectProcessingAndVoiceChange)等一系列音頻技術產品,這些產品能夠滿足不同領域和場景下的音頻處理需求。
-
高度擬人化的語音合成技術:火山引擎的文本朗讀(TTS)技術采用業界領先的語音合成技術,能夠將文本轉化為自然流暢、情感豐富、高度擬人化的語音,支持多語種、多方言,并具備幾十種音色和個性化定制能力,為用戶提供了豐富的選擇。
-
精準的音頻處理能力:火山引擎的音頻技術不僅限于語音合成,還包括音頻降噪與增強、音效處理與變聲等功能,能夠實現對音頻的精準處理和優化,滿足不同用戶對音頻處理效果的需求。
-
用AI賦能創作者:火山引擎的愿景是用AI賦能創作者,通過音頻技術激發創作靈感,為用戶提供全新的交互體驗,發掘聲音的無限可能。這種愿景使得火山引擎的音頻技術不僅僅是一種技術工具,更是一種能夠激發創造力和想象力的力量。
在哪些場景會用到北京火山引擎的音頻技術?
1. 有聲朗讀
用于小說、新聞、廣告等多種語音播報場景,風格多樣,情感豐富
2. 游戲場景
定制npc發音人,個性化語音包
3. 虛擬人物
適配不同虛擬形象的特色聲音,可輸出時間截匹配口型,效果更真實
4. 智能創作
為音視頻編輯的配音、轉場提供多樣化的精品音色,讓創作更精彩


免費服務
API | 免費調用量限額 | 免費調用并發限額 |
歌詞對齊 | 100分鐘免費調用,自開通之日3個月 | 2 |
正式服務
API | 調用量(分鐘/月) | 梯度價格(元/分鐘) | 調用并發限額 |
歌詞對齊 | - | 0.2 | 5 |
次數包
API | 調用量(分鐘) | 價格(元) | 調用并發限額 | 有效期 |
歌詞對齊 | 10000 | 1800 | 5 | 一年 |
歌詞對齊 | 50000 | 8500 | 5 | 一年 |
增購并發
API | 按月購買(元/并發/月) |
歌詞對齊 | 200 |


步驟一:注冊賬號
點擊立即注冊,注冊成為火山用戶(如已注冊,請直接登錄)
步驟二:登錄賬號完成實名認證
請點擊立即登錄立即登錄,登錄火山引擎控制臺,完成實名認證。
步驟三:獲取訪問密鑰AccessKey
拿到賬號,并且登錄控制臺后。可以在控制臺的右上角進入到密鑰管理,點擊進入:
在密鑰管理中心,用戶可以創建密鑰,后續在對接的過程中會用到。在這個頁面拿到AccessKey和AccessKey Secret。
步驟四:登錄音頻技術管控臺
使用火山引擎主賬號或者子賬號登錄音頻技術管控臺,默認進入 應用中心-應用管理 界面。
入口一:
從火山引擎首頁→產品→音頻技術→點擊管理控制臺或立即使用,即可進入音頻技術的控制臺。但首次登錄會要求注冊賬號。
入口二:
從火山引擎首頁→右上角管理控制臺→產品及服務列表中選擇音頻技術→即可進入音頻技術的控制臺。
進入控制臺后,會進入應用管理頁面,在這個頁面創建應用,開通API服務等。
步驟五:創建應用獲取appkey
操作路徑: 應用管理 -> 創建應用
-
創建應用
-
填寫應用信息,創建應用時,可能會發現部分能無法勾選。原因是此時還未開通相應的API服務。可以先完成步驟3的開通服務后,再去勾選應用接入。
-
開通服務,請點擊左側導航欄的“服務列表”先開通,則試用期以開通時刻開始計算。如果需要開通正式收費版服務,則繼續點擊“按調用次數付費”或者購買“次數包”。
4.服務接入應用,可以在能力詳情頁底部的“接入應用”或者是應用管理的右側的“接入應用”特別說明一下,語音合成的功能,有免費的4個音色可以直接調用。要開通試用 其他音色,可以在語音合成的介紹頁的底部開通,試用期一般是15天。
5.接入應用后,API可以使用。按照接入指南操作。其中用appkey
的位置如圖,開發測試。接口開發文檔中要求獲取的token,請在下一篇文章“獲取鑒權Token”中查看。
更新應用
操作路徑: 應用管理 -> 接入能力




計算 |
存儲 |
數據庫 | 容器與中間件 |
人工智能與機器學習 | 網絡 | CDN與邊緣 | 大數據 |
視頻云 | 安全 | 企業服務與云通信 | 查看全部產品 |
企業上云
基于多云開放的高可用架構,火山引擎幫助企業業務快速云上部署,保障業務運行穩定,不斷追求極致性能,使企業云上每一次計算及存儲都能獲得最優配置。
音視頻
基于字節跳動音視頻場景下的產品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業務創新敏捷落地。
智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業務視角出發,持續串聯內容生產、內容管理、公私域運營等環節,提供覆蓋營銷全鏈路的完整解決方案。
汽車行業
基于抖音集團在智能與數據領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構建精細化用戶運營和業務增長能力。
金融行業
基于字節跳動的技術積累,火山引擎為金融機構提供從底層技術架構到技術中臺,再到各類智能應用的全方位技術支持,構建數字敏捷,激發金融活力。
文娛行業
基于抖音集團穩定的基礎產品能力、數據驅動的營銷增長套件、AI加持的智能互動產品與多媒體技術,火山引擎為企業構建穩定業務、擴大用戶觸點、驅動交互創新、實現業務增長。
醫療
基于對生物醫學行業的關注,火山引擎與行業深度結合,通過BT+IT技術推動行業加速,為客戶提供多場景的解決方案,支持客戶業務創新、敏捷落地。
政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數據、人工智能、物聯網等技術能力,全面助力城市實現數字化轉型,在城市治理、文旅營銷等場景中全面實現效率提升。
通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內容引入、生產、運營、分發、消費的端到端服務能力,打造完善的媒體數智化運營體系。
大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數據、算法、AI、內容等能力,實現從投放到交易的數據化閉環,幫助企業數字化運營效率提升。
優質的服務,全方位的支持 火山引擎堅定進入云市場 我們將始終堅持三個關鍵的理念 |
||
定制化服務方案 |
全方位業務響應 |
專業化技術支持 |


免費服務
API | 免費調用量限額 | 免費調用并發限額 |
歌詞對齊 | 100分鐘免費調用,自開通之日3個月 | 2 |
正式服務
API | 調用量(分鐘/月) | 梯度價格(元/分鐘) | 調用并發限額 |
歌詞對齊 | - | 0.2 | 5 |
次數包
API | 調用量(分鐘) | 價格(元) | 調用并發限額 | 有效期 |
歌詞對齊 | 10000 | 1800 | 5 | 一年 |
歌詞對齊 | 50000 | 8500 | 5 | 一年 |
增購并發
API | 按月購買(元/并發/月) |
歌詞對齊 | 200 |


步驟一:注冊賬號
點擊立即注冊,注冊成為火山用戶(如已注冊,請直接登錄)
步驟二:登錄賬號完成實名認證
請點擊立即登錄立即登錄,登錄火山引擎控制臺,完成實名認證。
步驟三:獲取訪問密鑰AccessKey
拿到賬號,并且登錄控制臺后。可以在控制臺的右上角進入到密鑰管理,點擊進入:
在密鑰管理中心,用戶可以創建密鑰,后續在對接的過程中會用到。在這個頁面拿到AccessKey和AccessKey Secret。
步驟四:登錄音頻技術管控臺
使用火山引擎主賬號或者子賬號登錄音頻技術管控臺,默認進入 應用中心-應用管理 界面。
入口一:
從火山引擎首頁→產品→音頻技術→點擊管理控制臺或立即使用,即可進入音頻技術的控制臺。但首次登錄會要求注冊賬號。
入口二:
從火山引擎首頁→右上角管理控制臺→產品及服務列表中選擇音頻技術→即可進入音頻技術的控制臺。
進入控制臺后,會進入應用管理頁面,在這個頁面創建應用,開通API服務等。
步驟五:創建應用獲取appkey
操作路徑: 應用管理 -> 創建應用
-
創建應用
-
填寫應用信息,創建應用時,可能會發現部分能無法勾選。原因是此時還未開通相應的API服務。可以先完成步驟3的開通服務后,再去勾選應用接入。
-
開通服務,請點擊左側導航欄的“服務列表”先開通,則試用期以開通時刻開始計算。如果需要開通正式收費版服務,則繼續點擊“按調用次數付費”或者購買“次數包”。
4.服務接入應用,可以在能力詳情頁底部的“接入應用”或者是應用管理的右側的“接入應用”特別說明一下,語音合成的功能,有免費的4個音色可以直接調用。要開通試用 其他音色,可以在語音合成的介紹頁的底部開通,試用期一般是15天。
5.接入應用后,API可以使用。按照接入指南操作。其中用appkey
的位置如圖,開發測試。接口開發文檔中要求獲取的token,請在下一篇文章“獲取鑒權Token”中查看。
更新應用
操作路徑: 應用管理 -> 接入能力






計算 |
存儲 |
數據庫 | 容器與中間件 |
人工智能與機器學習 | 網絡 | CDN與邊緣 | 大數據 |
視頻云 | 安全 | 企業服務與云通信 | 查看全部產品 |
企業上云
基于多云開放的高可用架構,火山引擎幫助企業業務快速云上部署,保障業務運行穩定,不斷追求極致性能,使企業云上每一次計算及存儲都能獲得最優配置。
音視頻
基于字節跳動音視頻場景下的產品與運營實踐,火山引擎為客戶提供覆蓋全場景云端一體音視頻解決方案,一站獲取完備音視頻能力,助力業務創新敏捷落地。
智能營銷
基于抖音集團的用戶增長方法論,火山引擎從業務視角出發,持續串聯內容生產、內容管理、公私域運營等環節,提供覆蓋營銷全鏈路的完整解決方案。
汽車行業
基于抖音集團在智能與數據領域的沉淀,火山引擎以“智能駕駛云”、“智能座艙云”、“體驗運營云”為核心,打造個性化的互動智能座艙,提升全生命周期用戶體驗,構建精細化用戶運營和業務增長能力。
金融行業
基于字節跳動的技術積累,火山引擎為金融機構提供從底層技術架構到技術中臺,再到各類智能應用的全方位技術支持,構建數字敏捷,激發金融活力。
文娛行業
基于抖音集團穩定的基礎產品能力、數據驅動的營銷增長套件、AI加持的智能互動產品與多媒體技術,火山引擎為企業構建穩定業務、擴大用戶觸點、驅動交互創新、實現業務增長。
醫療
基于對生物醫學行業的關注,火山引擎與行業深度結合,通過BT+IT技術推動行業加速,為客戶提供多場景的解決方案,支持客戶業務創新、敏捷落地。
政府文旅
基于抖音集團的技術底座,火山引擎整合云基礎、數據、人工智能、物聯網等技術能力,全面助力城市實現數字化轉型,在城市治理、文旅營銷等場景中全面實現效率提升。
通信傳媒
基于抖音集團在泛資訊、短視頻等領域的前沿能力,火山引擎提供了覆蓋內容引入、生產、運營、分發、消費的端到端服務能力,打造完善的媒體數智化運營體系。
大消費
基于抖音集團的場景化實踐,火山引擎圍繞人貨場關系,整合云基礎、數據、算法、AI、內容等能力,實現從投放到交易的數據化閉環,幫助企業數字化運營效率提升。
優質的服務,全方位的支持 火山引擎堅定進入云市場 我們將始終堅持三個關鍵的理念 |
||
定制化服務方案 |
全方位業務響應 |
專業化技術支持 |