![]() |
虛擬數(shù)字人-阿里云視覺智能開發(fā)平臺
專用API
【更新時(shí)間: 2024.07.15】
虛擬數(shù)字人技術(shù)以AI實(shí)時(shí)渲染為核心,快速構(gòu)建輕量級數(shù)字人物。依托達(dá)摩院在語音、圖像、3D美術(shù)、NLP等領(lǐng)域的技術(shù),提供實(shí)時(shí)交互的數(shù)字人流媒體產(chǎn)品、高效的視頻合成服務(wù),以及定制化的數(shù)字人資產(chǎn)構(gòu)建。
5749元/路/月
去服務(wù)商官網(wǎng)采購>
|
瀏覽次數(shù)
104
采購人數(shù)
0
試用次數(shù)
0
收藏
×
完成
取消
×
書簽名稱
確定
|



- API詳情
- 定價(jià)
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人?
虛擬數(shù)字人以AI驅(qū)動實(shí)時(shí)渲染為核心能力,提供快速輕量的數(shù)字人構(gòu)建路徑。基于達(dá)摩院在語音、圖像、3D美術(shù)、自然語言處理等領(lǐng)域的技術(shù)優(yōu)勢,提供以實(shí)時(shí)交互為目標(biāo)的「數(shù)字人流媒體」產(chǎn)品、以效率化內(nèi)容生產(chǎn)為目標(biāo)的「數(shù)字人視頻合成」產(chǎn)品,以及豐富表現(xiàn)力的數(shù)字人資產(chǎn)構(gòu)建定制服務(wù)。現(xiàn)在購買,暢享數(shù)字人帶來的無限可能!
什么是阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人接口?
阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人有哪些核心功能?
- 數(shù)字人流媒體:阿里數(shù)字人提供數(shù)字人標(biāo)準(zhǔn)化PaaS服務(wù),可集成到各種終端上。通過阿里云虛擬數(shù)字人的PaaS接口傳遞數(shù)字人即將播報(bào)的文本,可以獲得數(shù)字人播報(bào)的視頻流或離線視頻文件。支持在線直播、數(shù)字人助理播報(bào)等效果,并且可以集成在Web、移動端、PC端、線下大屏等各種類型終端上。
- 數(shù)字人視頻合成:阿里數(shù)字人提供離線驅(qū)動3D/2D數(shù)字人進(jìn)行文本播報(bào)生成對應(yīng)視頻的產(chǎn)品能力。支持通過API以及SaaS頁面兩種方式向服務(wù)端發(fā)送文本,服務(wù)端接收到數(shù)據(jù)后處理成數(shù)字人的聲音、表情、口型、動作,然后將對應(yīng)數(shù)據(jù)合成指定格式的視頻,并提供對應(yīng)的視頻下載地址。
- 數(shù)字人資產(chǎn)庫:阿里數(shù)字人提供3D/2D數(shù)字人形象的預(yù)覽、捏臉、換裝、聲音切換等編輯管理能力。官方提供了豐富的3D數(shù)字人和2D數(shù)字人形象,并支持對官方形象進(jìn)行預(yù)覽和編輯,如換裝以及聲音切換等(2D數(shù)字人形象暫不支持編輯)。
- 語音、視覺多模態(tài)表達(dá):集成自然語言理解算法,根據(jù)播報(bào)的內(nèi)容智能驅(qū)動數(shù)字人表情和動作,實(shí)現(xiàn)語音、表情、手勢動作的多模態(tài)表達(dá)。
- 虛擬數(shù)字人視頻創(chuàng)作:基于數(shù)字人開放平臺的技術(shù)能力,提供預(yù)置的3D虛擬數(shù)字人形象,并支持文本輸入生成數(shù)字人視頻,支持更換背景、設(shè)置字幕、自定義數(shù)字人音色、形象,可快速生成視頻,進(jìn)行下一步的自由創(chuàng)作或者直接投放。
- 自主靈活配置多種素材:支持驅(qū)動人物表情與動作,基于表情驅(qū)動及動作驅(qū)動的數(shù)字人技術(shù),生成的數(shù)字人形象可以根據(jù)播報(bào)的內(nèi)容,零延遲匹配對應(yīng)的唇形。同時(shí),根據(jù)文本的語義分析,配以對應(yīng)的手勢動作,使數(shù)字人播報(bào)更加流暢自然,富有感染力
阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人的核心優(yōu)勢是什么?
-
強(qiáng)大的AI技術(shù)能力:阿里數(shù)字人依托阿里達(dá)摩院在語音、圖像、3D美術(shù)、自然語言處理(NLP)等領(lǐng)域的技術(shù)優(yōu)勢,阿里虛擬數(shù)字人服務(wù)能夠提供高度智能化的實(shí)時(shí)渲染和驅(qū)動能力,使得數(shù)字人的表現(xiàn)更加自然、生動。
-
多模態(tài)交互能力:阿里數(shù)字人通過集成CV(計(jì)算機(jī)視覺)、3D、語音、NLP以及包含知識、情感、記憶、個(gè)性的對話大模型等多模態(tài)技術(shù),阿里虛擬數(shù)字人能夠?qū)崿F(xiàn)情感化的雙工交互,即能夠理解和響應(yīng)用戶的情緒,并據(jù)此進(jìn)行更加自然和人性化的互動,提升用戶體驗(yàn)。
-
高效的構(gòu)建與定制服務(wù):阿里數(shù)字人提供低門檻、輕量級、易集成的數(shù)字人構(gòu)建路徑,無論是3D數(shù)字人還是2D數(shù)字人,都能快速構(gòu)建并接入到客戶的業(yè)務(wù)中。同時(shí),提供豐富的數(shù)字人資產(chǎn)形象庫和完善的視頻創(chuàng)作SAAS產(chǎn)品,滿足不同客戶的個(gè)性化需求。
-
廣泛的應(yīng)用場景:阿里數(shù)字人支持視頻合成、流媒體實(shí)時(shí)交互、數(shù)字造星等多種應(yīng)用場景。用戶可以根據(jù)需求選擇不同風(fēng)格的數(shù)字人、音色、背景等,生成適用于教育、電商、新聞、視頻客服、助理、直播等多種場景的數(shù)字人播報(bào)視頻或?qū)崟r(shí)交互內(nèi)容。
-
靈活的技術(shù)底座與擴(kuò)展性:阿里數(shù)字人提供基于AI驅(qū)動的數(shù)字人實(shí)時(shí)渲染推流的PaaS技術(shù)底座,支持客戶根據(jù)自身業(yè)務(wù)需求開發(fā)應(yīng)用,并具備未來推出更多驅(qū)動模式的能力,確保了服務(wù)的靈活性和可擴(kuò)展性。
在哪些場景會用到阿里云視覺智能開發(fā)平臺的虛擬數(shù)字人?
1.內(nèi)容創(chuàng)作
阿里數(shù)字人可應(yīng)用于新聞播報(bào)、政策解讀、課件講解將文本、語音等內(nèi)容轉(zhuǎn)化為以數(shù)字人形象為主的視頻內(nèi)容,使其能夠滿足在電視、網(wǎng)站、視頻平臺或社交平臺等視聽媒體的投放或傳播需求。阿里數(shù)字人為內(nèi)容創(chuàng)作者提供更低門檻、更強(qiáng)表現(xiàn)力的視頻內(nèi)容創(chuàng)作工具,提升創(chuàng)作效率,放大內(nèi)容價(jià)值。
2.數(shù)字員工
您的專屬數(shù)字員工支持?jǐn)?shù)字人形象與智能助理場景結(jié)合,將傳統(tǒng)文本互動升級為數(shù)字人交互,打造同時(shí)具備親切感與專業(yè)度的數(shù)字員工形象。應(yīng)用數(shù)字員工,可替代真人完成基本的業(yè)務(wù)咨詢答疑、信息播報(bào)、數(shù)據(jù)查詢、業(yè)務(wù)流程辦理等服務(wù)。阿里數(shù)字人可以與觀眾進(jìn)行雙向互動和實(shí)時(shí)反饋,提高觀眾的參與度和興趣度,相較于單向傳播的真人直播,虛擬直播的互動性更強(qiáng),提升了用戶體驗(yàn)
3.視頻客服
我們的功能優(yōu)勢通過賦予客服機(jī)器人阿里數(shù)字人的形象,將傳統(tǒng)的在線/熱線客服升級成為支持WebRTC或VoLTE視頻客服。支持個(gè)性化配置客服形象和聲音,讓AI服務(wù)過程更親切、更有溫度;支持文本+語音+視頻雙向交互,并且可以根據(jù)用戶的表情、動作和環(huán)境信息定制服務(wù)響應(yīng)策略。虛擬數(shù)字人克隆技術(shù)可以實(shí)現(xiàn)多元化的形象定制,只需拍攝幾分鐘的真人視頻,上傳至克隆平臺,通過AI深度建模,完美復(fù)刻真人形象,適用于多種場景
4.虛擬直播
阿里數(shù)字人能夠?qū)崿F(xiàn)全天候不間斷的直播,無需真人主播,節(jié)省了真人直播所需的休息時(shí)間和流量空檔期,使品牌能夠在全時(shí)段得到曝光,更好地獲取流量。相比于真人直播的高昂成本,包括聘請主播、場地租賃、設(shè)備配置等,虛擬數(shù)字人直播無需這些開銷,只需一部手機(jī)或電腦即可搭建直播間,且可快速復(fù)制,極大降低了成本


3D數(shù)字人流媒體
目前包含預(yù)付費(fèi)、按量計(jì)費(fèi)兩種模式:
預(yù)付費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
3D數(shù)字人流媒體 |
5749元/路/月 |
5749元/路/月,這里的路指的是并發(fā)路數(shù),也就是同一時(shí)刻支持幾個(gè)用戶與數(shù)字人進(jìn)行交互,1路并發(fā)就是支持同一時(shí)刻只有1個(gè)用戶與數(shù)字人進(jìn)行交互。3D數(shù)字人流媒體(停復(fù)機(jī))的路數(shù)同理。
按量計(jì)費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
3D數(shù)字人流媒體(停復(fù)機(jī)) |
0.60元/路/分鐘 |
數(shù)字人視頻合成
目前包含按量計(jì)費(fèi)和預(yù)付費(fèi)流量包兩種模式:
按量計(jì)費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
數(shù)字人視頻合成 |
9.9元/分鐘(計(jì)費(fèi)精確到秒,相當(dāng)于0.165元/秒) |
預(yù)付費(fèi)流量包(100分鐘以上)
如您對視頻合成用量較大(100分鐘以上),可根據(jù)實(shí)際需求購買視頻合成預(yù)付費(fèi)流量包,在使用視頻合成創(chuàng)作時(shí),會優(yōu)先抵扣資源包中的流量,超出資源包的流量再按量計(jì)費(fèi)。點(diǎn)此購買
2D真人形象定制
目前包含按量計(jì)費(fèi)一種模式:
按量計(jì)費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
2D真人形象定制(不支持退款) |
6999元/每個(gè)形象/年(第二年使用需續(xù)費(fèi),續(xù)費(fèi)價(jià)格請聯(lián)系工作人員) |
-
上傳5-10分鐘拍攝視頻后,除去用戶確認(rèn)時(shí)間,算法訓(xùn)練最長10個(gè)工作日處理完成;
-
人工審核通過后,將會發(fā)送短信通知您,您需前往控制臺進(jìn)行確認(rèn)訓(xùn)練,確認(rèn)后將自動扣費(fèi),不支持退款;


1. 接入流程
-
申請阿里云賬號,完成實(shí)名認(rèn)證(個(gè)人或企業(yè)均可)
-
申請購買權(quán)限,完成購買開通服務(wù)
-
配置應(yīng)用
-
服務(wù)端接入
-
客戶端接入
2. 申請賬號
-
您需要提前申請好一個(gè)阿里云賬號,并完成實(shí)名認(rèn)證,具體操作方式可參考準(zhǔn)備工作。
3. 申請購買
-
擁有了阿里云賬號之后,您需要通過虛擬數(shù)字人開放平臺的申請審核,然后才能進(jìn)行購買,具體操作方式可參考開通服務(wù)。
4. 配置應(yīng)用
-
服務(wù)開通之后,可通過虛擬數(shù)字人開放平臺控制臺入口進(jìn)行登錄訪問,創(chuàng)建并配置對應(yīng)的應(yīng)用,具體可參考創(chuàng)建并配置數(shù)字人應(yīng)用。
5. 服務(wù)端接入
-
虛擬數(shù)字人開放平臺服務(wù)端接入依賴OpenAPI
-
在調(diào)用OpenAPI之前需要拿到API調(diào)用所需要的AK和SK, 獲取方式可參考獲取AccessKey文檔
-
詳細(xì)的服務(wù)端接入文檔可參考服務(wù)端 API 接入篇
6. 客戶端接入
-
客戶端接入,主要解決的是視頻流拉取的問題,采用阿里云音視頻RTC的技術(shù)方案,提供了豐富的客戶端接入能力
-
詳細(xì)的客戶端接入文檔可參考3D數(shù)字人實(shí)時(shí)流媒體
7. 客戶端硬件要求
-
1路并發(fā)的帶寬要求:
類別 |
要求 |
備注 |
下行速率 |
2Mb/s |
720P/路,僅考慮RTC拉流,不包含應(yīng)用中數(shù)字人以外其他功能所占帶寬 |
上行速率 |
1Mb/s |
僅考慮音頻互動通道 |









3D數(shù)字人流媒體
目前包含預(yù)付費(fèi)、按量計(jì)費(fèi)兩種模式:
預(yù)付費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
3D數(shù)字人流媒體 |
5749元/路/月 |
5749元/路/月,這里的路指的是并發(fā)路數(shù),也就是同一時(shí)刻支持幾個(gè)用戶與數(shù)字人進(jìn)行交互,1路并發(fā)就是支持同一時(shí)刻只有1個(gè)用戶與數(shù)字人進(jìn)行交互。3D數(shù)字人流媒體(停復(fù)機(jī))的路數(shù)同理。
按量計(jì)費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
3D數(shù)字人流媒體(停復(fù)機(jī)) |
0.60元/路/分鐘 |
數(shù)字人視頻合成
目前包含按量計(jì)費(fèi)和預(yù)付費(fèi)流量包兩種模式:
按量計(jì)費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
數(shù)字人視頻合成 |
9.9元/分鐘(計(jì)費(fèi)精確到秒,相當(dāng)于0.165元/秒) |
預(yù)付費(fèi)流量包(100分鐘以上)
如您對視頻合成用量較大(100分鐘以上),可根據(jù)實(shí)際需求購買視頻合成預(yù)付費(fèi)流量包,在使用視頻合成創(chuàng)作時(shí),會優(yōu)先抵扣資源包中的流量,超出資源包的流量再按量計(jì)費(fèi)。點(diǎn)此購買
2D真人形象定制
目前包含按量計(jì)費(fèi)一種模式:
按量計(jì)費(fèi)模式
規(guī)格名稱 |
價(jià)格 |
2D真人形象定制(不支持退款) |
6999元/每個(gè)形象/年(第二年使用需續(xù)費(fèi),續(xù)費(fèi)價(jià)格請聯(lián)系工作人員) |
-
上傳5-10分鐘拍攝視頻后,除去用戶確認(rèn)時(shí)間,算法訓(xùn)練最長10個(gè)工作日處理完成;
-
人工審核通過后,將會發(fā)送短信通知您,您需前往控制臺進(jìn)行確認(rèn)訓(xùn)練,確認(rèn)后將自動扣費(fèi),不支持退款;


1. 接入流程
-
申請阿里云賬號,完成實(shí)名認(rèn)證(個(gè)人或企業(yè)均可)
-
申請購買權(quán)限,完成購買開通服務(wù)
-
配置應(yīng)用
-
服務(wù)端接入
-
客戶端接入
2. 申請賬號
-
您需要提前申請好一個(gè)阿里云賬號,并完成實(shí)名認(rèn)證,具體操作方式可參考準(zhǔn)備工作。
3. 申請購買
-
擁有了阿里云賬號之后,您需要通過虛擬數(shù)字人開放平臺的申請審核,然后才能進(jìn)行購買,具體操作方式可參考開通服務(wù)。
4. 配置應(yīng)用
-
服務(wù)開通之后,可通過虛擬數(shù)字人開放平臺控制臺入口進(jìn)行登錄訪問,創(chuàng)建并配置對應(yīng)的應(yīng)用,具體可參考創(chuàng)建并配置數(shù)字人應(yīng)用。
5. 服務(wù)端接入
-
虛擬數(shù)字人開放平臺服務(wù)端接入依賴OpenAPI
-
在調(diào)用OpenAPI之前需要拿到API調(diào)用所需要的AK和SK, 獲取方式可參考獲取AccessKey文檔
-
詳細(xì)的服務(wù)端接入文檔可參考服務(wù)端 API 接入篇
6. 客戶端接入
-
客戶端接入,主要解決的是視頻流拉取的問題,采用阿里云音視頻RTC的技術(shù)方案,提供了豐富的客戶端接入能力
-
詳細(xì)的客戶端接入文檔可參考3D數(shù)字人實(shí)時(shí)流媒體
7. 客戶端硬件要求
-
1路并發(fā)的帶寬要求:
類別 |
要求 |
備注 |
下行速率 |
2Mb/s |
720P/路,僅考慮RTC拉流,不包含應(yīng)用中數(shù)字人以外其他功能所占帶寬 |
上行速率 |
1Mb/s |
僅考慮音頻互動通道 |








