Genie 3 的核心是 Video-VAE + Diffusion Transformer + Action-Condition。
官方給的算子復雜度:
| — | ||||||||
|---|---|---|---|---|---|---|---|---|
| VAE Encode | 1.2 B | 2.3 GB | 32 幀并行 | |||||
| Diffusion Denoise (50 步) | 18.5 B | 28 GB | 512×896 | |||||
| VAE Decode | 1.2 B | 3.1 GB | 輸出 32 幀 PNG |
總計 理論峰值 ≈ 33 GB,但 PyTorch 的緩存碎片 + CUDA Graph 會把實際占用再推高 15 %。
因此 48 GB 顯存是“無交換”的甜蜜點,36 GB 就要開 CPU offload,24 GB 只能做 16 幀或者 256×448 的小分辨率。
pip install -r requirements.txt
python bench.py --model genie3_20b --res 512 896 --frames 32 --steps 50
腳本會自動跑 3 次 warmup + 5 次計時,輸出幀率、顯存、功耗 CSV。
| — | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RTX 4090 24 GB | 23.8 GB | 溢出 | 2.3 | 420 | 78 | N/A | ||||||||
| RTX 4080 SUPER 16 GB | 16.0 GB | 溢出 | 1.7 | 310 | 74 | N/A | ||||||||
| RTX 3090 Ti 24 GB | 22.9 GB | 無溢出 | 2.9 | 450 | 83 | $0.031 | ||||||||
| RTX 4070 Ti SUPER 16 GB | 15.9 GB | 溢出 | 1.5 | 285 | 71 | N/A | ||||||||
| RTX 3080 12 GB | 11.9 GB | 嚴重溢出 | 0.8 | 320 | 79 | N/A |
“每幀成本”按 0.15 USD/kWh、GPU 滿載功率折算。
結論:24 GB 顯存只是“入門券”,4090 因為 21 Gbps GDDR6X 帶寬反而拖后腿,3090 Ti 用滿 384-bit 總線逆襲。
| — | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| RTX 6000 Ada 48 GB | 4.1 fps | 3 % | 7 350 | ★★★★☆ | ||||||
| A6000 48 GB | 3.6 fps | 5 % | 4 650 | ★★★★★ | ||||||
| L40S 48 GB | 3.9 fps | 4 % | 5 300 | ★★★★☆ | ||||||
| A100 PCIe 80 GB | 4.5 fps | 2 % | 12 000 | ★★☆☆☆ | ||||||
| H100 PCIe 80 GB | 6.2 fps | 2 % | 32 000 | ★★☆☆☆ |
48 GB 顯存讓 VAE 和 Diffusion 完全不用交換,幀率提升 70 %。
A6000 雖然老一代,但二手價僅 4 k USD,性價比冠軍當之無愧。
| — | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AWS g5.48xlarge | A10G 24 GB | $3.9/h | $1.2/h | 2.0 fps | 低 | |||||||
| GCP a3-highgpu-4g | A100 80 GB | $5.4/h | $1.8/h | 4.5 fps | 低 | |||||||
| Lambda Cloud | 1×H100 80 GB | $2.5/h | $1.0/h | 6.2 fps | 中 | |||||||
| RunPod | RTX A6000 48 GB | $0.9/h | $0.4/h | 3.6 fps | 中 | |||||||
| Vast.ai | 4090 24 GB | $0.6/h | $0.3/h | 2.3 fps | 高 |
長期跑 24×7 建議直接買卡;短期沖刺用 RunPod A6000 預留最香,$0.4/h 比電費還便宜。
如果預算只有 4090 24 GB,可以用 bitsandbytes 做 INT8 量化:
from genie3 import GeniePipeline
pipe = GeniePipeline("genie3_20b", load_in_8bit=True, cpu_offload=True)
顯存占用從 33 GB 降到 14 GB
幀率從 2.3 fps 降到 1.5 fps
電費節省 40 %,適合夜間批量跑任務。

電源:80 Plus Platinum 1200 W 起步,雙 8-pin 轉 12VHPWR 線長 ≥60 cm
散熱:A600 Ada 公版渦輪噪音 54 dB,建議換 IceStorm 4.0 三風扇
機箱:≥7 PCIe 槽位,風道前后 200 mm 風扇直吹顯卡背板
git clone https://github.com/open-gpu-lab/genie3-bench.git
cd genie3-bench
python bench.py --export excel --upload
腳本會把 CSV 上傳到 (https://open-gpu-bench.vercel.app) 公開排行榜,你的顯卡數據將實時可見。
| — | ||||||||
|---|---|---|---|---|---|---|---|---|
| 個人開發 | RTX 3090 Ti 24 GB | 二手 3 k USD,滿血無閹割 | (https://www.ebay.com/sch/i.html?_nkw=3090ti) | |||||
| 工作室 24×7 | RTX A6000 48 GB | 靜音+48 GB 顯存 | (https://www.amazon.com/dp/B08WJM4CKJ) | |||||
| 云端彈性 | RunPod A6000 | $0.4/h 預留,隨用隨停 | (https://runpod.io/console/deploy) | |||||
| 極致性能 | H100 PCIe 80 GB | 6.2 fps,大模型通用 | (https://lambdalabs.com/gpu-cloud) |
“別再把 4090 當成萬能卡,也別被 80 GB 的 H100 嚇到。Genie 3 的胃口寫在顯存里,也寫在帶寬里。”
現在打開 open-gpu-bench,看看你心儀的 GPU 在全球排行榜上的幀率,然后安心下單。
愿你在 2025 年的 AI 視頻浪潮里,永遠領先對手一幀。