步驟2:創(chuàng)建GPU節(jié)點

訪問您的帳戶后,您應該會看到一個儀表板(見圖),現(xiàn)在:

  1. 導航至左側(cè)的菜單。
  2. 單擊 GPU 節(jié)點 選項。
  1. 單擊“開始”開始創(chuàng)建您的第一個 GPU 節(jié)點。

這些 GPU 節(jié)點是由 NodeShift 打造的 GPU 虛擬機。這些節(jié)點高度可定制,讓您可以根據(jù)需求控制從 H100 到 A100 的 GPU、CPU、RAM 和存儲的不同環(huán)境配置。

步驟3:選擇GPU配置(型號、區(qū)域、存儲)

  1. 在本教程中,我們將使用 1x RTX A6000 GPU,但是,您可以根據(jù)先決條件選擇任何 GPU。
  2. 同樣,我們滑動條選擇 200GB 存儲空間。您還可以從可用區(qū)域中選擇 GPU 所在的區(qū)域。

步驟 4:選擇 GPU 配置和身份驗證方法

  1. 選擇所需的配置選項后,您將看到您所在區(qū)域可用的 GPU 節(jié)點,這些節(jié)點與您的配置一致(或非常接近)。在本例中,我們將選擇一個 1x RTX A6000 48GB GPU 節(jié)點,配置 64 個 vCPU/63GB RAM/200GB SSD。

2. 接下來,您需要選擇一種身份驗證方法。有兩種方法可用:密碼和 SSH 密鑰。我們建議使用 SSH 密鑰,因為它更安全。要創(chuàng)建密鑰,請參閱我們的官方文檔

步驟5:選擇圖像

最后一步是為虛擬機選擇一個映像,在我們的例子中是Nvidia Cuda

就這樣!現(xiàn)在您可以部署節(jié)點了。完成配置摘要,如果看起來不錯,請點擊“創(chuàng)建”來部署節(jié)點。

步驟 6:使用 SSH 連接到活動計算節(jié)點

  1. 創(chuàng)建節(jié)點后,它將在幾秒鐘或一分鐘內(nèi)部署完畢。部署完成后,您將看到綠色的“正在運行”狀態(tài),這意味著我們的計算節(jié)點已準備就緒,可供使用!
  2. 一旦您的 GPU 顯示此狀態(tài),請導航到右側(cè)的三個點,單擊使用 SSH 連接,然后復制出現(xiàn)的 SSH 詳細信息。

復制詳細信息時,請按照以下步驟通過 SSH 連接到正在運行的 GPU VM:

  1. 打開您的終端,粘貼 SSH 命令并運行它。
  2. 在某些情況下,您的終端可能會在連接前征求您的同意。請輸入“是”。
  3. 系統(tǒng)會提示輸入密碼。輸入 SSH 密碼后即可連接。

輸出:

接下來,如果要檢查 GPU 詳細信息,請在終端中運行以下命令:

!nvidia-smi

步驟 7:設置具有依賴項的項目環(huán)境

  1. 使用Anaconda創(chuàng)建虛擬環(huán)境。
conda create -n higgs python=3.11 -y && conda activate higgs

輸出:

2.進入環(huán)境后,克隆官方存儲庫。

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio

輸出:

3.安裝所需的依賴項。

pip install -r requirements.txt
pip install -e .

4.安裝PyTorch、transformers和其他python包。

pip install torch torchvision torchaudio 
pip install einops timm pillow
pip install transformers==4.47.0 git+https://github.com/huggingface/accelerate
pip install git+https://github.com/huggingface/diffusers
pip install huggingface_hub
pip install sentencepiece bitsandbytes protobuf decord numpy ffmpeg

5.安裝并運行jupyter Notebook。

conda install -c conda-forge --override-channels notebook -y
conda install -c conda-forge --override-channels ipywidgets -y
jupyter notebook --allow-root

6. 如果您在遠程機器上(例如,NodeShift GPU),則需要執(zhí)行 SSH 端口轉(zhuǎn)發(fā)才能在本地瀏覽器上訪問 jupyter 筆記本會話。

替換后在本地終端運行以下命令:

<YOUR_SERVER_PORT>使用分配給遠程服務器的 PORT(對于 NodeShift 服務器 – 您可以在儀表板上已部署的 GPU 詳細信息中找到它)。

<PATH_TO_SSH_KEY>使用存儲 SSH 密鑰的位置的路徑。

<YOUR_SERVER_IP>使用遠程服務器的 IP 地址。

ssh -L 8888:localhost:8888 -p <YOUR_SERVER_PORT> -i <PATH_TO_SSH_KEY> root@<YOUR_SERVER_IP>

輸出:

復制您在遠程服務器中收到的 URL:

并將其粘貼到本地瀏覽器上以訪問 Jupyter Notebook 會話。

步驟 8:下載并運行模型

  1. 在 Jupyter 中打開一個 Python 筆記本。

2.下載模型檢查點。

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

輸出:

結論

Higgs Audio v2 展示了富有表現(xiàn)力的音頻生成領域的前沿技術,從零樣本多語言 TTS 到逼真的多說話人對話,所有這些都得益于 DualFFN 架構、統(tǒng)一音頻分詞器以及基于 1000 萬小時多樣化音頻的訓練等創(chuàng)新技術。本地安裝即可為開發(fā)者、研究人員和創(chuàng)意人員開啟這些高級功能的大門。在 NodeShift Cloud 的支持下,部署過程更加無縫,提供可擴展的計算能力、快速的存儲和集成工具,從而加速實驗和生產(chǎn)工作流程。

上一篇:

AI?Agent終極定義:程序員1張圖徹底搞懂「感知?規(guī)劃?行動」閉環(huán)

下一篇:

Chatbot 和 AI Agent 有何區(qū)別?2025 差異全解析 + 實戰(zhàn)代碼對比指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費