數據訓練

訓練過程分為幾個階段,這使得我們可以使用更多的訓練數據,以及生成不同大小的圖像。

從文本生成圖像的挑戰(zhàn)

通過諸如Kandinsky模型之類的模型將文本轉換為圖像,距離徹底改變人工智能又近了一步。然而,這種創(chuàng)新模型及其精細的過程并非免費,使用這種技術的道路總是充滿技術甚至概念挑戰(zhàn)。對于任何想要深入研究人工智能生成圖像世界的人來說,了解這些挑戰(zhàn)都至關重要。

技術限制

設置我們的環(huán)境

那么我們到底需要什么?我們將此部分分為 3 個需求部分。

軟件要求

使用 Kandinsky 模型需要具有特定庫(例如 torch、transformers 和 diffusers)的 Python 環(huán)境,正如模型文檔中強調的那樣。安裝現代版本的 Python 至關重要,通常是 Python 3.8 或更新版本。我們將在本文的編碼部分檢查所需的特定庫。

硬件要求

此外,正如我們之前所說,由于 Kandinsky 模型利用了計算密集型的潛在擴散技術,因此建議使用功能強大的 GPU 進行高效訓練和推理。NVIDIA 的 CUDA 兼容 GPU(例如 A100 或 V100)通常因其能夠以相當快的速度處理大型模型和數據集而受到青睞。如果您手頭沒有足夠的資源,您也可以利用第三方 GPU 提供商,例如 Kaggle 和 Google Colab。

權重和偏差

Weights & Biases (W&B) 是一個多功能平臺,旨在簡化機器學習工作流程。它專門用于跟蹤實驗、版本控制數據集和優(yōu)化模型。W&B 的儀表板提供有關模型性能的實時洞察,促進快速迭代和改進。對于 AI 研究人員和開發(fā)人員來說,W&B 提供了一個不可或缺的工具包,用于記錄進度、比較實驗結果以及與社區(qū)分享發(fā)現。

制作提示

有效快速工程的技術

提示是您提供給模型的文本片段,以便模型運行和處理。提示工程是一門藝術,它設計出最高效、資源消耗最少、最終結果準確的輸入文本,指導 AI 模型生成所需的輸出。

這里主要關注的是提示的清晰度和特異性。精心設計的提示不僅應傳達主題,還應傳達風格、情緒以及您希望在生成的圖像中看到的任何特定細節(jié)。

例如,不要說“風景”,你可以說“黃昏時分的雪景,反射著落日的柔和光芒,風格類似伊凡·希什金 (Ivan Shishkin)”。要具體。這種詳細的提示有助于模型理解并生成與你的想象最接近的圖像。

融入文化差異

在制作反映某些文化方面的圖像時,應理解并在提示中適當地表現出這些微妙之處。不要使用陳詞濫調或刻板印象;相反,要始終理解和尊重主題,以實現真實的表現。或者在Kandinsky的模型中,俄羅斯文化是其藝術形象的核心,也許對傳統俄羅斯藝術、建筑、民間傳說和風景的暗示會是豐富的、具有文化權重的參照物。這種敏感性將支持靈活性,不僅可以學習如何實現文化多樣性,還可以慶祝文化多樣性。

使用 W&B 跟蹤和版本提示實驗

將 W&B 集成到您的工作流程中,您可以系統地跟蹤和比較不同的提示及其結果。以下是您在 W&B 的幫助下進行實驗的方法:

wandb.log({"prompt": prompt, "generated_images": wandb.Image(image)})

上述代碼將記錄在項目中啟動 W&B 后針對提示、超參數和任何生成的圖像進行的每個實驗。這將確保提示能夠實時跟蹤,就像 wandb.log 一樣,并查看每個提示的有效性以及不同 Kandinsky 模型系列之間的差異。

用Kandinsky生成圖像

在本文的這一部分中,我們將使用 Kandinksy 2.1 和 2.2 解碼器模型生成圖像。我們將介紹環(huán)境設置、權重和偏差初始化、模型準備和圖像生成。我們將使用權重和偏差來記錄生成的圖像以及用于生成此類圖像的提示。

利用兩種模型的不同圖像,自己判斷哪個模型更好。

Step 1:設置環(huán)境

首先,確保已安裝所有必需的庫,包括 torch、transformers、diffusers 和 wandb。安裝命令可能如下所示:

!pip install torch transformers diffusers wandb

Step 2:初始化權重和偏差

在開始圖像生成實驗之前,請在腳本中初始化 W&B。此步驟可以跟蹤實驗、參數和結果。

import wandb
# Initialize a new W&B run
wandb.init(project='kandinsky-image-generation', entity='your_wandb_username')

“your_wandb_username” 替換為您實際的 W&B 用戶名。

Kandinsky模型 2.1

Step 3a:準備模型

使用 Hugging Face 擴散器庫加載 Kandinsky 模型。確保您指定了設備和任何必要的配置,例如精度。

from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("kandinsky-community/kandinsky-2-1", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()

Step 4a:生成圖像

通過向模型提供描述性文本提示來生成圖像。提示應盡可能詳細,以指導模型生成所需的圖像。

prompt = "A alien cheeseburger creature eating itself, claymation, cinematic, moody lighting"
negative_prompt = "low quality, bad quality"

生成圖像。

image = pipe(prompt=prompt, negative_prompt=negative_prompt, prior_guidance_scale =1.0, height=768, width=768).images[0]
image.save("cheeseburger_monster.png")

Step 5a:將實驗記錄到 W&B

將文本提示、生成參數和生成的圖像記錄到 W&B 進行跟蹤和版本控制。這對于實驗的可重復性和分析至關重要。

wandb.log({
"prompt": prompt,
"generated_image": wandb.Image(image)
})

Step 6a:顯示圖像

顯示或保存生成的圖像。如果您在 Jupyter 筆記本中工作,則可以直接顯示圖像。否則,將其保存到文件中。

image.save("cheeseburger_monster.png")
image

Kandinsky模型 2.2 解碼器

Step 3b:準備模型

pipeline = AutoPipelineForText2Image.from_pretrained(
"kandinsky-community/kandinsky-2-2-decoder", torch_dtype=torch.float16
).to("cuda")

# Set a seed for reproducibility
generator = torch.Generator("cuda").manual_seed(31)

Step 4b:生成圖像

prompt = "A alien cheeseburger creature eating itself, claymation, cinematic, moody lighting"
image = pipeline(prompt, generator=generator).images[0]

Step 5b:將實驗記錄到 W&B

將生成的圖像記錄到權重和偏差中。

wandb.log({
"prompt": prompt,
"generated_image": wandb.Image(image)
})

步驟 6b:顯示圖像

顯示或保存生成的圖像。如果您在 Jupyter 筆記本中工作,則可以直接顯示圖像。否則,將其保存到文件中。

image.save("cheeseburger_monster.png")
image

結論

Kandinsky模型系列代表了人工智能驅動圖像生成發(fā)展的重要里程碑。通過將先進的潛在擴散技術與對文化細微差別(特別是俄羅斯文化元素)的深刻理解相結合,這些模型不僅提高了人工智能的技術能力,還增強了其創(chuàng)作在文化和情感層面上引起共鳴的藝術作品的能力。

權重和偏差等工具的加入進一步豐富了用戶體驗,提供了一種跟蹤、評估和優(yōu)化圖像生成過程的有效方法。本指南列出了有效利用Kandinsky模型所需的理論基礎和實際步驟,確保用戶無論是新手還是經驗豐富的 AI 藝術從業(yè)者,都能充分發(fā)揮自己的潛力。隨著 AI 繼續(xù)與創(chuàng)作過程更深入地交織在一起,Kandinsky模型證明了這一激動人心的前沿領域擁有無限的可能性。

文章轉載自: A Guide to Using the Kandinsky Family of Models for Image Generation

上一篇:

GLM-4 智能對話機器人本地部署指南

下一篇:

Kandinsky 3.0 文本生成圖像的新模型
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費