除了更新文本編碼方法外,我們還對負(fù)責(zé)去除圖片噪聲的 U-Net 架構(gòu)進(jìn)行了大規(guī)模研究。主要的難題是哪種類型的層將包含大部分網(wǎng)絡(luò)參數(shù):Transformer 層還是卷積層。在對大量數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),Transformer 在圖像上的表現(xiàn)更好,但幾乎所有擴(kuò)散模型的 U-Net 架構(gòu)都是以卷積為主的。為了解決這個(gè)難題,我們分析了不同的架構(gòu),并為自己指出了以下模型:

CoAtNet 是一種結(jié)合了卷積和注意力模塊的架構(gòu)。其主要思想是,在初始階段,圖像應(yīng)通過局部卷積進(jìn)行處理,而其已壓縮的表示則通過提供圖像元素全局交互的轉(zhuǎn)換層進(jìn)行處理。

MaxViT 是一種幾乎完全基于變壓器塊的架構(gòu),但通過降低自注意力的二次復(fù)雜度來適應(yīng)處理圖像。

使用分類模型的想法受到這樣一個(gè)事實(shí)的啟發(fā):許多好的架構(gòu)解決方案都取自在 ImageNet 基準(zhǔn)上表現(xiàn)出色的模型。然而,我們的實(shí)驗(yàn)表明,質(zhì)量遷移的效果并不明確。在分類任務(wù)上表現(xiàn)最好的 MaxVit 架構(gòu)在將其轉(zhuǎn)換為 U-Net 后,在生成任務(wù)上的表現(xiàn)并不理想。在研究了上述所有架構(gòu)后,我們決定將 ResNet-50 塊作為基本的 U-Net 塊,并借用 BigGan 的論文中的想法,為其添加了另一個(gè)具有 3×3 核心的卷積層。

最終,康定斯基3.0建筑由三個(gè)主要部分組成:

與競爭對手的比較

Kandinsky 3.0 模型訓(xùn)練數(shù)據(jù)

訓(xùn)練使用了從互聯(lián)網(wǎng)上收集的許多文本-圖片對。這些數(shù)據(jù)經(jīng)過了眾多篩選:圖像美觀度、圖像與文本匹配、重復(fù)、分辨率和長寬比。與 Kandinsky 2.2 相比,我們擴(kuò)展了所使用的數(shù)據(jù)集,用新數(shù)據(jù)豐富了數(shù)據(jù)集,添加了俄語實(shí)體,并添加了使用最先進(jìn)的多模態(tài)模型生成描述的圖像。

訓(xùn)練過程分為幾個(gè)階段,這使得我們可以使用更多的訓(xùn)練數(shù)據(jù),以及生成不同大小的圖像。

Kandinsky 3.0 文本生成圖像示例

鉤針編織藝術(shù)風(fēng)格的美麗戶外風(fēng)景,由 Alfons Mucha 繪制
汽車、野馬、電影、人物、海報(bào)、車罩、人物、亞歷山德羅·戈塔多的風(fēng)格、金色和青色、杰拉爾德·哈維·瓊斯、反射、高度詳細(xì)的插圖、工業(yè)城市場景
美麗的童話沙漠,天空中一波沙與銀河融為一體,星星,宇宙主義,數(shù)字藝術(shù),8k
抽象畫由黃色和紅色、黑色和白色以及綠色色調(diào)組成,采用紅色和橙色的風(fēng)格,抽象具象大師、伊博藝術(shù)、狂熱行動(dòng)繪畫、澳大利亞原住民、袋鼠、仙人掌磨損、安古拉凱
白色背景圖像和 Daz3d 風(fēng)格充氣 Kitty 貓出汗娃娃,簡化的 Kitty 貓圖像,超高清圖像,透明/半透明介質(zhì),8k,c4d,oc,blende
丹麥峽灣邊緣的一座黃色房子,風(fēng)格類似埃科·奧亞拉、英格麗德·巴爾斯、廣告海報(bào)、山景、喬治·奧特、逼真的細(xì)節(jié)、深白色和深灰色,4k
火龍果頭,上身,逼真,Joshua Hoffine Norman Rockwell 的插圖,恐怖,令人毛骨悚然,生物黑客,未來主義,扎哈·哈迪德風(fēng)格
紫色的花朵坐落在郁郁蔥蔥的綠色田野之上,靈感來自 Mike Winkelmann、仙人掌、可愛的 c4d、海上朋克、粉紅色的風(fēng)景、拋光的原始水域、迷人的夢想、夢想。instagram、沙漠綠洲、cgsocciety、數(shù)字藝術(shù)、3D 渲染、4k

Kandinsky 3.0 比較結(jié)果與生成示例

為了比較模型,我們收集了 21 個(gè)類別的 2100 個(gè)提示,并比較了不同的 Kandinsky 3.0 權(quán)重以選出最佳的提示。為此,我們進(jìn)行了三次并排運(yùn)行,使用了 28 個(gè)標(biāo)記。然后,當(dāng)選擇了 Kandinsky 3.0 模型的最佳版本時(shí),與 Kandinsky 2.2 模型進(jìn)行了并排比較。12 個(gè)人參與了這項(xiàng)研究,總共投票 24,800 次。為此,他們開發(fā)了一個(gè)機(jī)器人,可以顯示 2,100 對圖像中的一對。每個(gè)人根據(jù)兩個(gè)標(biāo)準(zhǔn)選擇最佳圖像:

對所有類別的視覺質(zhì)量和文本理解進(jìn)行了總體比較,并對每個(gè)類別進(jìn)行了單獨(dú)比較:

以下是與康定斯基 3.0 相比的流行模型代示例:

美麗的女孩
這是一幅非常精細(xì)的數(shù)字繪畫,描繪了一座神秘森林中的門戶,森林里有許多美麗的樹木。一個(gè)人站在門戶前。
留著胡子的男人
一張 4K 數(shù)碼單反相機(jī)拍攝的照片,一只刺猬坐在池塘中央的一艘小船上。它穿著夏威夷襯衫,戴著草帽。它正在看書。背景中有幾片樹葉。
芭比和肯正在購物
奢華的令人垂涎欲滴的漢堡,配有各種配料。突出層次和質(zhì)感
一只戴著俄羅斯民族帽子、拿著巴拉萊卡琴的熊

修復(fù) + 修復(fù)外貌

我們的團(tuán)隊(duì)為 Fusion Brain 網(wǎng)站開發(fā)了修復(fù)/外繪模型,借助該模型,您可以編輯圖像:更改圖像內(nèi)必要的對象和整個(gè)區(qū)域( 修復(fù)方法 ),或通過外繪方法將其擴(kuò)展到巨大的全景圖,添加新的細(xì)節(jié)。修復(fù)任務(wù)比標(biāo)準(zhǔn)生成復(fù)雜得多,因?yàn)楸仨殞W(xué)習(xí)不僅從文本生成模型,還要使用圖像上下文來生成模型。

為了訓(xùn)練模型的修復(fù)部分,我們使用了 GLIDE 方法,該方法之前已在 Kandinsky 系列模型以及穩(wěn)定擴(kuò)散系列模型中實(shí)現(xiàn):U-Net 的輸入層經(jīng)過修改,以便輸入可以額外接受圖像潛在和蒙版。因此,U-Net 最多接受 9 個(gè)通道作為輸入:4 個(gè)用于原始潛在,4 個(gè)用于圖像潛在,一個(gè)額外的通道用于蒙版。從修改的角度來看,進(jìn)一步的訓(xùn)練與標(biāo)準(zhǔn)擴(kuò)散模型的訓(xùn)練并無不同

該任務(wù)的一個(gè)重要特征是如何生成蒙版以及訓(xùn)練時(shí)使用哪些文本。用戶可以使用畫筆繪制蒙版,也可以通過外繪繪制新圖像。為了考慮用戶的工作方式,我們在訓(xùn)練期間創(chuàng)建了模仿其行為的特殊蒙版:任意形狀的畫筆繪制蒙版、對象蒙版和圖像填充

因此,該模型可以很好地應(yīng)對圖像替換和圖像增強(qiáng)(參見示例)

修復(fù)示例

火箭
一艘大船在河里航行
坐在長凳上的機(jī)器人

Outpainting 示例

日落時(shí)分,摩天大樓林立的未來主義城市景觀
寧靜的海灘日落,棕櫚樹和溫柔的海浪
一片神秘的森林,有高聳的古樹和發(fā)光的蘑菇

Deforum

隨著 Kandinsky 3.0 的推出,我們還更新了 Deforum,這是一項(xiàng)允許我們通過圖像到圖像的方法生成動(dòng)畫視頻的技術(shù)。

將框架適配到新模型的主要困難在于擴(kuò)散過程中噪聲添加方式的不同:Kandinsky 2.2 按照線性時(shí)間表添加噪聲(上圖),而 Kandinsky 3.0 按照余弦時(shí)間表添加噪聲(下圖)。這個(gè)特性需要大量的實(shí)驗(yàn)才能適應(yīng)。

動(dòng)畫示例

美麗的女人,深色頭發(fā),雀斑,大牡丹和玫瑰花冠,美麗的漸變粉色背景,頂燈,專業(yè)攝影,工作室攝影,4k;模式:“直播”
極致細(xì)節(jié)、8k、超高品質(zhì)、杰作、景深、柔和的燈光、插圖、非常可愛逼真的切布拉特卡,身穿夾克,手里拿著橘子,錯(cuò)綜復(fù)雜的清晰細(xì)節(jié),b 維照明,令人難以置信的細(xì)節(jié)比例,令人難以置信的細(xì)節(jié)眼睛,大耳朵,令人難以置信的細(xì)節(jié)特寫視圖,彩虹光,詳細(xì)的透明涂層,雪,冬季城市,煙花,燈光,電光花,花環(huán),歡樂,笑聲,微笑,善良,幸福
超級美麗的冬季森林

結(jié)論和計(jì)劃

我們推出了新的基于文本的圖像生成架構(gòu)——Kandinsky 3.0。與之前的模型相比,我們對文本和俄羅斯文化的理解有了顯著提高,我們一定會(huì)繼續(xù)朝這個(gè)方向努力。在科學(xué)方面,我們的計(jì)劃包括創(chuàng)建另一個(gè)新一代模型,它將在人工智能領(lǐng)域嶄露頭角。
人工智能和生成學(xué)習(xí)領(lǐng)域?yàn)檫M(jìn)一步發(fā)展開辟了廣闊的空間,誰知道呢,也許在不久的將來,像我們的康定斯基這樣的模型會(huì)形成一個(gè)新的現(xiàn)實(shí)——與現(xiàn)在的現(xiàn)實(shí)沒有太大區(qū)別。這些變化對人類的影響很難判斷,而且有陷入許多可疑猜測的風(fēng)險(xiǎn)。作為研究人員,我們要警惕過于悲觀和樂觀的預(yù)測。但我們可以肯定的是,這種發(fā)展無論如何都會(huì)非常有趣,需要改變我們對周圍許多事物的看法。我們?nèi)祟愡€沒有意識(shí)到生成學(xué)習(xí)的全部力量。請繼續(xù)關(guān)注,以免錯(cuò)過世界將如何改變,包括通過我們的努力!

文章轉(zhuǎn)載自:Kandinsky 3.0 — a new model for generating images from text

上一篇:

使用Kandinsky模型系列進(jìn)行圖像生成的指南

下一篇:

掌握Kandinsky 3.0常用提示詞的技巧
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)