
API接口重試的8種方法
除了更新文本編碼方法外,我們還對負(fù)責(zé)去除圖片噪聲的 U-Net 架構(gòu)進(jìn)行了大規(guī)模研究。主要的難題是哪種類型的層將包含大部分網(wǎng)絡(luò)參數(shù):Transformer 層還是卷積層。在對大量數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),Transformer 在圖像上的表現(xiàn)更好,但幾乎所有擴(kuò)散模型的 U-Net 架構(gòu)都是以卷積為主的。為了解決這個(gè)難題,我們分析了不同的架構(gòu),并為自己指出了以下模型:
CoAtNet 是一種結(jié)合了卷積和注意力模塊的架構(gòu)。其主要思想是,在初始階段,圖像應(yīng)通過局部卷積進(jìn)行處理,而其已壓縮的表示則通過提供圖像元素全局交互的轉(zhuǎn)換層進(jìn)行處理。
MaxViT 是一種幾乎完全基于變壓器塊的架構(gòu),但通過降低自注意力的二次復(fù)雜度來適應(yīng)處理圖像。
使用分類模型的想法受到這樣一個(gè)事實(shí)的啟發(fā):許多好的架構(gòu)解決方案都取自在 ImageNet 基準(zhǔn)上表現(xiàn)出色的模型。然而,我們的實(shí)驗(yàn)表明,質(zhì)量遷移的效果并不明確。在分類任務(wù)上表現(xiàn)最好的 MaxVit 架構(gòu)在將其轉(zhuǎn)換為 U-Net 后,在生成任務(wù)上的表現(xiàn)并不理想。在研究了上述所有架構(gòu)后,我們決定將 ResNet-50 塊作為基本的 U-Net 塊,并借用 BigGan 的論文中的想法,為其添加了另一個(gè)具有 3×3 核心的卷積層。
最終,康定斯基3.0建筑由三個(gè)主要部分組成:
訓(xùn)練使用了從互聯(lián)網(wǎng)上收集的許多文本-圖片對。這些數(shù)據(jù)經(jīng)過了眾多篩選:圖像美觀度、圖像與文本匹配、重復(fù)、分辨率和長寬比。與 Kandinsky 2.2 相比,我們擴(kuò)展了所使用的數(shù)據(jù)集,用新數(shù)據(jù)豐富了數(shù)據(jù)集,添加了俄語實(shí)體,并添加了使用最先進(jìn)的多模態(tài)模型生成描述的圖像。
訓(xùn)練過程分為幾個(gè)階段,這使得我們可以使用更多的訓(xùn)練數(shù)據(jù),以及生成不同大小的圖像。
為了比較模型,我們收集了 21 個(gè)類別的 2100 個(gè)提示,并比較了不同的 Kandinsky 3.0 權(quán)重以選出最佳的提示。為此,我們進(jìn)行了三次并排運(yùn)行,使用了 28 個(gè)標(biāo)記。然后,當(dāng)選擇了 Kandinsky 3.0 模型的最佳版本時(shí),與 Kandinsky 2.2 模型進(jìn)行了并排比較。12 個(gè)人參與了這項(xiàng)研究,總共投票 24,800 次。為此,他們開發(fā)了一個(gè)機(jī)器人,可以顯示 2,100 對圖像中的一對。每個(gè)人根據(jù)兩個(gè)標(biāo)準(zhǔn)選擇最佳圖像:
對所有類別的視覺質(zhì)量和文本理解進(jìn)行了總體比較,并對每個(gè)類別進(jìn)行了單獨(dú)比較:
以下是與康定斯基 3.0 相比的流行模型代示例:
我們的團(tuán)隊(duì)為 Fusion Brain 網(wǎng)站開發(fā)了修復(fù)/外繪模型,借助該模型,您可以編輯圖像:更改圖像內(nèi)必要的對象和整個(gè)區(qū)域( 修復(fù)方法 ),或通過外繪方法將其擴(kuò)展到巨大的全景圖,添加新的細(xì)節(jié)。修復(fù)任務(wù)比標(biāo)準(zhǔn)生成復(fù)雜得多,因?yàn)楸仨殞W(xué)習(xí)不僅從文本生成模型,還要使用圖像上下文來生成模型。
為了訓(xùn)練模型的修復(fù)部分,我們使用了 GLIDE 方法,該方法之前已在 Kandinsky 系列模型以及穩(wěn)定擴(kuò)散系列模型中實(shí)現(xiàn):U-Net 的輸入層經(jīng)過修改,以便輸入可以額外接受圖像潛在和蒙版。因此,U-Net 最多接受 9 個(gè)通道作為輸入:4 個(gè)用于原始潛在,4 個(gè)用于圖像潛在,一個(gè)額外的通道用于蒙版。從修改的角度來看,進(jìn)一步的訓(xùn)練與標(biāo)準(zhǔn)擴(kuò)散模型的訓(xùn)練并無不同
該任務(wù)的一個(gè)重要特征是如何生成蒙版以及訓(xùn)練時(shí)使用哪些文本。用戶可以使用畫筆繪制蒙版,也可以通過外繪繪制新圖像。為了考慮用戶的工作方式,我們在訓(xùn)練期間創(chuàng)建了模仿其行為的特殊蒙版:任意形狀的畫筆繪制蒙版、對象蒙版和圖像填充
因此,該模型可以很好地應(yīng)對圖像替換和圖像增強(qiáng)(參見示例)
隨著 Kandinsky 3.0 的推出,我們還更新了 Deforum,這是一項(xiàng)允許我們通過圖像到圖像的方法生成動(dòng)畫視頻的技術(shù)。
將框架適配到新模型的主要困難在于擴(kuò)散過程中噪聲添加方式的不同:Kandinsky 2.2 按照線性時(shí)間表添加噪聲(上圖),而 Kandinsky 3.0 按照余弦時(shí)間表添加噪聲(下圖)。這個(gè)特性需要大量的實(shí)驗(yàn)才能適應(yīng)。
我們推出了新的基于文本的圖像生成架構(gòu)——Kandinsky 3.0。與之前的模型相比,我們對文本和俄羅斯文化的理解有了顯著提高,我們一定會(huì)繼續(xù)朝這個(gè)方向努力。在科學(xué)方面,我們的計(jì)劃包括創(chuàng)建另一個(gè)新一代模型,它將在人工智能領(lǐng)域嶄露頭角。
人工智能和生成學(xué)習(xí)領(lǐng)域?yàn)檫M(jìn)一步發(fā)展開辟了廣闊的空間,誰知道呢,也許在不久的將來,像我們的康定斯基這樣的模型會(huì)形成一個(gè)新的現(xiàn)實(shí)——與現(xiàn)在的現(xiàn)實(shí)沒有太大區(qū)別。這些變化對人類的影響很難判斷,而且有陷入許多可疑猜測的風(fēng)險(xiǎn)。作為研究人員,我們要警惕過于悲觀和樂觀的預(yù)測。但我們可以肯定的是,這種發(fā)展無論如何都會(huì)非常有趣,需要改變我們對周圍許多事物的看法。我們?nèi)祟愡€沒有意識(shí)到生成學(xué)習(xí)的全部力量。請繼續(xù)關(guān)注,以免錯(cuò)過世界將如何改變,包括通過我們的努力!
文章轉(zhuǎn)載自:Kandinsky 3.0 — a new model for generating images from text