
如何快速實現REST API集成以優化業務流程
圖2-1 DPM-Solver++在20步采樣內實現從“一碗水果”到“一碗梨”的圖像編輯
? ? ? ?2021年5月以前,雖然擴散模型已經被應用到圖像生成領域,但它實際上在圖像生成領域并沒有”大紅大紫”,因為早期的擴散模型在所生成圖像的質量和穩定性上并不如經典的生成模型 GAN ( Generative Adversarial Network ,生成對抗網絡),真正讓擴散模型開始在研究領域”爆火”的原因是論文” Diffusion Models Beat GANs on Image Synthesis “的發表。OpenAl的這篇論文貢獻非常大,尤其是該文介紹了在擴散過程中如何使用顯式分類器引導。
更重要的是,這篇論文打敗了圖像生成領域統治多年的 GAN ,展示了擴散模型的強大潛力,使得擴散模型一舉成為圖像生成領域最火的模型,如圖2-2所示。
圖2-2 擴散模型超越GAN的圖像生成示例(左圖為BigGAN-deep模型的結果,右圖為OpenAI擴散模型的結果)
CLIP 是連接文本和圖像的模型,旨在將同一語義的文字和圖片轉換到同一個隱空間中,例如文字”一個蘋果”和圖片”一個蘋果”。正是由于這項技術和擴散模型的結合,才引起基于文字引導的文字生成圖像擴散型在圖像生成領域的徹底爆發,例如 OpenAI 的 GLIDE 、 DALL – E 、 DALL -E2(基于 DALL -E2生成的圖像如圖2-3所示), Google 的 Imagen 以及開源的 Stable Diffusion ( Stable Diffusion v2擴散模型的主頁如圖2-4示)等,優秀的文字生成圖像擴散模型層出不窮,給我們帶來無盡的驚喜。
圖2-3 基于DALL-E2生成的“拿著奶酪的貓”
圖2-4 Hugging Face的Stable Diffusion v2擴散模型的主頁
自從擴散模型走上大模型之路后,重新訓練一個圖像生成擴散模型變得非常昂貴。面對數據和計算資源高昂的成本,個人研究者想要入場進行擴散模型的相關研究已經變得非常困難。
? ? ? ?但實際上,像開源的 Stable Diffusion 這樣的擴散模型已經出色地學習到非常多的圖像生成知識,因此不需要也沒有必要重新訓練類似的擴散模型。于是,許多基于現有的擴散模型進行”再學習”的技術自然而然地涌現,這也使得個人在消費級顯卡上訓練自己的擴散模型成為可能。DreamBooth 、 LoRA和 ControlNet 是實現大模型”再學習”的不同方法,它們是針對不同的任務而提出的。
DreamBooth 可以實現使用現有模型再學習到指定主體圖像的功能,只要通過少量訓練將主體綁定到唯一的文本標識符后,就可以通過輸入文本提示語來控制自己的主體以生成不同的圖像,如圖2-5所示。
圖2-5 使用 DreamBooth 將小狗嵌入圖像中并生成不同場景下的小狗
LoRA 可以實現使用現有模型再學習到自己指定數據集風格或人物的功能,并且還能夠將其融入現有的圖像生成中。Hugging Face 提供了訓練 LoRA 的 UI 界面,如圖2-6所示。
圖2-6 Hugging Face 提供的 LoRA 訓練界面
ControlNet 可以再學習到更多模態的信息,并利用分割圖、邊緣圖等功能更精細地控制圖像的生成。第7章將對 ControlNet 進行更加細致的講解。
圖像生成擴散模型”爆火”之后,緣于技術的成熟加上關注度的提高以及上手簡易等,網絡上的擴散模型”百花齊放”,越來越多的人開始使用擴散模型來生成圖像。
? ? ? ?眾多提供成熟圖像生成解決方案的公司應運而生。例如,圖像生成服務提供商 Midjourney 實現了用戶可以通過 Midjourney 的 Discord 頻道主頁(如圖2-7所示)輸入提示語來生成圖像,也可以跟全世界的用起分享和探討圖像生成的細節。此外通過 Stability Al 公司開發的圖像生成工具箱 DreamStudio (如圖2-8所示),用戶既可以使用提示語來編輯圖像,也可以將其 SDK 嵌入自己的應用或者作為 Photoshop 播件包當然, Photoshop 也有自己的基于擴散模型的圖像編輯工具庫 Adobe Firefly (如圖2-9所示),用戶可以基于 Photoshop 傳統的選區等精細控制功能來更高效地生成圖像。
圖2-7 Midjourmey 的 Discora 頻道主頁
圖2-8 Stability Al公司開發的DreamStudio
圖2-9 Adobe的圖像編輯工具庫 Adobe Firefly
百度公司推出了文心一格 AI 創作平臺(如圖2-10所示),而阿里巴巴達摩院也提出了自己的通義文生圖大模型等。除了頭部企業以外,一些創業公司也開始嶄露頭角,退格網絡推出的 Tiamat 圖像生成工具已獲多輪投資,由該工具生成的精美概念場景圖像登陸上海地鐵廣告牌。北京毛線球科技有限公司開發的6pen Art 圖像生成 APP (如圖2-11所示)將圖像生成帶到手機端,使用戶在手機上就能體驗 AI 作畫。
圖2-10 百度公司的文心一格 AI 創作平臺
圖2-11 6pen Art 圖像生成 APP
眾多的服務商致力于以最成熟、最簡單的方式讓大眾能夠通過輸入文字或圖片的方式生成想要的圖像,真正開啟了 AI 作畫時代。
文章轉自微信公眾號@ArronAI