久久日本精品国产精品白,中文字幕一区久久久久,91在线视频福利

圖3-1 SegDiff生成的分割Mask圖

圖3-2 DiffusionDet生成的檢測框

圖像超分鐘率，圖像超分鐘率是一項能夠將低分辨年圖像重建為高分辨率圖體，同時保證圖像市藥線貫的技術。CDM(Cascaded DiffusionModel，組聯擴教模型）通過采用事聯多個擴散模型的方式，分級式地逐步放大分鐘率，實現了圖像超分鐘車，圖3-3給出了一個使用CDM實現圖像超分拼串的示例。

圖3-3 使用CDM實現圖像超分辨率

圖像修復、圖像翻譯和圖像編輯。圖像修復、圖像翻譯和圖像編輯是對圖像的部分或者全部區域執行的操作，包括缺失部分修補、分格遷移、內容替換等。Palette是一個集成了圖像修復、圖像翻譯和圖像編輯等功能的擴散模型。它可以在一個模型中完成不同的圖像級任務。圖3-4給出了一個使用Palette修復圖像的示例。

圖3-4 使用Palette修復圖像

2）時序數據預測

時序數據預測旨在根據歷史觀測數據預測未來可能出現的數據，如空氣溫度預測、股票價格預測、銷售與產能預測等。時序數據預測同樣可以視為生成任務，即基于歷史數據的基本條件來生成未來數據，因此擴散模型也能發揮作用。

TimeGrad是首個在多元概率時序數據預測任務中加入擴散思想的自回歸模型。為了將擴散過程添加到歷史數據中，TimeGrad首先使用RNN (Recurrent Neural Network，循環神經網絡）處理歷史數據并隱空間中，然后對歷史數據添加噪聲以實現擴散過程，由此處理數千維度的多元數據并完成預測任務。圖3-5展示了TimeGrad在城市交通流量預測任務中的表現。

圖3-5 TimeGrad在城市交通流量預測任務中的表現

時序數據預測在實際生活中的應用非常廣泛。在過去，傳統機器學習算法以及深度學習的RNN系列方法一直處于主導地位。如今，擴散模型以及表現出巨大的潛力，而這僅僅是個開始。

3）自然語言處理

自然語言領域也是人工智能的一個重要發展方向，旨在研究人類語言與計算機通信的相關問題，最近”爆火”的ChatGPT就是一個自然語言生成問答模型。

實際上，擴散模型同樣可以完成語言類的生成任務。只要將自然語言類的句子分調并轉換為詞向量之后，就可以通過擴散的方法來學習自然語言的語句生成，進而完成自然語言領域一些更復雜的任務，如語言翻譯、問答對話、搜索補全、情感分析、文章續寫等。

Diffusion-LM是首個將擴散模型應用到自然語言領域的擴散語言模型。該模型旨在解決如何將連續的擴散過程應用到離散的非連續化文本的問題，由此實現語言類的高細粒度可控生成。經過測試，Diffusion LM在6種可控文本生成任務中取得非常好的生成效果。

實際上，后續也有非常多的基于Diffusion-LM的應用。不過在自然語言領城，目前的主流模型仍然是GPT (Generative Pre-trained Transformer)。

4）基于文本的多模態

多模態信息指的是多種數據類型的信息，包括文本、圖像、音／視頻、3D物體等、多模態信息的交互是人工智能領域的研究熱點之一，對于AI理解人類世界、幫助人類處理多種事務具有重要意義。在諸如DALLE-2和StableDiffusion等圖像生成擴散模型以及ChatGPT等語言模型出現之后，多模態開始逐漸演變為基于文本和其他模態的交互，如文本生成圖像、文本生成視頻、文本生成3D等。

文本生成圖像。文本生成圖像是擴散模型最流行，最成熟的應用，輸入文本提示語或僅僅輸入幾個詞，擴散模型就能根據文字描述生成對應的圖片。開頭介紹的文名鼎磊的文容生成DALLE-2、Imagen以及完全開源的Stable Diffision等，都屬于文本和圖像的多模態擴散模型。圖3-6給出了幾個使用Imagen實現文字生成圖像的示例，后面將重點介紹與文本生成圖像相關的應用。

圖3-6 使用Imagen實現文字生成圖像的幾個示例

文本生成視頻。與文本生成圖像類似，文本生成視頻擴散模型能夠將輸入的文本提示語轉換為相應視頻流。不同的是，視頻的前后幀需要保持極佳的連貫性。文本生成視頻也有非常廣泛的應用，如Meta AI的Mate-A-Video（如圖3-7所示）以及能夠精細控制視頻生成的ControlNet Video等。圖3-8展示了Hugging Face上的ControlNet Video Space應用界面。

圖3-7 Meta Al的Make-A-Video：一條身看超人外衣、肩披紅色斗篷的狗在天空中翱翔

圖3-8 Hugging Face上的ControlNet Video Space應用界面

文本生成3D。同樣，文本生成3D擴散模型能夠將輸入的文本轉換為相應的3D物體。稍有不同的是，3D物體的表征有多種方式，如點云、網格、NeRF等。不同的應用在實現方式上也略有差異，例如：DiffRF提出了通過擴散的方法實現從文本生成3D輻射場的擴散模型，如圖3-9所示；基于二維圖像生成對應的3D點云，我們可以在Hugging Face上體驗官方給出的演示實例，如圖3-10所示。雖然目前文本生成3D技術仍處于起步階段，但其應用前景非常廣闊，包括室內設計、游戲建模、元宇宙數字人等。

圖3-9 使用DiffRF生成3D沙發

圖3-10 Hugging Face上的3DFuse Space界面

5）AI基礎科學

? ? ? ?Al基礎科學又稱Al for Science，它是人工智能領域具有廣闊前景的分支之一，甚至能夠發展為造福人類的技術。與AI基礎科學相關的研究成果也不止一次榮登《自然》雜志。例如，2021年DeepMind研究的AlphaFold 2可以預測人類世界98.5％的蛋白質，2022年DeepMind用強化學習控制核聚變反應堆內過熱的離子體等。

擴展模型對生成類的任務一直表現十分專業，AI基礎科學中生成預測類的研究當然也少不了擴展模型的參與。SMCDIT創建了一種擴散模型，該擴散模型可以根據給定的模體結構生成多樣化的支架蛋白質，如圖3-11所示。CDVAE則提出了一種擴散晶體變分自編碼器模型，旨在生成和優化具有固定周期性原子結構的材料，如圖3-12所示。