鍵.png)
使用這些基本 REST API 最佳實踐構(gòu)建出色的 API
關(guān)鍵詞:擴散模型 · 生成建模 · 合成數(shù)據(jù)生成 · 圖像合成 · 圖像到圖像轉(zhuǎn)換 · 文本到圖像生成 · 音頻合成 · 時間序列預(yù)測 · 異常檢測 · 醫(yī)學(xué)影像 · 數(shù)據(jù)增強 · 計算效率 · 不確定性量化 · 黎曼流形 · 分子動力學(xué) · 超分辨率 · 語義圖像合成 · 零樣本分類 · 大氣湍流校正
擴散模型(Diffusion Model,DM)是一類通過逆向擴散過程生成數(shù)據(jù)的生成模型,該過程逐步向數(shù)據(jù)中添加噪聲,直至其變?yōu)楦咚狗植肌_@些模型首次由Sohl-Dickstein等人于2015年提出,已在圖像、音頻和視頻合成等多個領(lǐng)域展示了出色的性能,能夠生成高質(zhì)量的樣本 。該過程涉及一個迭代程序,模型在每一步訓(xùn)練時預(yù)測已添加到樣本中的噪聲,實質(zhì)上是在學(xué)習(xí)對數(shù)據(jù)進行去噪。這種方法顯著推動了生成細致且連貫輸出的能力,使得DM成為諸如文本到圖像合成和提高低分辨率圖像等任務(wù)的強大工具 [3]。圖1展示了用于高分辨率圖像合成的擴散模型。
擴散模型(DM)已在多個領(lǐng)域中變得流行,尤其是在圖像生成領(lǐng)域,它們能夠基于文本描述創(chuàng)建逼真的圖像、藝術(shù)作品和編輯內(nèi)容。在自然語言處理(NLP)中,DM也逐漸流行,用于文本生成和增強,展現(xiàn)了生成連貫且上下文相關(guān)文本的能力。在音頻合成中,DM被用于生成逼真的聲景、音樂和擬人化的語音,推動了創(chuàng)意和交流人工智能(AI)應(yīng)用的邊界。此外,它們的應(yīng)用還擴展到分子和材料科學(xué)領(lǐng)域,用于設(shè)計新的化學(xué)化合物和材料,展示了其多樣性。DM的流行源于其穩(wěn)健性、靈活性和生成高保真度輸出的能力,使其成為AI驅(qū)動的創(chuàng)意和科學(xué)領(lǐng)域中的突破性工具。
圖2提供了過去五年在各種學(xué)科中發(fā)表的關(guān)于DM的論文的統(tǒng)計概覽。從圖2(a)中可以看出,自2020年以來,發(fā)表的論文數(shù)量一直在不斷增長。圖2(b)顯示,醫(yī)學(xué)領(lǐng)域的論文占比29%,居首位,其次是計算機科學(xué),占17%,以及工程學(xué),占14%。化學(xué)和材料科學(xué)等領(lǐng)域的論文較少,分別占總量的4%和6%。這些趨勢突顯了DM在醫(yī)學(xué)和計算機科學(xué)中的廣泛應(yīng)用,而在其他領(lǐng)域的潛力尚未得到充分探索。
本綜述旨在為DM在各個領(lǐng)域的應(yīng)用提供全面概述,幫助廣泛受眾理解其能力和多樣性。通過展示多樣的應(yīng)用,本綜述鼓勵跨學(xué)科合作和創(chuàng)新,潛在地解決超出傳統(tǒng)應(yīng)用如計算機視覺領(lǐng)域的未探索領(lǐng)域中的開放挑戰(zhàn)。
DM在各個領(lǐng)域的快速進展展示了其潛力和多樣性。盡管相關(guān)出版物數(shù)量不斷增加,但現(xiàn)有的綜述通常集中于特定應(yīng)用或狹窄領(lǐng)域,未能涵蓋DM應(yīng)用的廣泛范圍。考慮到這一機會,本綜述旨在通過提供DM的全面概述來填補現(xiàn)有文獻中的空白。
我們的貢獻總結(jié)如下:
本綜述涵蓋了DM的多個關(guān)鍵方面,包括理論、算法、創(chuàng)新、媒體質(zhì)量、圖像轉(zhuǎn)換、醫(yī)療應(yīng)用等。我們概述了截至2024年3月的相關(guān)文獻,突出最新的技術(shù)和進展。
我們將DM分為三大類:去噪擴散概率模型(DDPM)、噪聲條件分數(shù)網(wǎng)絡(luò)(NCSN)和隨機微分方程(SDE),有助于理解其理論基礎(chǔ)和算法變種。
我們重點介紹了與DM應(yīng)用相關(guān)的創(chuàng)新方法和實驗方法,涵蓋數(shù)據(jù)類型、算法、應(yīng)用、數(shù)據(jù)集、評估和限制。
最后,我們討論了研究結(jié)果,識別了未解決的問題,并提出了關(guān)于DM未來研究方向的疑問,旨在為研究人員和實踐者提供指導(dǎo)。
圖3基于本研究中引用的文獻展示了DM的框架,在第2至第8節(jié)中進行了討論。
數(shù)據(jù)來源于Scopus,初步通過標(biāo)題、摘要和關(guān)鍵詞使用搜索詞“Diffusion Model” AND (“image” OR “audio” OR “text” OR “speech”)篩選出3746篇文章。將搜索范圍限制為2020年至2024年間發(fā)表的英文、同行評審和開放獲取的論文后,數(shù)量減少至473篇。進一步過濾排除了“human”(人類)、“controlled study”(對照研究)、“job analysis”(工作分析)、“quantitative analysis”(定量分析)、“comparative study”(比較研究)、“specificity”(特異性)等無關(guān)的關(guān)鍵詞,最終篩選出326篇文章。
一位研究人員(Y.L.)將這326篇期刊文章導(dǎo)入Excel CSV文件以供詳細分析。隨后,利用Excel的重復(fù)檢測工具識別并刪除重復(fù)項。兩位獨立評審者(M.A.和Z.S.)評估了剩余論文的標(biāo)題和摘要,確定了65篇相關(guān)文獻。此外,還納入了另外20篇相關(guān)文獻,最終涵蓋了來自各個領(lǐng)域的85篇論文。
擴散模型(DM)是一類通過模擬擴散過程來構(gòu)建或重建數(shù)據(jù)分布的生成模型,這一過程通過隨機過程實現(xiàn)。這包括一個雙階段操作,在該操作中逐步添加噪聲,并隨后進行反向操作 。DM的算法骨干包含幾個關(guān)鍵階段 :
多年來,已經(jīng)提出了幾種基于擴散的模型,每一種都在生成建模的進步中作出了獨特貢獻。圖4展示了一些重要和有影響力的擴散模型及其時間線。其中,有三種擴散模型因其對各種應(yīng)用的影響而非常流行并廣泛采用:去噪擴散概率模型(DDPMs)、噪聲條件分數(shù)網(wǎng)絡(luò)(NCSNs)和隨機微分方程(SDEs)。
近年來,由于擴散模型(DM)能夠生成高質(zhì)量、逼真且多樣化數(shù)據(jù)樣本的能力,受到了極大的關(guān)注,并在多個前沿應(yīng)用領(lǐng)域中得到了廣泛部署。DM的應(yīng)用范圍廣泛,以下是幾個最受歡迎的領(lǐng)域:
圖像合成:DM用于從噪聲分布中創(chuàng)建詳細的高分辨率圖像。它們可以生成新圖像或通過提高清晰度和分辨率來改善現(xiàn)有圖像,使其在數(shù)字藝術(shù)和圖形設(shè)計等領(lǐng)域中尤為有用。
文本生成:DM能夠生成連貫且上下文相關(guān)的文本序列。這使其適用于諸如創(chuàng)作文學(xué)內(nèi)容、在虛擬助手中生成逼真的對話以及自動生成新聞文章或創(chuàng)意寫作的內(nèi)容。
音頻合成:DM能夠從噪聲信號中生成清晰且逼真的音頻。這在音樂制作中非常有價值,因為需要創(chuàng)建新的聲音或改善錄制音頻的清晰度,還包括在各種輔助設(shè)備中使用的語音合成技術(shù)。
醫(yī)療保健應(yīng)用:盡管不限于醫(yī)學(xué)影像,DM在合成醫(yī)療數(shù)據(jù)方面發(fā)揮了重要作用,包括磁共振成像(MRI)、計算機斷層掃描(CT)以及其他影像模態(tài)。這種能力對于培訓(xùn)醫(yī)療專業(yè)人員、改進診斷工具以及開發(fā)更精確的治療策略至關(guān)重要,同時不會影響患者隱私。
表1總結(jié)了近幾年間一些著名的DM論文,提出的算法、使用的數(shù)據(jù)集和應(yīng)用。不同顏色用于區(qū)分各種算法和應(yīng)用類型。從表1中可以看出,大多數(shù)論文主要集中在基于圖像的應(yīng)用上,如圖像生成、分割和重建。
擴散模型(DM)通過生成逼真的樣本來解決數(shù)據(jù)生成和處理中的挑戰(zhàn),有望在許多領(lǐng)域帶來變革。因此,解決當(dāng)前的局限性并在DM的優(yōu)勢基礎(chǔ)上進行改進,將使其在未來各個領(lǐng)域得到更廣泛的應(yīng)用并產(chǎn)生更大的影響。我們的研究發(fā)現(xiàn),DM生成高質(zhì)量合成數(shù)據(jù)的能力提高了應(yīng)用中的表現(xiàn),如文本到圖像生成,其中像Diffusion Transformers(DT)用于穩(wěn)定擴散的模型在數(shù)據(jù)隱私方面展示了進展。在網(wǎng)絡(luò)物理系統(tǒng)安全中,時序和特征TFDPM通過使用圖注意網(wǎng)絡(luò)(Graph Attention Networks)關(guān)聯(lián)通道數(shù)據(jù)來幫助檢測攻擊。此外,在云服務(wù)異常檢測中,像Maat這樣的模型通過結(jié)合度量預(yù)測和異常檢測來實現(xiàn)更高的準(zhǔn)確性。
在圖像處理方面,基于擴散的技術(shù)在圖像去模糊和超分辨率等任務(wù)中表現(xiàn)出色。例如,使用DM進行的隨機圖像去模糊在感知圖像塊相似性和結(jié)構(gòu)相似性指數(shù)測量上取得了高分。此外,用于MRI重建的加速CMD在提高圖像質(zhì)量方面展現(xiàn)了潛力。此外,選擇性擴散蒸餾方法在平衡圖像保真度和可編輯性方面表現(xiàn)出色,適用于各種圖像操作任務(wù)。
然而,盡管DM可以生成逼真的數(shù)據(jù),它們也引發(fā)了倫理問題。一個主要問題是潛在的濫用,例如創(chuàng)建深度偽造和合成媒體,可能會傳播虛假信息或侵犯隱私。為了降低這一風(fēng)險,建立強大的檢測機制至關(guān)重要。確保模型保持公正性也同樣重要,這可以通過引入公平性算法和多樣化的訓(xùn)練數(shù)據(jù)來實現(xiàn)。此外,DM的透明度和可解釋性至關(guān)重要,LIME和SHAP等技術(shù)可以提供模型生成結(jié)果的洞見。除此之外,還需要確保數(shù)據(jù)符合GDPR和健康隱私保護法(HIPAA)等法規(guī)的要求。
高計算需求和對更好采樣或網(wǎng)絡(luò)架構(gòu)的需求是DM中反復(fù)出現(xiàn)的問題。模型通常需要廣泛的超參數(shù)調(diào)優(yōu),并且可能在離散信號建模或在不同上下文中泛化方面遇到困難。此外,對某些模型而言,為語義引導(dǎo)選擇正確的時間步可能會限制其靈活性。較慢的推理速度和高資源需求阻礙了實時部署和可擴展性。
因此,未來的研究應(yīng)通過開發(fā)更高效的算法和利用計算技術(shù)的進步來解決這些局限性。探索半監(jiān)督或無監(jiān)督學(xué)習(xí)方法,并結(jié)合預(yù)訓(xùn)練模型的遷移學(xué)習(xí),可以幫助克服數(shù)據(jù)稀缺問題。提高DM對噪聲的魯棒性及其處理不同數(shù)據(jù)類型的能力至關(guān)重要。此外,持續(xù)的跨學(xué)科合作和明確的倫理準(zhǔn)則對于在各個領(lǐng)域中負責(zé)任且有效地使用DM至關(guān)重要。
文章轉(zhuǎn)自微信公眾號@算法進階