
使用這些基本 REST API 最佳實踐構建出色的 API
關鍵詞:擴散模型 · 生成建模 · 合成數據生成 · 圖像合成 · 圖像到圖像轉換 · 文本到圖像生成 · 音頻合成 · 時間序列預測 · 異常檢測 · 醫(yī)學影像 · 數據增強 · 計算效率 · 不確定性量化 · 黎曼流形 · 分子動力學 · 超分辨率 · 語義圖像合成 · 零樣本分類 · 大氣湍流校正
擴散模型(Diffusion Model,DM)是一類通過逆向擴散過程生成數據的生成模型,該過程逐步向數據中添加噪聲,直至其變?yōu)楦咚狗植肌_@些模型首次由Sohl-Dickstein等人于2015年提出,已在圖像、音頻和視頻合成等多個領域展示了出色的性能,能夠生成高質量的樣本 。該過程涉及一個迭代程序,模型在每一步訓練時預測已添加到樣本中的噪聲,實質上是在學習對數據進行去噪。這種方法顯著推動了生成細致且連貫輸出的能力,使得DM成為諸如文本到圖像合成和提高低分辨率圖像等任務的強大工具 [3]。圖1展示了用于高分辨率圖像合成的擴散模型。
擴散模型(DM)已在多個領域中變得流行,尤其是在圖像生成領域,它們能夠基于文本描述創(chuàng)建逼真的圖像、藝術作品和編輯內容。在自然語言處理(NLP)中,DM也逐漸流行,用于文本生成和增強,展現了生成連貫且上下文相關文本的能力。在音頻合成中,DM被用于生成逼真的聲景、音樂和擬人化的語音,推動了創(chuàng)意和交流人工智能(AI)應用的邊界。此外,它們的應用還擴展到分子和材料科學領域,用于設計新的化學化合物和材料,展示了其多樣性。DM的流行源于其穩(wěn)健性、靈活性和生成高保真度輸出的能力,使其成為AI驅動的創(chuàng)意和科學領域中的突破性工具。
圖2提供了過去五年在各種學科中發(fā)表的關于DM的論文的統計概覽。從圖2(a)中可以看出,自2020年以來,發(fā)表的論文數量一直在不斷增長。圖2(b)顯示,醫(yī)學領域的論文占比29%,居首位,其次是計算機科學,占17%,以及工程學,占14%。化學和材料科學等領域的論文較少,分別占總量的4%和6%。這些趨勢突顯了DM在醫(yī)學和計算機科學中的廣泛應用,而在其他領域的潛力尚未得到充分探索。
本綜述旨在為DM在各個領域的應用提供全面概述,幫助廣泛受眾理解其能力和多樣性。通過展示多樣的應用,本綜述鼓勵跨學科合作和創(chuàng)新,潛在地解決超出傳統應用如計算機視覺領域的未探索領域中的開放挑戰(zhàn)。
DM在各個領域的快速進展展示了其潛力和多樣性。盡管相關出版物數量不斷增加,但現有的綜述通常集中于特定應用或狹窄領域,未能涵蓋DM應用的廣泛范圍。考慮到這一機會,本綜述旨在通過提供DM的全面概述來填補現有文獻中的空白。
我們的貢獻總結如下:
本綜述涵蓋了DM的多個關鍵方面,包括理論、算法、創(chuàng)新、媒體質量、圖像轉換、醫(yī)療應用等。我們概述了截至2024年3月的相關文獻,突出最新的技術和進展。
我們將DM分為三大類:去噪擴散概率模型(DDPM)、噪聲條件分數網絡(NCSN)和隨機微分方程(SDE),有助于理解其理論基礎和算法變種。
我們重點介紹了與DM應用相關的創(chuàng)新方法和實驗方法,涵蓋數據類型、算法、應用、數據集、評估和限制。
最后,我們討論了研究結果,識別了未解決的問題,并提出了關于DM未來研究方向的疑問,旨在為研究人員和實踐者提供指導。
圖3基于本研究中引用的文獻展示了DM的框架,在第2至第8節(jié)中進行了討論。
數據來源于Scopus,初步通過標題、摘要和關鍵詞使用搜索詞“Diffusion Model” AND (“image” OR “audio” OR “text” OR “speech”)篩選出3746篇文章。將搜索范圍限制為2020年至2024年間發(fā)表的英文、同行評審和開放獲取的論文后,數量減少至473篇。進一步過濾排除了“human”(人類)、“controlled study”(對照研究)、“job analysis”(工作分析)、“quantitative analysis”(定量分析)、“comparative study”(比較研究)、“specificity”(特異性)等無關的關鍵詞,最終篩選出326篇文章。
一位研究人員(Y.L.)將這326篇期刊文章導入Excel CSV文件以供詳細分析。隨后,利用Excel的重復檢測工具識別并刪除重復項。兩位獨立評審者(M.A.和Z.S.)評估了剩余論文的標題和摘要,確定了65篇相關文獻。此外,還納入了另外20篇相關文獻,最終涵蓋了來自各個領域的85篇論文。
擴散模型(DM)是一類通過模擬擴散過程來構建或重建數據分布的生成模型,這一過程通過隨機過程實現。這包括一個雙階段操作,在該操作中逐步添加噪聲,并隨后進行反向操作 。DM的算法骨干包含幾個關鍵階段 :
多年來,已經提出了幾種基于擴散的模型,每一種都在生成建模的進步中作出了獨特貢獻。圖4展示了一些重要和有影響力的擴散模型及其時間線。其中,有三種擴散模型因其對各種應用的影響而非常流行并廣泛采用:去噪擴散概率模型(DDPMs)、噪聲條件分數網絡(NCSNs)和隨機微分方程(SDEs)。
近年來,由于擴散模型(DM)能夠生成高質量、逼真且多樣化數據樣本的能力,受到了極大的關注,并在多個前沿應用領域中得到了廣泛部署。DM的應用范圍廣泛,以下是幾個最受歡迎的領域:
圖像合成:DM用于從噪聲分布中創(chuàng)建詳細的高分辨率圖像。它們可以生成新圖像或通過提高清晰度和分辨率來改善現有圖像,使其在數字藝術和圖形設計等領域中尤為有用。
文本生成:DM能夠生成連貫且上下文相關的文本序列。這使其適用于諸如創(chuàng)作文學內容、在虛擬助手中生成逼真的對話以及自動生成新聞文章或創(chuàng)意寫作的內容。
音頻合成:DM能夠從噪聲信號中生成清晰且逼真的音頻。這在音樂制作中非常有價值,因為需要創(chuàng)建新的聲音或改善錄制音頻的清晰度,還包括在各種輔助設備中使用的語音合成技術。
醫(yī)療保健應用:盡管不限于醫(yī)學影像,DM在合成醫(yī)療數據方面發(fā)揮了重要作用,包括磁共振成像(MRI)、計算機斷層掃描(CT)以及其他影像模態(tài)。這種能力對于培訓醫(yī)療專業(yè)人員、改進診斷工具以及開發(fā)更精確的治療策略至關重要,同時不會影響患者隱私。
表1總結了近幾年間一些著名的DM論文,提出的算法、使用的數據集和應用。不同顏色用于區(qū)分各種算法和應用類型。從表1中可以看出,大多數論文主要集中在基于圖像的應用上,如圖像生成、分割和重建。
擴散模型(DM)通過生成逼真的樣本來解決數據生成和處理中的挑戰(zhàn),有望在許多領域帶來變革。因此,解決當前的局限性并在DM的優(yōu)勢基礎上進行改進,將使其在未來各個領域得到更廣泛的應用并產生更大的影響。我們的研究發(fā)現,DM生成高質量合成數據的能力提高了應用中的表現,如文本到圖像生成,其中像Diffusion Transformers(DT)用于穩(wěn)定擴散的模型在數據隱私方面展示了進展。在網絡物理系統安全中,時序和特征TFDPM通過使用圖注意網絡(Graph Attention Networks)關聯通道數據來幫助檢測攻擊。此外,在云服務異常檢測中,像Maat這樣的模型通過結合度量預測和異常檢測來實現更高的準確性。
在圖像處理方面,基于擴散的技術在圖像去模糊和超分辨率等任務中表現出色。例如,使用DM進行的隨機圖像去模糊在感知圖像塊相似性和結構相似性指數測量上取得了高分。此外,用于MRI重建的加速CMD在提高圖像質量方面展現了潛力。此外,選擇性擴散蒸餾方法在平衡圖像保真度和可編輯性方面表現出色,適用于各種圖像操作任務。
然而,盡管DM可以生成逼真的數據,它們也引發(fā)了倫理問題。一個主要問題是潛在的濫用,例如創(chuàng)建深度偽造和合成媒體,可能會傳播虛假信息或侵犯隱私。為了降低這一風險,建立強大的檢測機制至關重要。確保模型保持公正性也同樣重要,這可以通過引入公平性算法和多樣化的訓練數據來實現。此外,DM的透明度和可解釋性至關重要,LIME和SHAP等技術可以提供模型生成結果的洞見。除此之外,還需要確保數據符合GDPR和健康隱私保護法(HIPAA)等法規(guī)的要求。
高計算需求和對更好采樣或網絡架構的需求是DM中反復出現的問題。模型通常需要廣泛的超參數調優(yōu),并且可能在離散信號建模或在不同上下文中泛化方面遇到困難。此外,對某些模型而言,為語義引導選擇正確的時間步可能會限制其靈活性。較慢的推理速度和高資源需求阻礙了實時部署和可擴展性。
因此,未來的研究應通過開發(fā)更高效的算法和利用計算技術的進步來解決這些局限性。探索半監(jiān)督或無監(jiān)督學習方法,并結合預訓練模型的遷移學習,可以幫助克服數據稀缺問題。提高DM對噪聲的魯棒性及其處理不同數據類型的能力至關重要。此外,持續(xù)的跨學科合作和明確的倫理準則對于在各個領域中負責任且有效地使用DM至關重要。
文章轉自微信公眾號@算法進階