
DeepSeek Janus-Pro 應用代碼與圖片鏈接實踐
近年來,生成對抗網絡(GAN)和基于Transformer的序列到序列模型在文本到圖像生成領域取得了顯著進展。ERNIE-ViLG、DALL-E、Cogview等模型紛紛涌現。最近,擴散模型如LDM、DALL-E 2和Imagen等進一步推動了該領域的發展。ERNIE-ViLG 2.0在此背景下應運而生,結合了擴散模型的優勢和百度的技術積累,為中文文本到圖像生成開辟了新路徑。
在深入了解ERNIE-ViLG 2.0之前,我們需要掌握一些基礎知識。擴散模型通過在圖像中逐步增加噪聲并逆向去噪來生成圖像。在此過程中,目標函數和跨模態注意力機制在提升生成質量方面起到了關鍵作用。
ERNIE-ViLG 2.0通過現有的詞性標注工具提取輸入文本的詞性信息,并將其增加到輸入序列中。例如,形容詞“灰色的”被標注為a,名詞“貓”被標注為n。在注意力層中,模型對這些詞性信息賦予更高的權重,從而實現更精準的文本到圖像轉換。
在圖像處理方面,ERNIE-ViLG 2.0通過物體檢測技術識別圖像中的關鍵元素,并在訓練樣本的50%中應用物體檢測。這些信息被用于調整目標函數的權重,使模型在生成圖像時能夠更好地聚焦于重要的物體。
ERNIE-ViLG 2.0在去噪過程中采用了混合降噪專家技術。每個去噪步驟中的U-Net參數不同,以適應不同階段的去噪需求,但文本編碼部分則是共享的。這種方法使得模型能夠在不同的去噪階段應用最適合的網絡參數,從而顯著提高圖像質量。
ERNIE-ViLG 2.0包含24B(240億)參數,其中包括1.3B的文本編碼器和10個2.2B的混合降噪專家(U-Net)。訓練數據由1.70億對圖片-文本數據組成,訓練使用320個Tesla A100 GPUs,歷時18天。
實驗表明,ERNIE-ViLG 2.0在MS-COCO數據集上的表現優于DALL-E 2和Stable Diffusion。此外,在人為評估中,ERNIE-ViLG 2.0的輸出圖像在細節和真實性上也更勝一籌。
ERNIE-ViLG 2.0能夠生成高質量的圖像,這些圖像在逼真度和細節上達到了新的高度。
ERNIE Bot SDK是由文心&飛槳官方提供的Python開發工具包,簡稱EB SDK。它提供了便捷的Python接口,能夠調用文心一言大模型,完成文本創作、通用對話、語義向量、AI作圖等任務。
使用pip快速安裝EB SDK,本文以0.4.0版本為例:
!pip install erniebot==0.4.0
調用文心一言大模型是一項收費服務,因此需進行認證鑒權。我們可以通過api_type
和access_token
參數設置后端和訪問令牌(access token)。
import erniebot
erniebot.api_type = 'aistudio'
erniebot.access_token = '{YOUR-ACCESS-TOKEN}'
文心一言大模型具備強大的多輪對話能力。用戶可以發送多輪消息,模型會根據上下文給出合理的回答。此外,語義向量功能將文本轉化為數值表示的向量形式,用于文本檢索和知識挖掘。
ERNIE-ViLG 2.0是百度推出的中文文本到圖像擴散模型,結合了細粒度文本和圖像知識以增強生成質量。
該模型在不同去噪步驟中使用不同的U-Net架構,并整合了細粒度文本和圖像知識。
用戶可以通過安裝EB SDK進行多輪對話、生成語義向量以及AI作圖,需進行認證鑒權。
在MS-COCO數據集上的表現優于DALL-E 2和Stable Diffusion,并在細節和真實性上更勝一籌。
可用于廣告創意、圖像生成、虛擬角色創建等多個領域。