MultiModal


一、模態表示

什么是模態表示(Modal Representation)?

模態表示是將不同感官或交互方式的數據(如文本、圖像、聲音等)轉換為計算機可理解和處理的形式,以便進行后續的計算、分析和融合。
文本模態的表示:文本模態的表示方法有多種,如獨熱表示、低維空間表示(如通過神經網絡模型學習得到的轉換矩陣將單詞或字映射到語義空間中)、詞袋表示及其衍生出的n-grams詞袋表示等。目前,主流的文本表示方法是預訓練文本模型,如BERT。

視覺模態的表示:視覺模態分為圖像模態和視頻模態。圖像模態的表示主要通過卷積神經網絡(CNN)實現,如LeNet-5、AlexNet、VGG、GoogLeNet、ResNet等。視頻模態的表示則結合了圖像的空間屬性和時間屬性,通常由CNN和循環神經網絡(RNN)或長短時記憶網絡(LSTM)等模型共同處理。

聲音模態的表示:聲音模態的表示通常涉及音頻信號的預處理、特征提取和表示學習等步驟,常用的模型包括深度神經網絡(DNN)、卷積神經網絡(CNN)和循環神經網絡(RNN)等。

表征學習(Representation Learning)旨在從原始數據中自動提取有效特征,形成計算機可理解的模態表示,以保留關鍵信息并促進跨模態交互與融合。


表征學習

什么是多模態聯合表示(Joint Representation)?

多模態聯合表示是一種將多個模態(如文本、圖像、聲音等)的信息共同映射到一個統一的多模態向量空間中的表示方法。

多模態聯合表示通過神經網絡、概率圖模型將來自不同模態的數據進行融合,生成一個包含多個模態信息的統一表示。這個表示不僅保留了每個模態的關鍵信息,還能夠在不同模態之間建立聯系,從而支持跨模態的任務,如多模態情感分析、視聽語音識別等。


多模態表示

什么是多模態協同表示(Coordinated Representation)?

多模態協同表示是一種將多個模態的信息分別映射到各自的表示空間,但映射后的向量或表示之間需要滿足一定的相關性或約束條件的方法。這種方法的核心在于確保不同模態之間的信息在協同空間內能夠相互協作,共同優化模型的性能。

多模態表示

二、多模態融合

什么是多模態融合(MultiModal Fusion)?

多模態融合能夠充分利用不同模態之間的互補性,它將抽取自不同模態的信息整合成一個穩定的多模態表征。從數據處理的層次角度將多模態融合分為數據級融合、特征級融合和目標級融合。


多模態融合
1.數據級融合(Data-Level Fusion):

數據級融合,也稱為像素級融合或原始數據融合,是在最底層的數據級別上進行融合。這種融合方式通常發生在數據預處理階段,即將來自不同模態的原始數據直接合并或疊加在一起,形成一個新的數據集。

應用場景:適用于那些原始數據之間具有高度相關性和互補性的情況,如圖像和深度圖的融合。

2.特征級融合(Feature-Level Fusion):

特征級融合是在特征提取之后、決策之前進行的融合。不同模態的數據首先被分別處理,提取出各自的特征表示,然后將這些特征表示在某一特征層上進行融合。

應用場景:廣泛應用于圖像分類、語音識別、情感分析等多模態任務中。

3.目標級融合(Decision-Level Fusion):

目標級融合,也稱為決策級融合或后期融合,是在各個單模態模型分別做出決策之后進行的融合。每個模態的模型首先獨立地處理數據并給出自己的預測結果(如分類標簽、回歸值等),然后將這些預測結果進行整合以得到最終的決策結果。

應用場景:適用于那些需要綜合考慮多個獨立模型預測結果的場景,如多傳感器數據融合、多專家意見綜合等。


多模態融合


三、跨模態對齊

什么是跨模態對齊(MultiModal Alignment)?

跨模態對齊是通過各種技術手段,實現不同模態數據(如圖像、文本、音頻等)在特征、語義或表示層面上的匹配與對應。跨模態對齊主要分為兩大類:顯式對齊和隱式對齊。


跨模態對齊

什么是顯示對齊(Explicit Alignment)?

直接建立不同模態之間的對應關系,包括無監督對齊和監督對齊。
1.無監督對齊:利用數據本身的統計特性或結構信息,無需額外標簽,自動發現不同模態間的對應關系。
CCA(典型相關分析):通過最大化兩組變量之間的相關性來發現它們之間的線性關系,常用于圖像和文本的無監督對齊。

自編碼器:通過編碼-解碼結構學習數據的低維表示,有時結合循環一致性損失(Cycle Consistency Loss)來實現無監督的圖像-文本對齊。

2.監督對齊:利用額外的標簽或監督信息指導對齊過程,確保對齊的準確性。
多模態嵌入模型:如DeViSE(Deep Visual-Semantic Embeddings),通過最大化圖像和對應文本標簽在嵌入空間中的相似度來實現監督對齊。

多任務學習模型:同時學習圖像分類和文本生成任務,利用共享層或聯合損失函數來促進圖像和文本之間的監督對齊。


顯式對齊
什么是隱式對齊(Implicit Alignment)?不直接建立對應關系,而是通過模型內部機制隱式地實現跨模態的對齊。這包括注意力對齊和語義對齊。
1.注意力對齊:通過注意力機制動態地生成不同模態之間的權重向量,實現跨模態信息的加權融合和對齊。
Transformer模型:在跨模態任務中(如圖像描述生成),利用自注意力機制和編碼器-解碼器結構,自動學習圖像和文本之間的注意力分布,實現隱式對齊。

BERT-based模型:在問答系統或文本-圖像檢索中,結合BERT的預訓練表示和注意力機制,隱式地對齊文本查詢和圖像內容。

2.語義對齊:在語義層面上實現不同模態之間的對齊,需要深入理解數據的潛在語義聯系。
圖神經網絡(GNN):在構建圖像和文本之間的語義圖時,利用GNN學習節點(模態數據)之間的語義關系,實現隱式的語義對齊。

預訓練語言模型與視覺模型結合:如CLIP(Contrastive Language-Image Pre-training),通過對比學習在大量圖像-文本對上訓練,使模型學習到圖像和文本在語義層面上的對應關系,實現高效的隱式語義對齊。


隱式對齊

文章轉自微信公眾號@架構師帶你玩轉AI

上一篇:

一文徹底搞懂深度學習(4)

下一篇:

一文徹底搞懂大模型 - RAG(檢索、增強、生成)
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費