多模態深度學習的例子,其中使用不同類型的神經網絡提取特征

這種方法的問題是,它將給予所有子網絡/模式同等的重要性,這在現實情況中是非常不可能的。

所有的模態對預測都有相同的貢獻

對網絡進行加權組合

我們采用子網絡的加權組合,以便每個輸入模態可以對輸出預測有一個學習貢獻(Theta)。

我們的優化問題變成-

對每個子網絡給出Theta權值后的損失函數。

將權值附加到子網后預測輸出。

把所有的都用起來

準確性和可解釋性

我們在兩個現實多模態數據集上得到了SOTA:

Multimodal Corpus of Sentiment Intensity(MOSI) 數據集 —— 有417個標注過的視頻,每毫秒標注的音頻特征。共有2199個標注數據點,其中情緒強度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。

模態包括:

1、文本

2、音頻

3、語言

每種模態對情緒預測的貢獻量

Transcription Start Site Prediction(TSS)數據集 —— Transcription是基因表達的第一步,在這一步中,特定的DNA片段被復制到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個部分:

  1. 上游DNA
  2. 下游DNA
  3. TSS位置

我們取得了前所未有的改善,比之前的最先進的結果3%。使用TATA box的下游DNA區域對這一過程影響最大。

英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4

文章轉自微信公眾號@算法進階

上一篇:

圖神經網絡性能提升方法綜述

下一篇:

深度學習知識蒸餾的研究綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費