多模態(tài)深度學習的例子,其中使用不同類型的神經(jīng)網(wǎng)絡提取特征

這種方法的問題是,它將給予所有子網(wǎng)絡/模式同等的重要性,這在現(xiàn)實情況中是非常不可能的。

所有的模態(tài)對預測都有相同的貢獻

對網(wǎng)絡進行加權組合

我們采用子網(wǎng)絡的加權組合,以便每個輸入模態(tài)可以對輸出預測有一個學習貢獻(Theta)。

我們的優(yōu)化問題變成-

對每個子網(wǎng)絡給出Theta權值后的損失函數(shù)。

將權值附加到子網(wǎng)后預測輸出。

把所有的都用起來

準確性和可解釋性

我們在兩個現(xiàn)實多模態(tài)數(shù)據(jù)集上得到了SOTA:

Multimodal Corpus of Sentiment Intensity(MOSI) 數(shù)據(jù)集 —— 有417個標注過的視頻,每毫秒標注的音頻特征。共有2199個標注數(shù)據(jù)點,其中情緒強度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。

模態(tài)包括:

1、文本

2、音頻

3、語言

每種模態(tài)對情緒預測的貢獻量

Transcription Start Site Prediction(TSS)數(shù)據(jù)集 —— Transcription是基因表達的第一步,在這一步中,特定的DNA片段被復制到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個部分:

  1. 上游DNA
  2. 下游DNA
  3. TSS位置

我們?nèi)〉昧饲八从械母纳疲戎暗淖钕冗M的結果3%。使用TATA box的下游DNA區(qū)域對這一過程影響最大。

英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4

文章轉自微信公眾號@算法進階

上一篇:

圖神經(jīng)網(wǎng)絡性能提升方法綜述

下一篇:

深度學習知識蒸餾的研究綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數(shù)據(jù)驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費