
使用這些基本 REST API 最佳實踐構建出色的 API
多模態(tài)深度學習的例子,其中使用不同類型的神經(jīng)網(wǎng)絡提取特征
這種方法的問題是,它將給予所有子網(wǎng)絡/模式同等的重要性,這在現(xiàn)實情況中是非常不可能的。
所有的模態(tài)對預測都有相同的貢獻
我們采用子網(wǎng)絡的加權組合,以便每個輸入模態(tài)可以對輸出預測有一個學習貢獻(Theta)。
我們的優(yōu)化問題變成-
對每個子網(wǎng)絡給出Theta權值后的損失函數(shù)。
將權值附加到子網(wǎng)后預測輸出。
準確性和可解釋性
我們在兩個現(xiàn)實多模態(tài)數(shù)據(jù)集上得到了SOTA:
Multimodal Corpus of Sentiment Intensity(MOSI) 數(shù)據(jù)集 —— 有417個標注過的視頻,每毫秒標注的音頻特征。共有2199個標注數(shù)據(jù)點,其中情緒強度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。
模態(tài)包括:
1、文本
2、音頻
3、語言
每種模態(tài)對情緒預測的貢獻量
Transcription Start Site Prediction(TSS)數(shù)據(jù)集 —— Transcription是基因表達的第一步,在這一步中,特定的DNA片段被復制到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個部分:
我們?nèi)〉昧饲八从械母纳疲戎暗淖钕冗M的結果3%。使用TATA box的下游DNA區(qū)域對這一過程影響最大。
英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4
文章轉自微信公眾號@算法進階