圖1:所提出的時間序列SSL分類法。

時間序列自監督學習(SSL)的方法通常可以分為三類,這些類別的模型架構如圖2所示:

  1. 基于生成的方法:這種方法首先使用編碼器將輸入x映射到表示z,然后使用解碼器從z中重構x。訓練目標是最小化輸入x和重構輸入?x之間的重構誤差。
  2. 基于對比的方法:這種方法是應用最廣泛的SSL策略之一,它通過數據增強或上下文抽樣來構建正樣本和負樣本。然后,通過最大化兩個正樣本之間的互信息(MI)來訓練該模型。基于對比的方法通常使用對比相似度度量,如InfoNCE loss。
  3. 基于對抗的方法:這種方法通常由一個生成器和一個判別器組成。生成器生成假樣本,而判別器用來將它們與真實樣本區分開來。

圖2:SSL的學習范式。

1 基于生成的方法

在這個類別中,預文本任務是基于給定數據的視圖生成預期數據。在時間序列建模的背景下,常用的預文本任務包括使用過去的序列來預測未來的時間窗口或特定的時間戳,使用編碼器和解碼器來重構輸入,以及預測掩碼時間序列的不可見部分。

本節從基于自回歸的預測、基于自編碼器的重構和基于擴散模型的生成3個角度整理了現有的時間序列建模中的自監督表示學習方法(圖3)。需要注意的是,基于自編碼器的重構任務也被視為一種無監督框架。在SSL的背景下,我們主要將重構任務用作預文本任務,最終目標是通過自編碼器模型獲得表示。

圖3:基于生成的時間序列SSL的三個類別。

1.1 基于自回歸的預測

ARF任務是一種基于時間序列的預測任務,其目標是使用時間戳t之前的序列來預測長度為K的窗口。在ARF任務中,預測模型f(·)通常采用自回歸模型,即將當前時刻的輸出作為下一時刻的輸入,以此類推。當K=1時,ARF任務是單步預測模型,即預測下一個時間步的值;當K>1時,ARF任務是多步預測模型,即預測未來多個時間步的值。

ARF任務的數學表達式為公式(1),

其中X[1:t]表示時間戳t之前的序列,?X[t+1:t+K]表示預測的目標窗口。預測模型f(·)通常采用自回歸模型,即將當前時刻的輸出作為下一時刻的輸入,以此類推。ARF任務的應用場景包括股票價格預測、氣象預測、交通流量預測等。

ARF任務的相關研究和應用。ARF任務可以通過自編碼器模型進行無監督學習,從而得到更好的時間序列表示。此外,ARF任務還可以與其他任務結合,例如異常檢測、分類和聚類等。

1.2 基于自編碼器的重構

自編碼器是一種無監督學習的人工神經網絡,由編碼器和解碼器兩部分組成 [56]。編碼器將輸入數據X映射到一個低維表示Z,然后解碼器將該低維表示Z映射回原始數據空間,得到重構數據?X。解碼器的輸出被定義為重構輸入?X。該過程可以表示為:

自編碼器的目標是最小化重構誤差,即輸入數據與重構數據之間的差異。在時間序列數據的應用中,自編碼器可以用于時間序列數據的重構和表示學習,從而提高時間序列數據的表達能力和預測性能。

自編碼器模型的變種。例如去噪自編碼器、譜分析自編碼器、時序聚類友好的表示學習模型等。這些變種模型可以通過引入額外的約束和損失函數來提高自編碼器模型的性能和適用性。例如,去噪自編碼器可以通過在輸入數據中添加噪聲來提高模型的魯棒性和泛化能力;譜分析自編碼器可以通過在損失函數中引入頻譜約束來提高模型的頻域表示能力;時序聚類友好的表示學習模型可以通過在損失函數中引入聚類約束來提高模型的聚類性能。

自編碼器模型在時間序列數據的應用場景。例如信號處理、圖像處理、語音識別、自然語言處理等。自編碼器模型在這些領域中已經取得了一定的成功,并且在未來的研究中仍然具有廣泛的應用前景。

1.3 基于擴散模型的生成

擴散模型是一種基于概率的生成模型,它的核心思想是通過兩個逆向過程來實現樣本生成。具體來說,擴散模型包含兩個過程:正向過程和逆向過程。正向過程是將隨機噪聲注入到數據中,然后逐步完成轉移,最終得到一個狀態。逆向過程是從噪聲分布中生成樣本,它通過使用逆向狀態轉移操作來實現。逆向轉移核是逆向過程的關鍵,但通常很難確定。因此,擴散模型通過深度神經網絡來學習逼近逆向轉移核,從而實現高效的樣本生成。

目前,擴散模型主要有三種基本形式:去噪擴散概率模型(DDPMs)、分數匹配擴散模型和分數隨機微分方程(SDEs)模型。DDPMs模型通過去噪來逼近逆向轉移核,分數匹配擴散模型通過匹配梯度來逼近逆向轉移核,而SDEs模型則通過隨機微分方程來逼近逆向轉移核。這些模型的設計都是為了解決逆向轉移核的問題,從而實現高效的樣本生成。

擴散模型在圖像合成、視頻生成、語音生成、生物信息學和自然語言處理等領域取得了很大的成功。它是一種強大的生成模型,可以用于各種領域的數據生成和建模。擴散模型的優點包括:生成效果好、生成速度快、可擴展性強、可解釋性好等。因此,擴散模型在深度學習領域中備受關注,成為了一種重要的生成模型。

2 基于對比的方法

對比學習是一種自監督學習策略,在計算機視覺和自然語言處理中表現出強大的學習能力。與其他模型不同,對比學習方法通過對比正負樣本來學習數據表示,其中正樣本應該相似,負樣本應該不同。因此,對正負樣本的選擇對于對比學習方法非常重要。圖4展示了基于對比的時間序列自監督學習的五個類別。

圖4:基于對比的時間序列自監督學習的五個類別

2.1 采樣對比法

采樣對比方法,將時間序列分成多個固定長度的子序列,然后從每個子序列中隨機選擇兩個不同的采樣點作為正樣本,同時從其他子序列中隨機選擇一個采樣點作為負樣本。通過對比正負樣本,采樣對比方法可以學習到時間序列的表示。該方法遵循時間序列分析中廣泛使用的假設,即相鄰的時間窗口或時間戳具有高度相似性。因此正負樣本直接從原始時間序列中采樣。

采樣對比方法遵循時間序列分析中最常用的假設。它具有簡單的原則,并且可以很好地模擬局部相關性,對于一些時間序列數據集,采樣對比方法可以獲得很好的性能。然而,它的缺點在于,在分析長期依賴性時可能會引入虛假的負樣本對,導致表示不夠優化。因此,在處理長期依賴性時,采樣對比方法可能不是最佳選擇。此外,采樣對比方法需要選擇合適的子序列長度和采樣點數量,這可能需要一些經驗和調整。

2.2 預測對比法

預測對比法用于學習時間序列的表示。該方法通過預測時間序列中未來的信息來學習有意義和信息豐富的表示。具體來說,該方法將時間序列分成多個固定長度的子序列,然后將每個子序列的最后一個時間步作為目標,將其余時間步作為上下文。然后,模型被訓練來預測目標時間步的值,同時使用其他子序列的目標時間步作為負樣本。通過對比正樣本和負樣本,預測對比方法可以學習到時間序列的表示。

預測對比方法的優點在于,它可以學習到時間序列中的有意義和信息豐富的表示,捕捉數據中的重要特征和模式。該方法更加關注時間序列數據中的緩慢變化趨勢,并且可以提取緩慢的特征。此外,預測對比方法的實現非常簡單,易于理解和實現。然而,預測對比方法的缺點在于,它主要關注局部信息,可能無法準確地建模時間序列數據中的長期依賴性。此外,該方法對噪聲和異常值比較敏感,這可能會影響模型的表示能力和泛化性能。因此,在處理具有復雜長期依賴性的時間序列數據時,預測對比方法可能不是最佳選擇。

2.3 增強對比法

增強對比方法是一種常用的對比學習框架,它通過數據增強技術生成輸入樣本的不同視圖,然后通過最大化來自相同樣本的視圖的相似性和最小化來自不同樣本的視圖的相似性來學習表示。具體來說,該方法將每個輸入樣本分成兩個視圖,然后使用一個神經網絡來學習將這兩個視圖映射到相同的表示空間中。然后,通過最大化來自相同樣本的視圖的相似性和最小化來自不同樣本的視圖的相似性來訓練網絡。這可以通過使用對比損失函數來實現,其中對于每個樣本,網絡將學習將其與其他樣本區分開來。

增強對比方法的優點在于易于實現和理解,適用于各種類型的時間序列建模任務。此外,該方法可以通過使用各種數據增強技術來增加數據的多樣性,從而提高模型的泛化性能。然而,該方法的缺點在于處理時間依賴性是一個挑戰,因為增強對比的本質在于區分正樣本和負樣本對的特征表示,而不是顯式地捕捉時間依賴性。選擇適當的時間序列數據增強方法也是一個具有挑戰性的問題。此外,采樣偏差是另一個問題,因為它可能導致生成虛假的負樣本,從而影響模型的性能。

2.4 原型對比法

原型對比方法是一種基于聚類約束的對比學習框架,它通過將樣本與聚類中心進行對比來學習時間序列數據的表示。該方法可以減少計算量,并鼓勵樣本在特征空間中呈現出友好的聚類分布。具體來說,原型對比方法將樣本分為不同的聚類,將聚類中心作為原型,然后將樣本與原型進行對比,以學習時間序列數據的表示。該方法可以通過使用對比損失函數來實現,其中對于每個樣本,網絡將學習將其與其他樣本區分開來。

原型對比方法引入了原型的概念,使樣本可以被分配到有限數量的類別中。該方法利用高級語義信息,鼓勵樣本在特征空間中呈現聚類分布,而不是均勻分布,這更符合真實數據分布。然而,該方法的主要問題是原型的數量需要預先確定,這仍然需要一些先驗信息。

2.5 專家知識對比法

專家知識對比方法是一種相對較新的表示學習框架,它可以在對比學習框架中引入先驗知識,以幫助模型選擇正確的正負樣本。例如,在訓練過程中,可以選擇一個錨點樣本和一個正樣本,以及一些負樣本。然后,網絡將學習將錨點樣本與正樣本相似,并將錨點樣本與負樣本區分開來。這可以通過使用對比損失函數來實現,其中對于每個樣本,網絡將學習將其與其他樣本區分開來,并將其分配到正確的正負樣本中。

專家知識對比方法的特點是可以將領域專家的先驗知識或信息引入深度神經網絡中,以指導正負樣本的選擇或相似度的測量。其主要優點在于能夠準確選擇正負樣本。然而,其局限性在于需要提供可靠的先驗知識。在大多數情況下,為時間序列數據獲取可靠的先驗知識并不容易。不正確或誤導性的知識可能會導致偏見的表示。

3 基于對抗的方法

基于對抗的方法利用生成對抗網絡(GAN)構建預文本任務。GAN包含一個生成器G和一個判別器D。生成器G負責生成類似于真實數據的合成數據,而判別器D負責確定生成的數據是真實數據還是合成數據。因此,生成器的目標是最大化判別器的決策失敗率,而判別器的目標是最小化其失敗率。生成器G和判別器D是一種相互博弈的關系,因此學習目標是通過最小化損失函數L來優化生成器和判別器的性能。

根據最終任務,現有的基于對抗性的表示學習方法可以分為時間序列生成和插補,以及輔助表示增強。圖5展示了基于對抗性的時間序列自監督學習的示意圖。

3.1 時間序列生成和插補

在時間序列生成方面,使用Transformer代替RNN可以更好地處理長期依賴關系和提高效率。Li等人提出了Context-FID,這是一種新的評估生成序列質量的度量標準。Li等人還探索了具有不規則時空關系的時間序列數據的生成,并提出了TTS-GAN,該模型使用Transformer代替RNN來構建鑒別器和生成器,并將時間序列數據視為高度為1的圖像數據。

在時間序列插補方面。Luo等人將缺失值填充視為數據生成任務,并使用GAN來學習訓練數據集的分布。為了更好地捕捉時間序列的動態特征,他們提出了GRUI模塊。此外,還介紹了輔助表示增強的方法,該方法可以提高模型的魯棒性和泛化能力。

基于對抗性的方法的優點是可以生成高質量的時間序列樣本,并且可以根據不同時間序列數據的季節性和趨勢執行填補或生成任務,從而提高結果的連貫性和合理性。此外,已經有許多高效的基于對抗性的方法在圖像生成領域得到了應用,這些方法可以被轉移和應用于時間序列數據的生成或填補任務。缺點是GAN的訓練過程相對復雜,需要在生成器和判別器之間進行權衡,這可能需要更多的訓練時間和計算資源,并且可能導致訓練不穩定。

3.2 輔助表示增強

除了生成和插補任務之外,還可以將基于對抗性的表示學習策略作為額外的輔助學習模塊添加到現有的學習框架中,我們將其稱為基于對抗性的輔助表示增強。輔助表示增強旨在通過添加基于對抗性的學習策略,來促進模型為下游任務學習更多信息表示。通常定義為:

其中 Lbase 是基本學習目標,Ladv 是附加的基于對抗性的學習目標。需要注意的是,當Ladv不可用時,模型仍然可以從數據中提取表示,因此Ladv被視為輔助學習目標。

USAD[63]是一個時間序列異常檢測框架,包含兩個BAE模型,兩個BAE分別定義為AE1和AE2。USAD 背后的核心思想是通過兩個 BAE 之間的對抗訓練來放大重建誤差。在USAD中,AE1被視為生成器,AE2被視為判別器。輔助目標是利用AE2區分真實數據和AE1重構的數據,并訓練AE1欺騙AE2,整個過程可以表示為:

其中 W 是實際輸入序列。與 USAD 類似,Anoma lyTrans [155] 也使用對抗策略來放大異常的異常分數。但與(30)使用重構誤差不同的是,AnomalyTrans 定義了先驗關聯和級數關聯,然后使用 Kulback-Leibler 散度來衡量兩個關聯的誤差。

DUBCN [156] 和 CRLI [157] 分別用于序列檢索和聚類任務。兩種方法均采用基于RNN的BAE作為模型,并在基本重建損失中添加基于聚類的損失和基于對抗的損失,即:

其中,λ1和λ2為輔助目標的權重系數。

基于對抗性的方法在其他時間序列建模任務中也很有效。例如,在時間序列預測中引入對抗性訓練可以提高準確性并捕獲長期重復模式,例如 AST [158] 和 ACT [159]。BeatGAN [160]在心電圖數據的異常心跳檢測任務中引入了對抗性表示學習,并提供了一個可解釋的檢測框架。在行為數據建模中,Activity2vec[161]使用基于對抗性的訓練來建模目標不變性,增強模型在不同行為階段的表示能力。

對抗方法可以幫助模型學習更魯棒的表示,從而提高模型的泛化能力。通過引入對抗性信號,模型可以更好地適應訓練數據并抵抗干擾或攻擊。然而,在損失函數中引入對抗方法作為正則化項會增加訓練過程的復雜性。訓練生成器和鑒別器之間的競爭需要仔細平衡,這可能需要更多的訓練時間和計算資源。這甚至可能導致訓練不穩定。

4 應用和數據集

自監督學習(SSL)在各種時間序列任務中都有廣泛的應用,例如異常檢測、預測、分類和聚類。

表2:時間序列應用程序和廣泛使用的數據集的摘要

異常檢測。時間序列異常檢測的主要任務是在給定的規范或常見信號的基礎上,識別出異常的時間點或異常的時間序列。由于獲取異常數據的標簽具有挑戰性,因此大多數時間序列異常檢測方法采用無監督學習框架。在眾多建模策略中,基于自回歸的預測和基于自編碼器的重構是最常用的方法。

預測。時間序列預測是一種統計和建模技術,用于對時間序列數據進行分析,以預測未來時間窗口或時間點的值。自回歸預測任務也是一種時間序列預測任務。

分類和聚類。分類和聚類的任務目標是識別特定時間序列樣本所屬的真實類別。由于基于對比的自監督學習方法的核心是識別正樣本和負樣本,因此其是這兩個任務的最佳選擇。

綜上,基于生成的方法更適合異常檢測和預測任務,而基于對比的方法更適合分類和聚類任務。基于對抗性的方法可以在各種任務中發揮作用,但在大多數情況下,它被用作額外的正則化項,以確保模型提取的特征更加穩健且信息豐富。通常,多種自監督方法混合使用是更好的選擇。

文章轉自微信公眾號@算法進階

上一篇:

時間序列損失函數的最新綜述!

下一篇:

時間序列圖神經網絡最新綜述(GNN4TS)
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費