亚洲国产精品一区二区三区在线观看,久爱青草视频在线观看,日韩中文字幕电影

2.2 時序預測

2.3 自監督表征學習

? ? 自監督表征學習目前已成為一種從無標簽數據中提取高級抽象表征的流行方法。作者在這里利用掩碼自編碼器（Masked AutoEncoder，MAE）技術，基于PatchTST模型來獲得多變量時間序列的有用表示，并將其應用到預測任務中，如上圖（c）所示。MAE技術在概念上很簡單：有意地隨機刪除輸入序列的一部分，然后訓練模型來恢復丟失的內容。

具體來說，文章采用隨機mask的方式，對patch進行零值掩碼。然后利用MSE損失對模型進行訓練，以還原被mask掉的patch。與預測任務不同的是，在表征學習階段，patch的劃分只能是無重疊的，以防止信息的泄露。

????之前基于Transformer的表征學習方法，大都是在單個時間步級別上應用mask。但是，單個時間步的masked值可以很容易地根據相鄰點插值來推斷，而不需要對整個序列有高層次的理解，這影響了預訓練階段的學習能力。文章在patch級別上應用mask，是一個更困難的任務，可以讓模型更好地進行表征學習。

3.實驗?

3.1 實驗設置

數據集

???天氣、交通、電力、ILI和4個ETT數據集(ETTh1、ETTh2、ETTm1、ETTm2)

基線

? FEDformer、Autoformer、Informer、Pyraformer、LogTrans，以及非基于Transformer的DLinear模型

評估指標

MSE（均方誤差）、MAE（平均絕對誤差）

模型變體

PatchTST/64：輸入patch的數量為64，回視窗口長度L = 512

PatchTST/42：輸入patch的數量為42，默認回視窗口L = 336

? ???兩者均使用patch長度P = 16，步長S = 8

3.2 多變量長期預測實驗結果

與基于Transformer的模型所能提供的最佳結果相比：PatchTST/64在MSE上總體降低了21.0%，在MAE上降低了16.7%；PatchTST/42在MSE上總體降低了20.2%，在MAE上總體降低了16.4%。
與線性模型DLinear相比：PatchTST在總體上仍然優于它，特別是在大型數據集（天氣、交通、電力）和ILI數據集上。
此外，使用更長的歷史序列信息也會提升預測效果。

3.3 掩碼自監督學習實驗結果

高掩碼率：40%的patch被mask為零值

Fine-tuning：端到端微調

Lin. Prob.：線性層微調

Sup.：監督學習

根據實驗結果，模型取得了出色的微調性能：

通過對模型頭進行微調（線性層微調），預測性能已經可以與從頭開始監督訓練整個網絡相媲美，并且優于DLinear模型。
通過端到端微調可以觀察到最好的結果。

3.4 消融實驗

P：patching

CI：Channel-independence

實驗結果表明：patching和Channel-independence都是提高預測性能的重要因素。

4.總結

該文通過引入兩個關鍵部分：Patching和Channel-independence，提出了一種有效的基于Transformer的時間序列預測模型。與以前的工作相比，它可以捕捉局部語義信息，并從更長的回視窗口中受益。文章不僅證明了PatchTST模型在監督學習方面優于其他基線，而且還證明了它在自監督表征學習方面的良好能力。

文章轉自微信公眾號@算法進階