
使用這些基本 REST API 最佳實踐構建出色的 API
? ? 自監督表征學習目前已成為一種從無標簽數據中提取高級抽象表征的流行方法。作者在這里利用掩碼自編碼器(Masked AutoEncoder,MAE)技術,基于PatchTST模型來獲得多變量時間序列的有用表示,并將其應用到預測任務中,如上圖(c)所示。MAE技術在概念上很簡單:有意地隨機刪除輸入序列的一部分,然后訓練模型來恢復丟失的內容。
具體來說,文章采用隨機mask的方式,對patch進行零值掩碼。然后利用MSE損失對模型進行訓練,以還原被mask掉的patch。與預測任務不同的是,在表征學習階段,patch的劃分只能是無重疊的,以防止信息的泄露。
????之前基于Transformer的表征學習方法,大都是在單個時間步級別上應用mask。但是,單個時間步的masked值可以很容易地根據相鄰點插值來推斷,而不需要對整個序列有高層次的理解,這影響了預訓練階段的學習能力。文章在patch級別上應用mask,是一個更困難的任務,可以讓模型更好地進行表征學習。
???天氣、交通、電力、ILI和4個ETT數據集(ETTh1、ETTh2、ETTm1、ETTm2)
? FEDformer、Autoformer、Informer、Pyraformer、LogTrans,以及非基于Transformer的DLinear模型
MSE(均方誤差)、MAE(平均絕對誤差)
PatchTST/64:輸入patch的數量為64,回視窗口長度L = 512
PatchTST/42:輸入patch的數量為42,默認回視窗口L = 336
? ???兩者均使用patch長度P = 16,步長S = 8
高掩碼率:40%的patch被mask為零值
Fine-tuning:端到端微調
Lin. Prob.:線性層微調
Sup.:監督學習
根據實驗結果,模型取得了出色的微調性能:
P:patching
CI:Channel-independence
實驗結果表明:patching和Channel-independence都是提高預測性能的重要因素。
該文通過引入兩個關鍵部分:Patching和Channel-independence,提出了一種有效的基于Transformer的時間序列預測模型。與以前的工作相比,它可以捕捉局部語義信息,并從更長的回視窗口中受益。文章不僅證明了PatchTST模型在監督學習方面優于其他基線,而且還證明了它在自監督表征學習方面的良好能力。
文章轉自微信公眾號@算法進階