先進(jìn)的傳感和數(shù)據(jù)流處理技術(shù)的出現(xiàn)導(dǎo)致了時(shí)間序列數(shù)據(jù)的爆炸式增長,這是最普遍的數(shù)據(jù)類型之一,能夠捕捉和記錄各種領(lǐng)域的活動(dòng)[1]、[2]、[3]。時(shí)間序列數(shù)據(jù)的分析不僅提供了對(duì)過去趨勢的洞察,還有助于進(jìn)行各種任務(wù),如預(yù)測[4],分類[5],異常檢測[6],和數(shù)據(jù)插補(bǔ)[7]。這為依賴歷史數(shù)據(jù)來理解當(dāng)前和未來可能性的時(shí)間序列建模范式奠定了基礎(chǔ)。在各種領(lǐng)域,包括但不限于云,時(shí)間序列分析變得越來越重要。

許多時(shí)間序列涉及到時(shí)間和變量之間的復(fù)雜相互作用(如效應(yīng)傳播的滯后)以及變量之間的關(guān)系(如表示相鄰交通傳感器的變量之間的關(guān)系)。通過將時(shí)間點(diǎn)或變量視為節(jié)點(diǎn),它們之間的關(guān)系視為邊,以網(wǎng)絡(luò)或圖的結(jié)構(gòu)建模,可以有效地學(xué)習(xí)這些關(guān)系的復(fù)雜性。實(shí)際上,許多時(shí)間序列數(shù)據(jù)在本質(zhì)上具有時(shí)空特性,序列中的不同變量捕捉了有關(guān)不同位置(空間)的信息,這意味著它不僅包含時(shí)間信息,還包括空間關(guān)系[12]。這在城市交通網(wǎng)絡(luò)、人口遷移和全球天氣預(yù)報(bào)等場景中特別明顯。在這些情況下,例如在一個(gè)交叉路口發(fā)生交通事故、郊區(qū)爆發(fā)流行病或特定區(qū)域出現(xiàn)極端天氣,局部的變化可以傳播并影響相鄰區(qū)域。這可能表現(xiàn)為相鄰道路上交通量的增加、疾病傳播到鄰近的郊區(qū)、或者附近地區(qū)的氣候條件發(fā)生變化。這種時(shí)空特性是許多動(dòng)態(tài)系統(tǒng)的共同特點(diǎn),包括圖1中的風(fēng)電場的另一個(gè)例子,其中底層的時(shí)間序列數(shù)據(jù)顯示出一系列的相關(guān)性和異質(zhì)性[13]。這些因素導(dǎo)致了復(fù)雜而復(fù)雜的模式的形成,給有效建模帶來了重大挑戰(zhàn)。傳統(tǒng)的分析工具,如支持向量回歸(SVR)[14]、[15]、梯度提升決策樹(GBDT)[16]、[17]、向量自回歸(VAR)[18]、[19]和自回歸積分滑動(dòng)平均(ARIMA)[20]、[21],往往難以處理復(fù)雜的時(shí)間序列關(guān)系(例如非線性和序列間的關(guān)系),導(dǎo)致預(yù)測結(jié)果不夠準(zhǔn)確[22]。過去十年深度學(xué)習(xí)技術(shù)的出現(xiàn),導(dǎo)致了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[23]、[24]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[25]、[26]和Transformer [27] 的不同神經(jīng)網(wǎng)絡(luò)的發(fā)展,這些方法在建模真實(shí)世界的時(shí)間序列數(shù)據(jù)方面顯示出顯著的優(yōu)勢。然而,以上方法最大的局限性之一是它們沒有明確地在非歐幾里得空間中建模時(shí)間序列之間存在的空間關(guān)系[13],這限制了它們的表達(dá)能力[28]。

近年來,圖神經(jīng)網(wǎng)絡(luò)(GNNs)已經(jīng)成為學(xué)習(xí)非歐幾里得數(shù)據(jù)表示的強(qiáng)大工具[29]、[30]、[31],為建模真實(shí)世界的時(shí)間序列數(shù)據(jù)鋪平了道路。這使得能夠捕捉到多樣而復(fù)雜的關(guān)系,既包括變量間的關(guān)系(多變量序列中不同變量之間的連接),也包括時(shí)間間的依賴關(guān)系(不同時(shí)刻之間的依賴關(guān)系)。考慮到現(xiàn)實(shí)場景中復(fù)雜的時(shí)空依賴性,一系列的研究將GNN與各種時(shí)間建模框架結(jié)合起來,以捕捉空間和時(shí)間動(dòng)態(tài),并展示了有希望的結(jié)果[13]、[32]、[33]、[34]、[35]。這種建模方法在許多實(shí)際應(yīng)用領(lǐng)域廣泛采用,涉及不同類型的時(shí)間序列數(shù)據(jù),包括交通[36]、按需服務(wù)[37]、[38]、能源[39]、醫(yī)療保健[40]、[41]、經(jīng)濟(jì)[42]以及其他領(lǐng)域[43]、[44]、[45]。雖然早期的研究工作主要集中在各種預(yù)測場景上[13]、[33]、[34],但利用GNN進(jìn)行時(shí)間序列分析的最新進(jìn)展已經(jīng)在其他主流任務(wù)中展示出有希望的結(jié)果。這些任務(wù)包括分類[46]、[47]、異常檢測[48]、[49]和數(shù)據(jù)插補(bǔ)[50]、[51]。在圖1中,我們提供了圖神經(jīng)網(wǎng)絡(luò)用于時(shí)間序列分析(GNN4TS)的概述。

為了填補(bǔ)這一空白,本綜述提供了對(duì)圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列分析中的全面和最新的綜述,涵蓋了時(shí)間序列預(yù)測、分類、異常檢測和插補(bǔ)等主流任務(wù)。具體而言,我們首先從任務(wù)和方法論的角度提供了兩個(gè)廣泛的視角,對(duì)現(xiàn)有的工作進(jìn)行分類和討論。然后,我們深入探討了GNN4TS領(lǐng)域內(nèi)的六個(gè)熱門應(yīng)用領(lǐng)域,并提出了幾個(gè)潛在的未來研究方向。我們的綜述旨在為對(duì)圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列分析中的最新進(jìn)展感興趣的機(jī)器學(xué)習(xí)從業(yè)者提供全面的內(nèi)容。它也適用于領(lǐng)域?qū)<遥麄兿M麑NN4TS應(yīng)用于新的應(yīng)用或在最近的進(jìn)展基礎(chǔ)上探索新的可能性。我們綜述的主要貢獻(xiàn)總結(jié)如下:

本綜述的其余部分組織如下:第2節(jié)介紹了本文中使用的重要符號(hào)和相關(guān)定義。第3節(jié)從不同的角度提出了GNN4TS的分類法,以及一個(gè)總體流程。第4節(jié)、第5節(jié)、第6節(jié)和第7節(jié)回顧了GNN4TS文獻(xiàn)中的四個(gè)主要分析任務(wù)。第8節(jié)調(diào)查了GNN4TS在各個(gè)領(lǐng)域中的熱門應(yīng)用,而第9節(jié)則討論了開放問題和潛在的未來方向。最后,第10節(jié)總結(jié)了本次綜述。

2. 分類法

在本節(jié)中,我們提出了一個(gè)基于任務(wù)的綜合分類法,用于描述圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列分析中的應(yīng)用。隨后,我們通過引入統(tǒng)一的方法論框架,闡明了在各種任務(wù)中對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行編碼的基本原則,并介紹了GNN體系結(jié)構(gòu)的統(tǒng)一方法。根據(jù)這個(gè)框架,所有的體系結(jié)構(gòu)都由一個(gè)類似的基于圖的處理模塊fθ和一個(gè)針對(duì)下游任務(wù)專門設(shè)計(jì)的第二個(gè)模塊p?組成。在這里,我們還提供了一個(gè)使用GNN分析時(shí)間序列數(shù)據(jù)的一般流程。這些視角的結(jié)合提供了對(duì)GNN4TS的全面概述。

2.1 基于任務(wù)的分類法

在圖3中,我們展示了一個(gè)基于任務(wù)的分類法,涵蓋了時(shí)間序列分析中的主要任務(wù)和主流建模視角,并展示了GNN4TS的潛力。總結(jié)起來,我們的綜述強(qiáng)調(diào)了四個(gè)類別:時(shí)間序列預(yù)測、異常檢測、插補(bǔ)和分類。這些任務(wù)是基于空間-時(shí)間圖神經(jīng)網(wǎng)絡(luò)(STGNNs)學(xué)習(xí)到的時(shí)間序列表示進(jìn)行的,STGNNs在現(xiàn)有文獻(xiàn)中被用作對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行編碼的基礎(chǔ),在各種任務(wù)中發(fā)揮作用。我們將在第3.2節(jié)詳細(xì)介紹這一點(diǎn)。

在圖5中,我們展示了一個(gè)統(tǒng)一的方法論框架,用于進(jìn)行時(shí)間序列分析中提到的STGNNs(第3.1節(jié))。具體而言,我們的框架作為現(xiàn)有文獻(xiàn)中對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行編碼的基礎(chǔ),用于各種下游任務(wù)(圖3)。作為擴(kuò)展,STGNNs通過考慮圖中節(jié)點(diǎn)之間的關(guān)系和節(jié)點(diǎn)屬性隨時(shí)間演變的情況來融入空間信息和時(shí)間信息。與[13]類似,我們從三個(gè)角度系統(tǒng)地對(duì)STGNNs進(jìn)行分類:空間模塊、時(shí)間模塊和整體模型架構(gòu)。

3. 圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測中

時(shí)間序列預(yù)測旨在基于歷史觀測來預(yù)測未來的時(shí)間序列值。時(shí)間序列預(yù)測的起源可以追溯到統(tǒng)計(jì)自回歸模型[105],該模型通過對(duì)過去數(shù)值的線性組合來預(yù)測時(shí)間序列的未來值。近年來,基于深度學(xué)習(xí)的方法通過更有效地捕捉非線性的時(shí)間和空間模式,在時(shí)間序列預(yù)測方面取得了顯著的成功[22]。這些方法包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和基于注意力的神經(jīng)網(wǎng)絡(luò)等。然而,許多這些方法,如LSTNet [106]和TPA-LSTM [107],忽視并隱式地建模了時(shí)間序列之間豐富的動(dòng)態(tài)空間相關(guān)性。最近,基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法在顯式和有效地建模多變量時(shí)間序列數(shù)據(jù)的空間和時(shí)間依賴關(guān)系方面顯示出了巨大的潛力,從而提高了預(yù)測性能。基于GNN的預(yù)測模型可以從多個(gè)角度進(jìn)行分類和研究。在預(yù)測任務(wù)方面,盡管許多模型專注于多步預(yù)測(即基于歷史觀測來預(yù)測連續(xù)多步的未來值),少數(shù)模型也討論了單步預(yù)測(即預(yù)測下一步或任意一步的未來值)。從方法論的角度來看,這些模型可以從以下三個(gè)方面進(jìn)行分析:(1)建模空間(即變量間)依賴關(guān)系,(2)建模時(shí)間間的依賴關(guān)系,以及(3)將空間和時(shí)間模塊進(jìn)行架構(gòu)融合以進(jìn)行時(shí)間序列預(yù)測。代表性工作的總結(jié)見表2。

4. 圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列異常檢測中

時(shí)間序列異常檢測旨在識(shí)別與數(shù)據(jù)生成過程的正常模式不符合的數(shù)據(jù)觀測[141]。我們將異常定義為任何這樣的數(shù)據(jù)點(diǎn),而將符合正常模式的數(shù)據(jù)稱為正常數(shù)據(jù);然而需要注意的是,在文獻(xiàn)中,不同的術(shù)語(如新穎性和離群值)幾乎可以互換地用于描述異常[142]。這些與正常條件的偏離可以以單個(gè)觀測(數(shù)據(jù)點(diǎn))或一系列觀測(子序列)的形式出現(xiàn)[143]。然而,與正常的時(shí)間序列數(shù)據(jù)不同,異常很難進(jìn)行特征化,主要有兩個(gè)原因。首先,它們通常與罕見事件相關(guān)聯(lián),因此收集和標(biāo)記異常數(shù)據(jù)通常是一項(xiàng)艱巨的任務(wù)。其次,確定潛在異常事件的全部范圍通常是不可能的,這破壞了監(jiān)督學(xué)習(xí)技術(shù)的有效性。因此,非監(jiān)督的檢測技術(shù)已經(jīng)廣泛研究作為應(yīng)對(duì)具有挑戰(zhàn)性的實(shí)際問題的實(shí)用解決方案。傳統(tǒng)上,方法[144],如基于距離的方法[145],[146],[147]和分布技術(shù)[148]被廣泛用于檢測時(shí)間序列數(shù)據(jù)中的不規(guī)則性。前者使用距離度量來量化觀測值與代表性數(shù)據(jù)點(diǎn)之間的差異,而后者則查看低概率點(diǎn)以識(shí)別異常值。隨著數(shù)據(jù)生成過程的復(fù)雜化和多變量時(shí)間序列的維度增長,這些方法的效果變得不那么有效[149]。隨著深度學(xué)習(xí)的進(jìn)步,早期的研究提出了基于重構(gòu)[150]和預(yù)測[151]策略的循環(huán)模型,以改進(jìn)多變量時(shí)間序列數(shù)據(jù)中的異常檢測。預(yù)測和重構(gòu)策略依賴于預(yù)測和重構(gòu)誤差作為預(yù)期信號(hào)與實(shí)際信號(hào)之間的差異度量。這些策略依賴于一個(gè)事實(shí),即如果在正常數(shù)據(jù)上訓(xùn)練的模型無法對(duì)某些數(shù)據(jù)進(jìn)行預(yù)測或重構(gòu),則很可能該數(shù)據(jù)與異常有關(guān)。然而,循環(huán)模型[152]在對(duì)變量對(duì)之間的顯式建模上存在不足,限制了其在檢測復(fù)雜異常[48],[153]方面的有效性。最近,圖神經(jīng)網(wǎng)絡(luò)通過有效地捕捉變量對(duì)之間的時(shí)間和空間依賴關(guān)系,顯示出解決這一問題的潛力[49],[70],[154]。

5. 圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列分類中

時(shí)間序列分類任務(wù)旨在根據(jù)時(shí)間序列的潛在模式或特征為給定的時(shí)間序列分配一個(gè)分類標(biāo)簽。如最近的一項(xiàng)綜述所概述的[177],時(shí)間序列分類的早期文獻(xiàn)主要集中在基于距離的方法上,用于為時(shí)間序列分配類別標(biāo)簽[178],[179],[180],以及像Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) [181],[182]等集成方法。然而,盡管這些方法在性能上處于領(lǐng)先地位,但對(duì)于高維或大型數(shù)據(jù)集,它們的可擴(kuò)展性仍然有限[183],[184]。為了解決這些限制,研究人員開始探索深度學(xué)習(xí)技術(shù)在提高時(shí)間序列分類方法的性能和可擴(kuò)展性方面的潛力。深度學(xué)習(xí)具有學(xué)習(xí)復(fù)雜模式和特征層次結(jié)構(gòu)的能力,已經(jīng)顯示出在時(shí)間序列分類問題上的應(yīng)用潛力,尤其是對(duì)于具有大量訓(xùn)練標(biāo)簽的數(shù)據(jù)集[185],[186]。有關(guān)基于深度學(xué)習(xí)的時(shí)間序列分類的綜述,請(qǐng)參閱Foumani等人的最新綜述[177]。在這個(gè)領(lǐng)域中,一項(xiàng)特別有趣的發(fā)展沒有在上述綜述[177]中涉及,那就是將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于時(shí)間序列分類任務(wù)。通過將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為圖表示,可以利用圖神經(jīng)網(wǎng)絡(luò)的強(qiáng)大能力來捕捉局部和全局的模式。此外,圖神經(jīng)網(wǎng)絡(luò)能夠映射特定數(shù)據(jù)集中不同時(shí)間序列數(shù)據(jù)樣本之間的復(fù)雜關(guān)系。在接下來的幾節(jié)中,我們將對(duì)單變量和多變量時(shí)間序列分類問題提供新穎的圖神經(jīng)網(wǎng)絡(luò)視角。

6. 圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列填補(bǔ)中

時(shí)間序列填補(bǔ)是許多實(shí)際應(yīng)用中的關(guān)鍵任務(wù),涉及估計(jì)一個(gè)或多個(gè)數(shù)據(jù)點(diǎn)序列中缺失或損壞的值。傳統(tǒng)的時(shí)間序列填補(bǔ)方法依賴于統(tǒng)計(jì)學(xué)方法,如均值填補(bǔ)、樣條插值[200]和回歸模型[201]。然而,這些方法往往難以捕捉數(shù)據(jù)中的復(fù)雜時(shí)間依賴關(guān)系和非線性關(guān)系。雖然一些基于深度神經(jīng)網(wǎng)絡(luò)的工作,如[202],[203],[204],已經(jīng)緩解了這些限制,但它們沒有明確考慮時(shí)間序列間的依賴關(guān)系。圖神經(jīng)網(wǎng)絡(luò)的最近出現(xiàn)為時(shí)間序列填補(bǔ)帶來了新的可能性。基于圖神經(jīng)網(wǎng)絡(luò)的方法更好地表征時(shí)間序列數(shù)據(jù)中復(fù)雜的空間和時(shí)間依賴關(guān)系,使其特別適用于由于數(shù)據(jù)的日益復(fù)雜而產(chǎn)生的實(shí)際場景。從任務(wù)的角度來看,基于圖神經(jīng)網(wǎng)絡(luò)的時(shí)間序列填補(bǔ)可以大致分為兩種類型:樣本內(nèi)填補(bǔ)和樣本外填補(bǔ)。前者涉及填充給定時(shí)間序列數(shù)據(jù)中的缺失值,而后者預(yù)測不連續(xù)序列中的缺失值[50]。從方法論的角度來看,圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列填補(bǔ)中可以進(jìn)一步分為確定性填補(bǔ)和概率性填補(bǔ)。確定性填補(bǔ)為缺失值提供單一的最佳估計(jì),而概率性填補(bǔ)則考慮了填補(bǔ)過程中的不確定性,并提供了可能值的分布。在表5中,我們總結(jié)了迄今為止關(guān)于圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列填補(bǔ)方面的大部分相關(guān)工作,提供了該領(lǐng)域及其當(dāng)前發(fā)展?fàn)顩r的綜合概述。

總結(jié)

本綜述通過詳細(xì)回顧最新進(jìn)展并提供一個(gè)統(tǒng)一的分類法,從任務(wù)和方法的角度對(duì)現(xiàn)有工作進(jìn)行分類,彌合了圖神經(jīng)網(wǎng)絡(luò)在時(shí)間序列分析(GNN4TS)領(lǐng)域的知識(shí)差距。作為第一部綜合性的綜述,它涵蓋了廣泛的任務(wù),包括預(yù)測、分類、異常檢測和填補(bǔ),提供了對(duì)GNN4TS領(lǐng)域的最新技術(shù)水平的詳細(xì)了解。我們還深入探討了空間和時(shí)間依賴關(guān)系建模以及整體模型架構(gòu)的復(fù)雜性,提供了對(duì)各個(gè)研究的細(xì)致分類。我們強(qiáng)調(diào)了GNN4TS在各個(gè)領(lǐng)域中不斷擴(kuò)大的應(yīng)用范圍,展示了它的多功能性和未來發(fā)展的潛力。本綜述對(duì)于對(duì)這一領(lǐng)域的最新進(jìn)展感興趣的機(jī)器學(xué)習(xí)從業(yè)者和領(lǐng)域?qū)<襾碚f是一份寶貴的資源。最后,我們提出了潛在的未來研究方向,為GNN4TS領(lǐng)域的未來工作提供了啟示和指導(dǎo)。

文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階

上一篇:

時(shí)間序列自監(jiān)督學(xué)習(xí)綜述

下一篇:

無監(jiān)督聚類算法,全匯總!
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)