圖1 Chronos的高層次描述。(左)輸入時(shí)間序列被縮放和量化以獲得一系列令牌。(中)令牌被饋送到語(yǔ)言模型中,該模型可以是編碼器-解碼器模型或解碼器模型。使用交叉熵?fù)p失訓(xùn)練模型。(右)在推理期間,我們從模型自動(dòng)采樣的令牌并將其映射回?cái)?shù)值值。從模型中采樣多個(gè)軌跡以獲得預(yù)測(cè)分布

Chronos使用分類(lèi)模型對(duì)觀測(cè)值進(jìn)行分類(lèi)分布建模,執(zhí)行回歸分類(lèi)。該模型不需要針對(duì)時(shí)間序列進(jìn)行特定設(shè)計(jì)或特征,而是將時(shí)間序列值標(biāo)記化到固定詞匯表上,并在這些標(biāo)記上訓(xùn)練現(xiàn)有的語(yǔ)言模型架構(gòu)。其他時(shí)間序列任務(wù)。最近的研究已經(jīng)研究了適用于時(shí)間序列任務(wù)的一般性模型,包括填補(bǔ)、預(yù)測(cè)、分類(lèi)和異常檢測(cè)。這些模型基于CNN的Inception模型和掩碼預(yù)訓(xùn)練框架,將一維時(shí)間序列轉(zhuǎn)換為二維圖像表示,并基于周期性對(duì)時(shí)間序列進(jìn)行分段和堆疊。這些模型在未見(jiàn)過(guò)的時(shí)間序列數(shù)據(jù)上表現(xiàn)出色,可以應(yīng)用于預(yù)測(cè)之外的任務(wù),如分類(lèi)和異常檢測(cè)。

2  工作背景及相關(guān)工作時(shí)間序列預(yù)測(cè)

可以使用經(jīng)典預(yù)測(cè)方法和深度學(xué)習(xí)方法,其中經(jīng)典預(yù)測(cè)方法如ETS、ARIMA等為每個(gè)時(shí)間序列獨(dú)立地?cái)M合模型,而深度學(xué)習(xí)方法在給定的數(shù)據(jù)集中學(xué)習(xí)時(shí)間序列。這些方法在建模目標(biāo)上有所不同,一些模型直接預(yù)測(cè)一組分位數(shù),而其他模型則建模密度函數(shù)。并非所有模型都產(chǎn)生概率預(yù)測(cè)。

大型語(yǔ)言模型(LLM在自然語(yǔ)言處理任務(wù)中表現(xiàn)出色,基于transformer架構(gòu),通常在文本語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,參數(shù)數(shù)量從數(shù)百萬(wàn)到數(shù)百億不等。它們旨在通過(guò)建模條件分布來(lái)預(yù)測(cè)下一個(gè)標(biāo)記。目前,BART和T5等模型在許多流行的語(yǔ)言模型中。建議讀者參考Zhao等人(2023年)的最新研究。

基于預(yù)訓(xùn)練LLM的預(yù)測(cè)模型包括將數(shù)值時(shí)間序列數(shù)據(jù)視為原始文本,利用預(yù)訓(xùn)練的LLM進(jìn)行微調(diào),或?qū)?shù)值數(shù)據(jù)編碼為數(shù)字字符串,在預(yù)訓(xùn)練的LLM上進(jìn)行零樣本設(shè)置來(lái)獲取預(yù)報(bào)。其中,周等(2023a)提出了一種通用的“一刀切”模型,使用預(yù)訓(xùn)練的GPT-2模型作為骨干,僅對(duì)位置嵌入和層歸一化的參數(shù)進(jìn)行微調(diào)以適應(yīng)每個(gè)任務(wù)。此外,還有重新利用LLM進(jìn)行時(shí)間序列預(yù)報(bào)的方法,如將時(shí)間序列補(bǔ)丁嵌入與文本原型對(duì)齊,并將這些對(duì)齊嵌入和描述任務(wù)的自然語(yǔ)言前綴提示給凍結(jié)的LLM。而Chronos從頭開(kāi)始訓(xùn)練語(yǔ)言模型在一個(gè)大型時(shí)間序列集合上,通過(guò)縮放和量化進(jìn)行標(biāo)記化。

零樣本學(xué)習(xí)。Chronos模型是一種概率性的時(shí)間序列預(yù)測(cè)方法,它使用分類(lèi)模型對(duì)觀測(cè)值進(jìn)行分類(lèi)分布建模,執(zhí)行回歸分類(lèi)。該模型不需要針對(duì)時(shí)間序列進(jìn)行特定設(shè)計(jì)或特征,而是將時(shí)間序列值標(biāo)記化到固定詞匯表上,并在這些標(biāo)記上訓(xùn)練現(xiàn)有的語(yǔ)言模型架構(gòu)。

其他時(shí)間序列任務(wù)。最近的研究已經(jīng)研究了適用于時(shí)間序列任務(wù)的一般性模型,包括填補(bǔ)、預(yù)測(cè)、分類(lèi)和異常檢測(cè)。這些模型基于CNN的Inception模型和掩碼預(yù)訓(xùn)練框架,將一維時(shí)間序列轉(zhuǎn)換為二維圖像表示,并基于周期性對(duì)時(shí)間序列進(jìn)行分段和堆疊。這些模型在未見(jiàn)過(guò)的時(shí)間序列數(shù)據(jù)上表現(xiàn)出色,可以應(yīng)用于預(yù)測(cè)之外的任務(wù),如分類(lèi)和異常檢測(cè)。

3  Chronos:用于時(shí)間序列的語(yǔ)言建模框架

Chronos是一個(gè)框架,用于調(diào)整現(xiàn)有語(yǔ)言模型架構(gòu)和訓(xùn)練過(guò)程以進(jìn)行概率時(shí)間序列預(yù)測(cè)。盡管語(yǔ)言和時(shí)間序列都是順序的,但它們?cè)诒硎旧洗嬖诓町悾匀徽Z(yǔ)言由有限詞匯量的單詞組成,而時(shí)間序列是實(shí)值的。這種差異需要對(duì)現(xiàn)有語(yǔ)言建模框架進(jìn)行特定修改,特別是與分詞有關(guān)的修改,以便它們適用于時(shí)間序列數(shù)據(jù)。然而,由于現(xiàn)有的變換器模型在語(yǔ)言任務(wù)上表現(xiàn)出色,Chronos的設(shè)計(jì)理念是進(jìn)行最小化的修改。

3.1  時(shí)間序列標(biāo)記

考慮時(shí)間序列x1:C+H,其中前C個(gè)步驟是歷史上下文,后H個(gè)步驟是預(yù)測(cè)時(shí)域。由于語(yǔ)言模型處理有限令牌,我們需要將實(shí)值觀察值xi∈R映射到令牌集合。這涉及縮放和量化。為優(yōu)化深度學(xué)習(xí)模型,我們標(biāo)準(zhǔn)化時(shí)間序列,選擇均值縮放,將每個(gè)條目按歷史上下文的平均絕對(duì)值標(biāo)準(zhǔn)化。量化則是將實(shí)值轉(zhuǎn)換為離散令牌,使用B個(gè)bin中心和邊界。我們選擇數(shù)據(jù)無(wú)關(guān)的一致binning,以避免未見(jiàn)數(shù)據(jù)集與訓(xùn)練分布的差異。時(shí)間序列詞匯表Vts包括令牌{1, 2, …, B}以及PAD和EOS特殊標(biāo)記,用于填充缺失值、標(biāo)識(shí)序列結(jié)束。雖然時(shí)間和頻率信息常用于時(shí)間序列建模,但在Chronos中,我們只考慮序列本身。我們主要關(guān)注編碼器-解碼器T5模型的各種變體(Raffel等,2020),并額外使用GPT-2模型(Radford等,2019)進(jìn)行實(shí)驗(yàn),證明方法可擴(kuò)展至僅解碼器模型。為量化調(diào)整bin數(shù)量,需調(diào)整語(yǔ)言模型詞匯量,涉及截?cái)嗷驍U(kuò)展輸入輸出嵌入層。

3.2  目標(biāo)函數(shù)

Chronos模型使用分類(lèi)交叉熵?fù)p失函數(shù),將分詞時(shí)間序列作為輸入,預(yù)測(cè)下一個(gè)詞的分類(lèi)分布。Chronos模型的目標(biāo)是最小化真實(shí)標(biāo)簽的分布和預(yù)測(cè)分布之間的交叉熵。損失函數(shù)為:?(θ) = -H+1 X h=1 |Vts| X i=1 1(zC+h+1=i) log pθ(zC+h+1 = i|z1:C+h)。其中pθ(zC+h+1 = i|z1:C+h)表示由模型參數(shù)化θ預(yù)測(cè)的分類(lèi)分布。分類(lèi)交叉熵?fù)p失不是距離感知的目標(biāo)函數(shù),而是根據(jù)訓(xùn)練數(shù)據(jù)集中桶索引的分布將相鄰?fù)瓣P(guān)聯(lián)在一起。Chronos通過(guò)分類(lèi)進(jìn)行回歸,與典型的概率時(shí)間序列預(yù)測(cè)模型不同。選擇分類(lèi)輸出分布有兩個(gè)關(guān)鍵優(yōu)勢(shì):不需要修改語(yǔ)言模型架構(gòu)或訓(xùn)練目標(biāo),允許模型學(xué)習(xí)任意分布,包括多模態(tài)分布。

3.3  預(yù)測(cè)

時(shí)序模型通過(guò)自回歸采樣,捕捉預(yù)測(cè)分布的未來(lái)多種可能性,并精確映射預(yù)測(cè)令牌到實(shí)際值。反標(biāo)化階段調(diào)整預(yù)測(cè)值,與原始數(shù)據(jù)尺度保持一致。在均值標(biāo)定情境下,通過(guò)乘以適當(dāng)?shù)某叨纫蜃觭,確保預(yù)測(cè)結(jié)果既準(zhǔn)確又實(shí)用。

4  數(shù)據(jù)增強(qiáng)

公共時(shí)間序列數(shù)據(jù)在自然語(yǔ)言處理領(lǐng)域的相對(duì)匱乏,可以通過(guò)混合增強(qiáng)數(shù)據(jù)多樣性和使用合成數(shù)據(jù)來(lái)補(bǔ)充訓(xùn)練來(lái)解決零樣本預(yù)測(cè)模型面臨的挑戰(zhàn)。

4.1  TSMix:時(shí)間序列混合器

混合時(shí)間序列數(shù)據(jù)增強(qiáng)方法(TSMix)是一種將Mixup思想擴(kuò)展到超過(guò)兩個(gè)數(shù)據(jù)點(diǎn)的時(shí)間序列領(lǐng)域的數(shù)據(jù)增強(qiáng)方案。它從訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣特定長(zhǎng)度的時(shí)間序列,對(duì)其進(jìn)行縮放,并取其凸組合,生成示例增強(qiáng)。該方法通過(guò)混合來(lái)自不同時(shí)間序列的模式來(lái)增強(qiáng)數(shù)據(jù)的多樣性,有助于緩解深度學(xué)習(xí)模型中的過(guò)度擬合和過(guò)擬合問(wèn)題。該方法還展示了如何混合不同的模式,并生成示例增強(qiáng)。

圖2 k={1,2,3}時(shí)的TSmix增強(qiáng)示例。TSmix通過(guò)從不同數(shù)據(jù)集隨機(jī)抽樣的時(shí)間序列中取加權(quán)的組合來(lái)提高模式多樣性

4.2  KernelSynth:使用高斯過(guò)程生成合成數(shù)據(jù)

KernelSynth是一種使用高斯過(guò)程生成合成時(shí)間序列的方法,通過(guò)隨機(jī)組合高斯過(guò)程的核函數(shù)來(lái)生成新的時(shí)間序列。核函數(shù)指定了協(xié)方差函數(shù),可以生成各種模式。我們構(gòu)建了一個(gè)基核函數(shù)的集合,包括用于趨勢(shì)的線性核,用于平滑局部變化的RBF核,以及用于在典型時(shí)間序列頻率中找到季節(jié)性的周期性核。合成時(shí)間序列是通過(guò)從GP先驗(yàn)中抽取樣本來(lái)生成的。這種方法可以補(bǔ)充訓(xùn)練數(shù)據(jù)集。

圖3 (a)KernelSynth的示意圖,KernelSynth是一種基于高斯過(guò)程(GP)的合成時(shí)間序列生成方法。從核庫(kù)中采樣核函數(shù),然后使用二進(jìn)制操作(×或+)隨機(jī)組合。生成的合成時(shí)間序列在高斯過(guò)程的前置中使用了組合后的核函數(shù)。圖中展示了每個(gè)步驟中來(lái)自不同核函數(shù)的隨機(jī)樣本,顏色分別為紅色和藍(lán)色。(b)KernelSynth生成的合成時(shí)間序列示例

5  實(shí)驗(yàn)

這一部分展示了常用基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。首先,概述了數(shù)據(jù)集、訓(xùn)練策略、基準(zhǔn)和評(píng)估指標(biāo)。接著,評(píng)估了Chronos模型在領(lǐng)域內(nèi)和零樣本設(shè)置下的性能,并與局部模型和特定任務(wù)深度學(xué)習(xí)模型進(jìn)行了比較。然后,分析了各種設(shè)計(jì)選擇對(duì)Chronos模型性能的影響。最后,分析了Chronos模型的定性性能,并強(qiáng)調(diào)了其局限性。實(shí)驗(yàn)細(xì)節(jié)已歸入附錄。

5.1  數(shù)據(jù)集

為了訓(xùn)練和評(píng)估Chronos模型,我們收集了來(lái)自多個(gè)應(yīng)用領(lǐng)域的大量公開(kāi)可用數(shù)據(jù)集,包括能源、運(yùn)輸、醫(yī)療保健、零售、網(wǎng)絡(luò)、天氣、金融等。數(shù)據(jù)集總共有55個(gè),來(lái)自多個(gè)來(lái)源,包括莫納什時(shí)間序列預(yù)測(cè)存儲(chǔ)庫(kù)、M競(jìng)賽和Kaggle上的公共領(lǐng)域數(shù)據(jù)集。我們將數(shù)據(jù)集分類(lèi)為三類(lèi):僅用于訓(xùn)練的數(shù)據(jù)集(13個(gè)),用于訓(xùn)練和評(píng)估的基準(zhǔn)I數(shù)據(jù)集(15個(gè)),僅用于評(píng)估的基準(zhǔn)II數(shù)據(jù)集(27個(gè))。我們使用28個(gè)數(shù)據(jù)集來(lái)訓(xùn)練Chronos模型,包括約89萬(wàn)個(gè)一維時(shí)間序列,總共有約84億個(gè)觀察值。對(duì)于域內(nèi)(I)和零樣本(II)基準(zhǔn)數(shù)據(jù)集,我們使用每個(gè)時(shí)間序列的最后H觀察值作為留出測(cè)試集,所有模型的準(zhǔn)確性都通過(guò)它們?cè)诹舫黾仙系念A(yù)測(cè)來(lái)判斷。預(yù)測(cè)長(zhǎng)度H是任務(wù)特定的,我們將任務(wù)定義為數(shù)據(jù)集和預(yù)測(cè)長(zhǎng)度的配對(duì)。兩個(gè)基準(zhǔn)的任務(wù)在數(shù)據(jù)集大小、頻率、歷史長(zhǎng)度和預(yù)測(cè)長(zhǎng)度方面表現(xiàn)出不同的屬性,使其成為豐富的基準(zhǔn),反映了現(xiàn)實(shí)世界的場(chǎng)景。

5.2  訓(xùn)練策略

我們選擇了T5作為Chronos的主要架構(gòu),因?yàn)樗卸喾N尺寸可供選擇。我們訓(xùn)練了T5模型4種尺寸,分別為Mini(20M)、Small(46M)、Base(200M)和Large(710M),以及GPT-2基礎(chǔ)模型(90M)。我們?cè)谟?8個(gè)訓(xùn)練數(shù)據(jù)集生成的10M TSMix增強(qiáng)上訓(xùn)練了這些模型,并在訓(xùn)練過(guò)程中從增強(qiáng)數(shù)據(jù)和合成數(shù)據(jù)中采樣時(shí)間序列的比例為9:1。每個(gè)模型使用實(shí)際批次大小為256個(gè)序列進(jìn)行訓(xùn)練,使用分布式數(shù)據(jù)并行和梯度積累。我們使用AdamW優(yōu)化器,使用權(quán)重衰減為0.01的Adam優(yōu)化器對(duì)模型進(jìn)行了為期200K步的訓(xùn)練。學(xué)習(xí)率在訓(xùn)練步驟中從初始值0.001線性降至0。我們使用具有8個(gè)A100(40GB)GPU的AWS EC2實(shí)例來(lái)訓(xùn)練所有Chronos模型。

5.3  基準(zhǔn)值

我們?cè)u(píng)估了Chronos模型的性能,并將其與多種時(shí)間序列預(yù)測(cè)基準(zhǔn)進(jìn)行了比較。這些基準(zhǔn)包括天真模型、季節(jié)性天真模型、自動(dòng)ETS、自動(dòng)ARIMA和AutoTheta等統(tǒng)計(jì)預(yù)測(cè)模型,以及WaveNet、DeepAR、N-BEATS、TFT、DLinear、PatchTST、N-HiTS和GPT4TS等神經(jīng)預(yù)測(cè)模型。我們還評(píng)估了ForecastPFN,這是一個(gè)僅使用合成時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的轉(zhuǎn)換器模型。我們將Chronos模型和基準(zhǔn)分為三組:本地模型、任務(wù)特定模型和預(yù)訓(xùn)練模型。更多詳細(xì)信息請(qǐng)參閱附錄C。

5.4  評(píng)估指標(biāo)

我們?cè)u(píng)估了模型的概率和點(diǎn)預(yù)報(bào)性能,使用加權(quán)分位數(shù)損失(WQL)評(píng)估概率預(yù)報(bào),平均絕對(duì)比例誤差(MASE)評(píng)估點(diǎn)預(yù)報(bào)。WQL衡量預(yù)測(cè)分布與地面真實(shí)觀察的兼容性,針對(duì)9個(gè)分位數(shù)級(jí)別計(jì)算。分位數(shù)預(yù)報(bào)器直接在這些分位數(shù)級(jí)別上進(jìn)行訓(xùn)練,對(duì)于需要采樣的方法,使用20個(gè)樣本預(yù)報(bào)路徑來(lái)估計(jì)分位數(shù)。MASE定義為預(yù)報(bào)的絕對(duì)誤差與時(shí)間序列的歷史季節(jié)誤差之比。對(duì)于概率預(yù)報(bào)器,我們使用中位數(shù)預(yù)報(bào)(0.5分位數(shù))來(lái)計(jì)算MASE。我們采用幾何平均值聚合分?jǐn)?shù),因?yàn)槠鋵?duì)基準(zhǔn)的選擇不敏感,且模型排序保持不變。對(duì)于無(wú)法完成評(píng)估的模型,我們賦予其相對(duì)分?jǐn)?shù)為1。我們?cè)趨R總過(guò)程中給所有任務(wù)賦予了相同的權(quán)重。

5.5  主要結(jié)果

本節(jié)展示了42個(gè)數(shù)據(jù)集上的主要結(jié)果,包括Benchmark I(15個(gè)數(shù)據(jù)集)和Benchmark II(27個(gè)數(shù)據(jù)集)。Chronos模型在內(nèi)部域數(shù)據(jù)集(Benchmark I)上超過(guò)了經(jīng)典統(tǒng)計(jì)基線和特定任務(wù)的深度學(xué)習(xí)模型。在零樣本數(shù)據(jù)集(Benchmark II)上,Chronos模型超過(guò)了統(tǒng)計(jì)基線,與最佳深度學(xué)習(xí)模型表現(xiàn)相當(dāng)。通過(guò)微調(diào)方案,Chronos-T5(Small)模型在Benchmark II上取得了最佳成績(jī),顯著超過(guò)所有基線。

5.5.1  基準(zhǔn)I:域內(nèi)結(jié)果

基準(zhǔn)I包含15個(gè)數(shù)據(jù)集,用于評(píng)估Chronos模型的領(lǐng)域內(nèi)性能。所有模型在留出的測(cè)試窗口上的概率和點(diǎn)預(yù)測(cè)性能,以聚合相對(duì)分?jǐn)?shù)和平均排名為指標(biāo)。Chronos-T5模型(基礎(chǔ)版和大模型)顯著優(yōu)于基準(zhǔn)模型,獲得了最佳的聚合相對(duì)分?jǐn)?shù)和平均排名。Chronos-T5模型的小型版本(Mini和Small)以及Chronos-GPT2也優(yōu)于大多數(shù)基準(zhǔn)模型。這些結(jié)果表明,使用跨多個(gè)數(shù)據(jù)集僅進(jìn)行一次訓(xùn)練的模型比為每個(gè)任務(wù)單獨(dú)訓(xùn)練的任務(wù)特定模型更有優(yōu)勢(shì)。這種模型可以通過(guò)消除為每個(gè)任務(wù)訓(xùn)練單獨(dú)模型的必要性,簡(jiǎn)化生產(chǎn)預(yù)測(cè)系統(tǒng)中的預(yù)報(bào)工作。

圖4 在基準(zhǔn)I上的不同模型性能,包括15個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集也包含在Chronos模型的訓(xùn)練數(shù)據(jù)中。基準(zhǔn)展示了Chronos模型相對(duì)于本地統(tǒng)計(jì)模型在域內(nèi)性能,這些模型為每個(gè)時(shí)間序列單獨(dú)擬合參數(shù),以及針對(duì)每個(gè)任務(wù)專門(mén)訓(xùn)練的模型。使用季節(jié)性樸素貝葉斯基線的分?jǐn)?shù)對(duì)概率(WQL)和點(diǎn)(MASE)預(yù)報(bào)指標(biāo)進(jìn)行歸一化,并通過(guò)幾何平均值聚合以獲得聚合相對(duì)WQL和MASE。Chronos和任務(wù)特定模型(除GPT4TS外)的平均結(jié)果涵蓋了3個(gè)隨機(jī)種子。僅根據(jù)MASE對(duì)產(chǎn)生點(diǎn)預(yù)報(bào)的模型(GPT4TS)進(jìn)行比較。

5.5.2  基準(zhǔn)II:零樣本結(jié)果

基準(zhǔn)II由27個(gè)數(shù)據(jù)集組成,這些數(shù)據(jù)集在Chronos模型訓(xùn)練過(guò)程中未被使用過(guò),用于評(píng)估模型的零樣本性能。Chronos模型在基準(zhǔn)II上的表現(xiàn)優(yōu)于本地統(tǒng)計(jì)模型,在概率預(yù)報(bào)方面取得第二和第三名,點(diǎn)預(yù)測(cè)性能排名第三。Chronos模型還顯著優(yōu)于ForecastPFN和GPT4TS。微調(diào)后的Chronos-T5(小型)模型在基準(zhǔn)II上總體排名第一,超過(guò)了更大的(零樣本)Chronos模型和最佳特定任務(wù)模型。

圖5 在基準(zhǔn)II上的不同模型性能,包含在訓(xùn)練過(guò)程中沒(méi)有看到Chronos模型的27個(gè)數(shù)據(jù)集。基準(zhǔn)提供了對(duì)Chronos模型與本地統(tǒng)計(jì)模型、針對(duì)每個(gè)時(shí)間序列單獨(dú)擬合參數(shù)的任務(wù)特定模型以及預(yù)訓(xùn)練ForecastPFN模型的零樣本性能的見(jiàn)解。概率性(WQL)和點(diǎn)(MASE)預(yù)報(bào)度量值使用季節(jié)性樸素貝葉斯基線的分?jǐn)?shù)進(jìn)行歸一化,并通過(guò)幾何平均值聚合以獲得聚合相對(duì)WQL和MASE,分別進(jìn)行比較。Chronos和任務(wù)特定模型(除GPT4TS)的性能結(jié)果平均了3個(gè)隨機(jī)種子。僅基于MASE對(duì)產(chǎn)生點(diǎn)預(yù)報(bào)的模型(GPT4TS和ForecastPFN)進(jìn)行比較。

圖6 在來(lái)自基準(zhǔn)II的各個(gè)數(shù)據(jù)集上進(jìn)行微調(diào)時(shí),Chronos-T5(小型)相對(duì)于零樣本性能顯著提升,并且平均而言成為表現(xiàn)最佳的模型(見(jiàn)圖5)。

5.6  超參數(shù)分析

我們研究了不同設(shè)計(jì)選擇,如模型大小、初始化、訓(xùn)練步驟、合成數(shù)據(jù)比例、上下文長(zhǎng)度和詞匯表大小,對(duì)下游模型性能的影響。在每次實(shí)驗(yàn)中,我們只調(diào)整一個(gè)參數(shù),保持其他因素不變,以評(píng)估其對(duì)Chronos-T5(小型)性能的單獨(dú)影響。模型大小:我們?cè)囼?yàn)了從20M到710M參數(shù)的四種模型大小。發(fā)現(xiàn)隨著模型容量的增加,訓(xùn)練損失逐漸降低,域內(nèi)和零樣本基準(zhǔn)的性能也相應(yīng)提升。這表明更大的模型可能進(jìn)一步提高性能。但考慮到推理時(shí)間的限制,我們沒(méi)有進(jìn)一步探索更大的模型。

圖7 模型大小。(a)不同大小的Chronos模型訓(xùn)練損失曲線。(b)Chronos模型隨模型大小變化的域內(nèi)和零樣本性能。初始化:我們研究了使用T5語(yǔ)言模型權(quán)重初始化Chronos模型的效果。結(jié)果顯示,隨機(jī)初始化的模型收斂到較低訓(xùn)練損失的趨勢(shì)更為明顯。對(duì)于大型模型,使用語(yǔ)言模型權(quán)重初始化的模型在初始階段訓(xùn)練損失下降較快,但最終收斂到較高的損失。總體來(lái)說(shuō),在語(yǔ)言模型背景下,隨機(jī)初始化可能更優(yōu)。

圖8?不同模型大小下,使用語(yǔ)言模型權(quán)重初始化(標(biāo)記為星號(hào))的模型和三個(gè)隨機(jī)初始化的模型(標(biāo)記為圓圈)的域內(nèi)和零樣本性能的比較。

圖9 初始化。不同大小的隨機(jī)初始化的Chronos模型與使用語(yǔ)言模型權(quán)重的初始化的Chronos模型之間的訓(xùn)練損失的比較。TSMix增強(qiáng):我們?cè)赥SMix增強(qiáng)的時(shí)間序列上訓(xùn)練了Chronos模型,并研究了其對(duì)下游性能的影響。結(jié)果顯示,使用TSMix增強(qiáng)的模型在零樣本性能上有所提升,這表明TSMix增強(qiáng)了訓(xùn)練數(shù)據(jù)多樣性,提高了對(duì)未見(jiàn)數(shù)據(jù)集的性能。隨著合成數(shù)據(jù)量的增加,零樣本性能進(jìn)一步提升。

圖10 (a)使用TSMix增強(qiáng)訓(xùn)練的Chronos-T5(Small)模型在域內(nèi)和零樣本性能之間的比較,以及沒(méi)有TSMix增強(qiáng)的模型。(b)Chronos-T5(Small)模型在訓(xùn)練語(yǔ)料庫(kù)中KernelSynth數(shù)據(jù)不同比例下的域內(nèi)和零樣本性能。

合成數(shù)據(jù)比例:我們探索了KernelSynth對(duì)下游模型性能的影響。實(shí)驗(yàn)表明,在訓(xùn)練中加入合成數(shù)據(jù)可以提高域內(nèi)和零樣本指標(biāo)的性能。最穩(wěn)定的改進(jìn)出現(xiàn)在大約10%的合成數(shù)據(jù)比例時(shí),進(jìn)一步提高比例通常會(huì)降低性能。盡管僅使用合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)略遜于同時(shí)使用真實(shí)數(shù)據(jù)的模型,但其絕對(duì)性能表現(xiàn)相當(dāng)不錯(cuò)。

訓(xùn)練步驟:我們對(duì)Chronos-T5(小型,46M)進(jìn)行了1百萬(wàn)步的訓(xùn)練,以研究更長(zhǎng)的訓(xùn)練對(duì)模型性能的影響。結(jié)果顯示,隨著訓(xùn)練的進(jìn)行,下游模型性能在域內(nèi)和零樣本基準(zhǔn)上均有所提高。這表明,對(duì)于更大的模型,更長(zhǎng)的訓(xùn)練可能有助于提高性能。

圖11 Chronos-T5(小型)模型在訓(xùn)練步數(shù)、訓(xùn)練上下文長(zhǎng)度和詞匯量上的內(nèi)域和零樣本性能隨時(shí)間的變化情況。

上下文長(zhǎng)度:我們研究了上下文長(zhǎng)度對(duì)下游性能的影響,通過(guò)訓(xùn)練Chronos-T5模型,觀察到隨著上下文長(zhǎng)度的增加,性能有所改善。然而,由于大多數(shù)基準(zhǔn)數(shù)據(jù)集頻率較低且時(shí)間序列長(zhǎng)度小于1000步,需要進(jìn)一步評(píng)估更長(zhǎng)上下文長(zhǎng)度的效果。推測(cè)高頻數(shù)據(jù)集可能會(huì)受益于更長(zhǎng)的上下文,有助于捕捉長(zhǎng)期季節(jié)性模式。

詞匯量:我們通過(guò)不同詞匯量的Chronos-T5模型訓(xùn)練,發(fā)現(xiàn)隨著詞匯量的增加,點(diǎn)預(yù)測(cè)指標(biāo)MASE持續(xù)提高,而WQL在較大詞匯量時(shí)開(kāi)始改善后惡化。MASE與單個(gè)系列規(guī)模無(wú)關(guān),與訓(xùn)練損失緊密相關(guān),而WQL與規(guī)模相關(guān),表現(xiàn)不太可預(yù)測(cè)。這些指標(biāo)特性的討論詳見(jiàn)附錄D。

5.7  定性分析和局限性

在此部分,我們對(duì)Chronos模型生成的預(yù)測(cè)進(jìn)行定性分析,并指出標(biāo)記化技術(shù)的局限性。我們主要關(guān)注合成時(shí)間序列的生成,以進(jìn)行不同類(lèi)型時(shí)序模式的受控分析。如需了解實(shí)際數(shù)據(jù)集的預(yù)測(cè),請(qǐng)參考附錄E中的圖22至圖24。

獨(dú)立同分布噪聲:我們生成了由兩種高斯觀測(cè)值組成的時(shí)間序列,并用Chronos-T5(基礎(chǔ)版)進(jìn)行預(yù)測(cè)。結(jié)果顯示,模型預(yù)測(cè)準(zhǔn)確,80%的預(yù)測(cè)區(qū)間與真實(shí)區(qū)間相吻合。

圖12 Chronos-T5(基礎(chǔ)版)對(duì)合成模式生成的預(yù)測(cè)。(a) 噪聲:Chronos對(duì)于高斯噪聲生成了合理的預(yù)測(cè),80%的預(yù)測(cè)區(qū)間與底層分布區(qū)間匹配(由水平虛線藍(lán)色線表示)。(b) 趨勢(shì):Chronos正確地預(yù)測(cè)了線性趨勢(shì)(頂部),但對(duì)于指數(shù)趨勢(shì)(底部)則難以應(yīng)對(duì)。(c) 季節(jié)性:Chronos能夠準(zhǔn)確建模不同復(fù)雜程度的季節(jié)性模式(頂部為單季節(jié)性,底部為三季節(jié)性)。(d) 組合模式:Chronos對(duì)通過(guò)添加(頂部)或乘法(底部)組合趨勢(shì)和季節(jié)性模式生成的時(shí)間序列進(jìn)行準(zhǔn)確預(yù)測(cè)。

趨勢(shì)和季節(jié)性:Chronos能夠準(zhǔn)確預(yù)測(cè)線性趨勢(shì),但對(duì)指數(shù)趨勢(shì)的預(yù)測(cè)較為困難。當(dāng)上下文不足時(shí),模型在估計(jì)趨勢(shì)方面可能過(guò)于保守。然而,隨著上下文增長(zhǎng),模型能夠準(zhǔn)確識(shí)別模式和趨勢(shì)。此外,模型在識(shí)別季節(jié)性模式方面表現(xiàn)優(yōu)秀。

圖13 當(dāng)上下文不夠長(zhǎng)時(shí),Chronos-T5(基礎(chǔ)版)往往會(huì)低估趨勢(shì),如經(jīng)典航空旅客數(shù)據(jù)(月度)和24個(gè)月預(yù)測(cè)時(shí)間跨度下的例子所示。上圖:只有120個(gè)觀測(cè)值作為上下文時(shí),預(yù)測(cè)中位數(shù)與前一趨勢(shì)相比趨于平緩。下圖:有完整的上下文,即144個(gè)觀測(cè)值時(shí),預(yù)測(cè)更緊密地跟隨趨勢(shì)。

自回歸過(guò)程:我們對(duì)不同階數(shù)的平穩(wěn)AR過(guò)程生成的時(shí)間序列進(jìn)行了預(yù)測(cè),并將Chronos-T5(基礎(chǔ)版)的預(yù)測(cè)結(jié)果與真實(shí)AR模型、正確階數(shù)的AR模型和AutoARIMA模型的預(yù)測(cè)結(jié)果進(jìn)行了比較。結(jié)果顯示,Chronos在所有四個(gè)AR過(guò)程中都生成了令人信服的預(yù)測(cè)。

圖14 Chronos-T5(基礎(chǔ)版)針對(duì)AR(1)和AR(4)過(guò)程生成的時(shí)序的預(yù)測(cè)結(jié)果,與真實(shí)世界AR模型、正確階數(shù)的擬合AR模型和AutoARIMA模型生成的預(yù)測(cè)結(jié)果進(jìn)行比較。Chronos-T5(基礎(chǔ)版)在這兩種情況下都能生成可信的預(yù)測(cè)和預(yù)測(cè)區(qū)間。所有AR模型都能正確擬合更簡(jiǎn)單的AR(1)過(guò)程,并且相對(duì)于Chronos-T5(基礎(chǔ)版),具有更好的MSE;然而,在AR(4)過(guò)程中,其復(fù)雜性增加,Chronos-T5(基礎(chǔ)版)在真實(shí)世界AR模型之后排名第二。

靈活的預(yù)測(cè)分布:使用分類(lèi)分布為Chronos提供了生成不同形狀預(yù)測(cè)分布的靈活性。模型輸出的預(yù)測(cè)分布形狀各異,包括多模態(tài)分布。

圖15 來(lái)自Chronos模型對(duì)NN5(每日)、交通和醫(yī)院數(shù)據(jù)集的序列的預(yù)測(cè)分布分布圖。每個(gè)圖都顯示了五個(gè)預(yù)測(cè)步驟(h=1,…,5)的預(yù)測(cè)分布:密度是通過(guò)核密度估計(jì)從樣本預(yù)測(cè)中獲得的。盡管交叉熵不關(guān)心距離,但模型學(xué)會(huì)了估計(jì)鄰近標(biāo)記的分布,以及各種形狀的分布,包括多模態(tài)分布。

溢出和精度損失:Chronos的一個(gè)限制是其分詞方法(見(jiàn)第3.1節(jié))。具體來(lái)說(shuō),標(biāo)記代表的數(shù)據(jù)范圍是[-15s, 15s],其中s為數(shù)據(jù)的尺度。若s過(guò)小,某些觀察值會(huì)超出范圍,如圖16a的稀疏系列。而s過(guò)大則會(huì)導(dǎo)致精度損失,因?yàn)榻咏闹悼赡鼙挥成涞酵粯?biāo)記上,如圖16b所示。盡管有這些限制,但第5.5節(jié)的結(jié)果表明,Chronos模型在現(xiàn)實(shí)數(shù)據(jù)上表現(xiàn)良好。未來(lái)的工作將關(guān)注如何改進(jìn)分詞方法以克服這些邊緣情況。

圖16 由于縮放和量化導(dǎo)致的精度損失。在(a)中,數(shù)據(jù)由每隔n=10、20、50個(gè)觀察值(從上到下)的單位尖峰組成:這里的尺度是1/n,因此最大可表示值為15/n。當(dāng)1>15/n時(shí),模型不可能恰當(dāng)?shù)夭蹲降郊夥澹ǔ俗罡咔闆r),因?yàn)樗鼈兊闹禌](méi)有被標(biāo)記準(zhǔn)確地代表。在(b)中,數(shù)據(jù)是一個(gè)正弦波,它向上移動(dòng)了μ=1、10、50:這里的尺度是μ,隨著信號(hào)的方差相對(duì)于μ變得越來(lái)越小,標(biāo)記的精度就會(huì)下降。

6  討論及展望

Chronos作為實(shí)用預(yù)訓(xùn)練時(shí)間序列預(yù)測(cè)模型的先驅(qū)之一,在綜合測(cè)試數(shù)據(jù)集上展示了顯著的零樣本性能,打開(kāi)了多種研究途徑。

6.1  超越單變量零步預(yù)測(cè)

我們?cè)趩巫兞繒r(shí)間序列預(yù)測(cè)上評(píng)估了Chronos的性能,并發(fā)現(xiàn)它在特定任務(wù)上表現(xiàn)優(yōu)異。雖然可以通過(guò)微調(diào)提高性能,但預(yù)測(cè)任務(wù)通常需要考慮協(xié)變量。未來(lái)研究可探索將協(xié)變量融入預(yù)訓(xùn)練模型中,或結(jié)合其他輕量級(jí)模型以提高性能。此外,Chronos也可能有助于其他時(shí)間序列分析任務(wù)。

6.2  推斷

Chronos模型的推理速度可能較慢,但其優(yōu)點(diǎn)在于可以部署在各種數(shù)據(jù)集上,簡(jiǎn)化了預(yù)測(cè)流程。為提高推理速度,可考慮使用優(yōu)化的CUDA內(nèi)核、量化、更快解碼技術(shù)等。同時(shí),長(zhǎng)上下文語(yǔ)言模型的發(fā)展也可能提高Chronos在捕捉季節(jié)性模式方面的性能。其他文本語(yǔ)言模型技術(shù)也有望提高預(yù)報(bào)質(zhì)量。

圖17 不同模型對(duì)單個(gè)時(shí)間序列預(yù)測(cè)的推理時(shí)間,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行了平均,同時(shí)突出了模型所需的計(jì)算要求。

6.3  數(shù)據(jù)

大模型在大規(guī)模時(shí)序數(shù)據(jù)集上訓(xùn)練可獲得出色的性能,但公開(kāi)時(shí)序數(shù)據(jù)有限。為解決此問(wèn)題,時(shí)序社區(qū)需獲取更大規(guī)模的數(shù)據(jù)集,或開(kāi)發(fā)更好的合成時(shí)序生成方法。我們已在這方面取得進(jìn)展,使用高斯過(guò)程生成的合成數(shù)據(jù)可改善模型性能。未來(lái)研究可進(jìn)一步探索模型失敗模式,并提出改進(jìn)方案以縮小真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之間的差距。

本文章轉(zhuǎn)載微信公眾號(hào)@算法進(jìn)階

上一篇:

手把手拆解:從零實(shí)現(xiàn)Llama3大模型(Python)

下一篇:

一文徹底搞懂機(jī)器學(xué)習(xí) - 混淆矩陣(Confusion Matrix)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)