Time Series Transformer

summary:

Time Series Transformer[TST]とは,時系列データに特化したニューラルネットワークモデルであり,特に従来のRNNやLSTMが持つ順次的な計算の非効率性を改善することを目指している.

TSTは,トランスフォーマーアーキテクチャを基盤にしており,その優れた並列計算能力と長期的な依存関係の学習能力を活かして,時系列データの予測や分類タスクに利用される.

従来の時系列モデルであるARモデル[自己回帰モデル]やARMAモデル[自己回帰和分移動平均モデル]とは異なり,TSTは非線形な特徴や複雑な依存関係を学習する能力を有する.

ARモデル[自己回帰モデル]は,現在の値が過去の値の線形結合であると仮定し,時系列データ $y_t$ を次のように定式化するものである. \[y_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \epsilon_t\]

ここで,$\phi_1, \phi_2, \dots, \phi_p$ はモデルのパラメータ,$\epsilon_t$ はホワイトノイズ[白色雑音]である.

ARMAモデル[自己回帰和分移動平均モデル]は,ARモデルに移動平均[MA]成分を加えたものであり,以下のように定式化される.\[y_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q} + \epsilon_t\]

ここで,$\theta_1, \theta_2, \dots, \theta_q$ は移動平均成分のパラメータであり,$\epsilon_t$ はホワイトノイズ[白色雑音]である.

これに対して,TSTは次のような点でこれらの伝統的なモデルと異なる.

非線形性：ARやARMAは基本的に線形モデルであるが,TSTは非線形な依存関係を捉えることができる.特に,トランスフォーマー[Transformer]の自己注意機構は,入力の異なる位置にある情報を効果的に組み合わせることができ,複雑な時間的関係を学習できる
長期依存関係の学習：ARやARMAは,通常,過去の数ステップの情報に基づいて予測を行うため,長期的な依存関係の学習が苦手である.これに対して,TSTはトランスフォーマーの自己注意機構により,時間系列の長期間にわたる依存関係を直接的に学習することができる
アーキテクチャの柔軟性：ARやARMAは固定された数のパラメータ[過去の時点の重み]を使うのに対して,TSTはトランスフォーマーの多層アーキテクチャを使用し,より複雑なモデルを学習できるため,さまざまな時系列タスクに対して柔軟に適用できる.

TSTにおいては,トランスフォーマーの基本的な構造が重要である.トランスフォーマーは,自己注意機構[Self-Attention Mechanism]を使用して,入力データ内の異なる位置にある情報を効果的に組み合わせることができる.これにより,RNNやLSTMが抱える「勾配消失問題」や「長期依存関係の学習の難しさ」を回避することが可能になる.

TSTでは,自己注意機構を時間系列データに適用することで,時系列の異なる時間点間での関係を捉えることができる.具体的には,時間系列の各データポイントを入力として,トランスフォーマーのエンコーダー部分を通して特徴量を抽出し,その後の予測に利用する.自己注意機構は,次のように定義される.\[\text{Attention}[Q, K, V] = \text{softmax} \left[ \frac{QK^T}{\sqrt{d_k}} \right] V\]

ここで,$Q$はクエリ行列,$K$はキー行列,$V$はバリュー行列であり,$d_k$はキーの次元数である.この注意機構により,入力の異なる部分間の依存関係をモデルが学習することができ,時間的な特徴を効率的に捉える.

TSTが導入された背景には,従来のRNNやLSTMが時系列データの長期間にわたる依存関係を学習する際に計算効率が悪化し,モデルが過去の情報を十分に保持できないという問題があった.このような課題に対して,トランスフォーマーのアーキテクチャが注目され,特に並列計算が可能であり,長期的な依存関係を直接的に捉える能力が,時系列解析において大きな利点となった.

TSTは,従来のトランスフォーマーをそのまま時系列データに適用するのではなく,いくつかの改良を加えている.その一つは,位置エンコーディングの取り扱いである.トランスフォーマーは元々,順序のない入力を処理するために位置エンコーディングを加えているが,時系列データでは時間的な順序が重要であるため,これを適切に反映させるための工夫がなされている.

さらに,TSTはトランスフォーマーのエンコーダー部分に加えて,時系列データの予測タスクに特化したアーキテクチャを採用することが多い.これにより,モデルは過去のデータからの予測だけでなく,未来の値を予測する能力も高めている.

このように,TSTはトランスフォーマーの強力な特性を活かし,時系列データに特有の課題を解決するために進化したモデルであり,従来の手法に比べて高い精度を達成することができる.

参照

Salinas, D., Flunkert, V., Gasthaus, J., and Deisenroth, M. W. P., "DeepAR: Probabilistic forecasting with autoregressive recurrent networks," arXiv preprint arXiv:1704.04110, 2017.
Woo, G., Liu, C., Kumar, A., Xiong, C., Savarese, S., and Sahoo, D., "Unified training of universal time series forecasting transformers," arXiv preprint arXiv:2402.02592, 2024.

Mathematics is the language with which God has written the universe.

SLURM Avro DataFusion NAT NIC OpenConfig