Transformer

Def：

系列長を $n$, 隠れ次元を $d_{\mathrm{model}}$ とし, 入力系列を行列\[X \in \mathbb{R}^{n \times d_{\mathrm{model}}}\]で表す.層数を $L \in \mathbb{N}$ とすると, Transformer とは写像\[T[X] = [F_L \circ F_{L-1} \circ \cdots \circ F_1][X]\]として定義される.ここで各 $F_l: \mathbb{R}^{n \times d_{\mathrm{model}}} \to \mathbb{R}^{n \times d_{\mathrm{model}}}$ は Transformer ブロックであり, 入力 $X^{[l-1]}$ を受け取って自己注意機構とフィードフォワード写像を残差接続付きで適用する.すなわち, \[\tilde{X}^{[l]} = \mathrm{MHA}^{[l]}[X^{[l-1]}] + X^{[l-1]},\]\[X^{[l]} = \mathrm{FFN}^{[l]}[\tilde{X}^{[l]}] + \tilde{X}^{[l]}.\]ただし $\mathrm{MHA}^{[l]}$ は複数の線形写像 $[W_Q^{[i]}, W_K^{[i]}, W_V^{[i]}]$ に基づくスケールド・ドット積注意の並列結合であり, $\mathrm{FFN}^{[l]}$ は非線形活性化関数[通常は ReLU または GELU]を挟んだ 2 層の全結合写像である.初期条件は $X^{[0]} = X$ と置かれる.

すなわち, Transformer とは入力行列に対して自己注意とフィードフォワードを組み合わせた層 $F_l$ を有限個合成することで定義される関数写像である.

Transformer は2017年に Vaswani らによる論文 "Attention Is All You Need" において初めて提案された枠組みであり, それ以前の自然言語処理において支配的であった RNN[特に LSTM や GRU]や CNN を用いた系列モデルからの決定的転換点を画したものである.この革新の根幹は, 系列データの依存関係を逐次的にではなく, 行列演算により並列的に捉える「自己注意[Self-Attention]」機構にあった.

数学的定義において Transformer は, 入力系列を数値ベクトルの行列として表現し, これに対して層ごとに Transformer ブロックを適用してゆく合成写像として定義される.入力はまず埋め込み表現\[X \in \mathbb{R}^{n \times d_{\mathrm{model}}}\]として与えられ, 系列長 $n$ と隠れ次元 $d_{\mathrm{model}}$ をもつ.この入力には位置エンコーディング $PE(X)$ が加算され, 系列の順序情報が保持される.各層 $F_l$ は二つの主要部分からなる.第一は多頭自己注意（Multi-Head Self-Attention, MHA）であり, これは線形変換\[W_Q, W_K, W_V \in \mathbb{R}^{d_{\mathrm{model}} \times d_k}\]により系列全体をクエリ, キー, バリューに写像し, スケールド・ドット積\[\mathrm{Attention}(Q,K,V) = \mathrm{softmax}\left(\frac{Q K^\top}{\sqrt{d_k}}\right) V\]によって注意重みを計算し加重和をとる操作である.第二はフィードフォワード層[Feed Forward Network, FFN]であり, 位置ごとに独立して作用する二層の全結合写像と非線形関数[ReLU または GELU]からなる\[\mathrm{FFN}(x) = \phi(x W_1 + b_1) W_2 + b_2\]で表される.両者はいずれも残差接続[Residual Connection]を持ち, 層正規化[Layer Normalization]と組み合わせることで勾配消失を防ぎ, 深いネットワークの安定した学習を保証する.

歴史的にみれば, この形式は二つの点で画期的であった.第一に, 逐次処理が必然であった RNN と異なり, Transformer は全系列を行列として同時に扱うため, GPU 上で極めて効率的に並列計算が可能となった.これにより学習スピードは飛躍的に向上した.第二に, 自己注意の重みは系列内の全ての要素間の関連性を直接表現するため, 長距離依存性を捉える能力において RNN より優れていた.さらに, 注意重みの可視化によりモデルの解釈性も向上した.こうした特性が, 機械翻訳をはじめとする自然言語処理の多くの課題で決定的な性能向上をもたらした.

数理的には, Transformer の構造は入力に対する写像\[T(X) = (F_L \circ \cdots \circ F_1)(X + PE(X))\]という関数合成として表される.この抽象化は重要である.なぜなら, Transformer は単なる工学的構造ではなく, 自己注意とフィードフォワードの合成に基づく汎用的表現学習器とみなされるからである.すなわち, 系列 $X$ を入力とする多段の自己写像であり, 十分な層数とパラメータを与えれば, 言語や画像といったモダリティを問わず高い表現力をもつ汎用学習モデルとなることが, この形式に内包されている.特に, 理論的研究により有限次元での Universal Function Approximator としての性質が示唆されている.

その後の歴史において, BERT[2018], GPT 系列[2018–現在], Vision Transformer[2020], CLIP[2021]といった応用が登場し, Transformer は自然言語処理から画像処理, 音声, マルチモーダル学習, 科学データ解析やタンパク質構造予測に至るまで拡張された.各応用は先の定義に立脚しつつ, 注意機構の修正[Sparse Attention, Linear Attention], 位置情報符号化の工夫[相対位置エンコーディング, 回転位置エンコーディング], 効率化手法[LoRA, Adapter 等]を加えたものである.近年では, ChatGPT や GPT-4 といった大規模言語モデル[Large Language Model, LLM]の基盤技術として, その重要性はさらに高まっている.したがって Transformer の定義は単なるアーキテクチャの仕様ではなく, 現代機械学習における普遍的枠組みの基盤をなしていると言える.

Mathematics is the language with which God has written the universe.

SLURM LASSO ピアソンの積率相関係数リンター後者関数スコラーの定理