Transformerの万能近似能力

Theorem：Universal Approximation Theorem

コンパクトな台[compact support]を持つ,任意の連続な順列等価[permutation equivariant]シーケンス対シーケンス関数 $f$ を対象とする場合：
任意の $\epsilon > 0 $に対して, 以下を満たすTransformerモデル $\mathcal{T}$ が存在する.\[\sup_{X \in \mathbb{K}} \| f(X) - \mathcal{T}(X) \| < \epsilon\]ここで, $\mathbb{K} \subset \mathbb{R}^{d \times n}$ は入力シーケンスのコンパクトな領域である.本来,自己注意[self-attention]メカニズムは順列等価[入力の順番を入れ替えても出力が同様に入れ替わるだけ]という性質を持つが,位置エンコーディング[positional encodings]を使用することでこの制限を回避し,一般的な関数を近似可能となる.すなわち,位置エンコーディング[positional encodings]を使用する場合,順列等価性の制限を超えて,コンパクトな領域において,任意の連続なシーケンス対シーケンス関数を万能近似することができる.

この定理の証明プロセスにおいて,自己注意層は入力シーケンスの「文脈的なマッピング[contextual mappings]」を計算する重要な役割を担い,フィードフォワード層とともに万能近似プロパティを実現するために不可欠な要素であることが明らかにされている.

この定理は,LLMが言語理解や生成といった複雑なタスクを遂行できる理論的な根拠[表現力の高さ]を説明する重要なものということができる.また,この定理は,Transformerが単なるパターンマッチングではなく,複雑なシーケンス間の写像を理論上いかなる精度でも模倣できる「万能な計算機」としての性質を持つことを証明している.

この定理を成立させるために,Transformerの各コンポーネントは以下の役割を担う.

自己注意層[Self-attention layers]: 固定された幅の自己注意層は,入力シーケンスの文脈的なマッピング[contextual mappings]を計算する役割を担う.
これは,あるトークンの表現を他のトークンの情報に基づいて更新するために不可欠なプロセスである.
フィードフォワード層[Feed-forward layers]: 自己注意層によって得られた文脈情報を基に,非線形な変換を行い,最終的な近似精度を確保するために寄与する.
パラメータの共有: 多くのパラメータが層間で共有されている[shared parameters]という構造上の制約があるにもかかわらず,このような強力な表現能力[expressive power]を持つことは驚くべき結果であると指摘されている.

この定理は,位置情報で順番を認識し,自己注意で文脈を整理し,フィードフォワードで値を調整する,という一連の構造が,あらゆる変換ルールをコピーするのに十分であることを示したものである.

参考文献

Chulhee Yun, et al.（2019）. Are Transformers universal approximators of sequence-to-sequence functions?
arXiv: https://arxiv.org/abs/1912.10077

2026-03-21.

Mathematics is the language with which God has written the universe.

光トランスポンダー LightMem MindsDB Lance Format SLURM Iceberg