線形Transformerの特殊なケースとしての最小二乗法

Theorem：

任意のデザイン行列 $X \in \mathbb{R}^{n \times k}$ と応答ベクトル $Y \in \mathbb{R}^{n \times 1}$ に対して [1]、単層の線形Transformerのフォワードパス：\[Output(X) = \frac{1}{n} (XW_Q)(XW_K)^T(XW_V) \cdot W_{FFN} \cdot W_P\]が,最小二乗法[OLS]の解：\[\hat{Y} = X(X^T X)^{-1} X^T Y\]と数学的に等価になるようなパラメータ設定 $\{W_Q, W_K, W_V, W_{FFN}, W_P\}$ が厳密に存在する.

具体的には,経験共分散行列 $\frac{1}{n} X^T X = V \Lambda V^T$ のスペクトル分解から導かれる行列 $L = V \Lambda^{-1/2}$ を用いて,以下の設定を行うことでこの等価性が成立する.

$W_Q = L$
$W_K = L$
$W_V = L$
$W_{FFN} = I$ [単位行列]
$W_P = P$ [ここで, $P = \frac{1}{n} L^T X^T Y$].

証明の要点

経験共分散行列のスペクトル分解[固有値分解]を用いることにより, Transformerのアテンション機構が 最小二乗法[OLS]の解を一段の計算で導き出せることを代数的に証明した.

これは, TransformerというニューラルネットワークとOLSという統計的推定量が, 数学的にまったく同じ構造[構造的同型性]を持つことを示している.

線形モデルの限界

複雑なLLMも, 最もシンプルな形[単層・線形]に削ぎ落とすと, 「過去のデータから最適な答えを推測する統計計算[OLS]」を行う計算機にすぎない. この初期モデル[OLS-Transformer]では, 記憶容量は回路のサイズ $d$ に比例し, 線形スケールにとどまる.

\[ \text{線形アテンションの記憶容量} \sim d\]

Softmaxによる記憶容量の爆発的拡張

TransformerにSoftmaxという計算を導入すると, 数学的なエネルギー関数の形が変化する. これにより, 同じ回路規模であっても, 蓄えられる情報の密度を指数関数的に増加させることが可能となる.

\[ \text{Softmaxアテンションの記憶容量} \sim 2^{d/2}\]

Softmaxアテンションは, エネルギー関数を多項式から指数関数の形へと変えることで, わずかな差を「巨大な差」に増幅させる.この性質により,

検索対象以外のノイズがほぼゼロに抑え込まれ,
ターゲットとなる情報だけをピンポイントで「鋭く」抽出でき,
データ同士が非常に近くに配置されていても, 干渉せずに区別できる.

この「鋭さ」こそが, 限られた回路の中に天文学的な量の情報を詰め込むことを可能にしている.

参考文献

Tan, X., & Zhao, Y. ORDINARY LEAST SQUARES IS A SPECIAL CASE OF TRANSFORMER. arXiv Preprint, 2026.
Link: https://arxiv.org/abs/2604.13656

Mathematics is the language with which God has written the universe.

追記型アーキテクチャ FFF Karmada SkyPilot TensorRT-LLM TriAttention