最小二乗法は、観測データへの当てはまりを残差二乗和の最小化によって定式化する推定手法である。線形回帰モデルにおける回帰係数の推定に広く用いられ、代数的・幾何学的・統計的に豊かな構造を持つ。
$n$ 個の観測値と $p$ 個の説明変数からなる線形モデル
\[\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}\]
を考える。ここで $\boldsymbol{Y} \in \mathbb{R}^n$ は目的変数のベクトル、$X \in \mathbb{R}^{n \times p}$ は計画行列、$\boldsymbol{\beta} \in \mathbb{R}^p$ は回帰係数ベクトル、$\boldsymbol{\varepsilon} \in \mathbb{R}^n$ は誤差ベクトルである。
残差二乗和
\[S(\boldsymbol{\beta}) = \|\boldsymbol{Y} - X\boldsymbol{\beta}\|^2 = (\boldsymbol{Y} - X\boldsymbol{\beta})^\top (\boldsymbol{Y} - X\boldsymbol{\beta})\]
を $\boldsymbol{\beta}$ について最小化する。
$S(\boldsymbol{\beta})$ を $\boldsymbol{\beta}$ で微分してゼロとおくと、
\[X^\top X \boldsymbol{\beta} = X^\top \boldsymbol{Y}\]
が得られる。これを正規方程式という。$X$ が列フルランク($\text{rank}(X) = p$)のとき $X^\top X$ は正則であり、最小二乗推定量
\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{Y}\]
が一意に定まる。
最小二乗法は、$\boldsymbol{Y}$ を計画行列 $X$ の列空間 $\mathcal{C}(X)$ へ直交射影する操作に対応する。射影行列(ハット行列)を
\[H = X(X^\top X)^{-1}X^\top\]
と定義すると、fitted values は
\[\hat{\boldsymbol{Y}} = H\boldsymbol{Y}\]
であり、残差ベクトルは
\[\hat{\boldsymbol{\varepsilon}} = \boldsymbol{Y} - \hat{\boldsymbol{Y}} = (I - H)\boldsymbol{Y}\]
となる。$H$ と $I - H$ はともに直交射影行列であり、$\hat{\boldsymbol{Y}} \perp \hat{\boldsymbol{\varepsilon}}$ が成立する。
$E[\boldsymbol{\varepsilon}] = \boldsymbol{0}$ のもとで、
\[E[\hat{\boldsymbol{\beta}}] = (X^\top X)^{-1}X^\top E[\boldsymbol{Y}] = \boldsymbol{\beta}\]
が成立し、$\hat{\boldsymbol{\beta}}$ は不偏推定量である。
$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I$ のもとで、
\[\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (X^\top X)^{-1}\]
が成立する。
誤差項が $E[\boldsymbol{\varepsilon}] = \boldsymbol{0}$、$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I$ を満たすとき、$\hat{\boldsymbol{\beta}}$ は $\boldsymbol{\beta}$ の線形不偏推定量のクラスの中で分散最小(BLUE: Best Linear Unbiased Estimator)である。
$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I)$ を追加で仮定すると、
\[\hat{\boldsymbol{\beta}} \sim \mathcal{N}\!\left(\boldsymbol{\beta},\ \sigma^2(X^\top X)^{-1}\right)\]
が成立し、t検定・F検定による推測が可能となる。
残差二乗和 $RSS = \|\hat{\boldsymbol{\varepsilon}}\|^2$ に基づく不偏推定量は
\[\hat{\sigma}^2 = \frac{RSS}{n - p}\]
であり、
\[\frac{RSS}{\sigma^2} \sim \chi^2(n-p)\]
が成立する。自由度 $n - p$ は観測数から推定パラメータ数を引いたものである。
$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I)$ のもとで対数尤度を最大化すると、
\[\ell(\boldsymbol{\beta}) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\|\boldsymbol{Y} - X\boldsymbol{\beta}\|^2\]
となり、$\boldsymbol{\beta}$ に関する最大化は残差二乗和の最小化と等価である。すなわち正規誤差のもとでは、最小二乗推定量と最尤推定量は一致する。
$X$ が列フルランクでない場合、$X^\top X$ は正則でなく $\hat{\boldsymbol{\beta}}$ は一意に定まらない。このとき Moore–Penrose 擬似逆行列
\[X^+ = (X^\top X)^- X^\top\]
を用いることで、ノルム最小の最小二乗解
\[\hat{\boldsymbol{\beta}} = X^+ \boldsymbol{Y}\]
を得る。fitted values $\hat{\boldsymbol{Y}} = H\boldsymbol{Y}$ はランク落ちの場合にも一意に定まる。
最小二乗法は残差二乗和の最小化として定式化され、正規方程式の解として回帰係数の推定量を与える。幾何学的には列空間への直交射影に対応し、Gauss–Markov の定理により線形不偏推定量の中で最小分散を達成する。正規誤差の仮定を加えることで最尤推定量とも一致し、統計的推測の基盤となる。
Mathematics is the language with which God has written the universe.