最小二乗法

最小二乗法は、観測データへの当てはまりを残差二乗和の最小化によって定式化する推定手法である。線形回帰モデルにおける回帰係数の推定に広く用いられ、代数的・幾何学的・統計的に豊かな構造を持つ。

設定

$n$ 個の観測値と $p$ 個の説明変数からなる線形モデル

\[\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}\]

を考える。ここで $\boldsymbol{Y} \in \mathbb{R}^n$ は目的変数のベクトル、$X \in \mathbb{R}^{n \times p}$ は計画行列、$\boldsymbol{\beta} \in \mathbb{R}^p$ は回帰係数ベクトル、$\boldsymbol{\varepsilon} \in \mathbb{R}^n$ は誤差ベクトルである。

最小二乗推定量の導出

最小化問題

残差二乗和

\[S(\boldsymbol{\beta}) = \|\boldsymbol{Y} - X\boldsymbol{\beta}\|^2 = (\boldsymbol{Y} - X\boldsymbol{\beta})^\top (\boldsymbol{Y} - X\boldsymbol{\beta})\]

を $\boldsymbol{\beta}$ について最小化する。

正規方程式

$S(\boldsymbol{\beta})$ を $\boldsymbol{\beta}$ で微分してゼロとおくと、

\[X^\top X \boldsymbol{\beta} = X^\top \boldsymbol{Y}\]

が得られる。これを正規方程式という。$X$ が列フルランク（$\text{rank}(X) = p$）のとき $X^\top X$ は正則であり、最小二乗推定量

\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{Y}\]

が一意に定まる。

幾何学的解釈

最小二乗法は、$\boldsymbol{Y}$ を計画行列 $X$ の列空間 $\mathcal{C}(X)$ へ直交射影する操作に対応する。射影行列（ハット行列）を

\[H = X(X^\top X)^{-1}X^\top\]

と定義すると、fitted values は

\[\hat{\boldsymbol{Y}} = H\boldsymbol{Y}\]

であり、残差ベクトルは

\[\hat{\boldsymbol{\varepsilon}} = \boldsymbol{Y} - \hat{\boldsymbol{Y}} = (I - H)\boldsymbol{Y}\]

となる。$H$ と $I - H$ はともに直交射影行列であり、$\hat{\boldsymbol{Y}} \perp \hat{\boldsymbol{\varepsilon}}$ が成立する。

推定量の統計的性質

不偏性

$E[\boldsymbol{\varepsilon}] = \boldsymbol{0}$ のもとで、

\[E[\hat{\boldsymbol{\beta}}] = (X^\top X)^{-1}X^\top E[\boldsymbol{Y}] = \boldsymbol{\beta}\]

が成立し、$\hat{\boldsymbol{\beta}}$ は不偏推定量である。

分散共分散行列

$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I$ のもとで、

\[\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (X^\top X)^{-1}\]

が成立する。

Gauss–Markov の定理

誤差項が $E[\boldsymbol{\varepsilon}] = \boldsymbol{0}$、$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I$ を満たすとき、$\hat{\boldsymbol{\beta}}$ は $\boldsymbol{\beta}$ の線形不偏推定量のクラスの中で分散最小（BLUE: Best Linear Unbiased Estimator）である。

正規誤差のもとでの分布

$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I)$ を追加で仮定すると、

\[\hat{\boldsymbol{\beta}} \sim \mathcal{N}\!\left(\boldsymbol{\beta},\ \sigma^2(X^\top X)^{-1}\right)\]

が成立し、t検定・F検定による推測が可能となる。

誤差分散の推定

残差二乗和 $RSS = \|\hat{\boldsymbol{\varepsilon}}\|^2$ に基づく不偏推定量は

\[\hat{\sigma}^2 = \frac{RSS}{n - p}\]

であり、

\[\frac{RSS}{\sigma^2} \sim \chi^2(n-p)\]

が成立する。自由度 $n - p$ は観測数から推定パラメータ数を引いたものである。

最小二乗法と最尤推定の関係

$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I)$ のもとで対数尤度を最大化すると、

\[\ell(\boldsymbol{\beta}) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\|\boldsymbol{Y} - X\boldsymbol{\beta}\|^2\]

となり、$\boldsymbol{\beta}$ に関する最大化は残差二乗和の最小化と等価である。すなわち正規誤差のもとでは、最小二乗推定量と最尤推定量は一致する。

ランク落ちと一般化逆行列

$X$ が列フルランクでない場合、$X^\top X$ は正則でなく $\hat{\boldsymbol{\beta}}$ は一意に定まらない。このとき Moore–Penrose 擬似逆行列

\[X^+ = (X^\top X)^- X^\top\]

を用いることで、ノルム最小の最小二乗解

\[\hat{\boldsymbol{\beta}} = X^+ \boldsymbol{Y}\]

を得る。fitted values $\hat{\boldsymbol{Y}} = H\boldsymbol{Y}$ はランク落ちの場合にも一意に定まる。

まとめ

最小二乗法は残差二乗和の最小化として定式化され、正規方程式の解として回帰係数の推定量を与える。幾何学的には列空間への直交射影に対応し、Gauss–Markov の定理により線形不偏推定量の中で最小分散を達成する。正規誤差の仮定を加えることで最尤推定量とも一致し、統計的推測の基盤となる。

Mathematics is the language with which God has written the universe.

重回帰モデルと行列表現ガウス・マルコフの定理回帰係数の検定と信頼区間モデル選択（AIC・BIC）符号検定・ウィルコクソン検定