ガウス・マルコフの定理

ガウス・マルコフの定理は、線形回帰モデルにおける最小二乗推定量の最適性を保証する定理である。正規性の仮定を必要とせず、誤差項の二次モーメントに関する条件のみから、最小二乗推定量が線形不偏推定量のクラスの中で分散最小となることを示す。

設定

線形回帰モデル

\[\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}\]

を考える。ここで $X \in \mathbb{R}^{n \times p}$ は列フルランクの計画行列、$\boldsymbol{\beta} \in \mathbb{R}^p$ は未知の回帰係数ベクトルである。誤差項に対して以下の仮定を置く：

\[E[\boldsymbol{\varepsilon}] = \boldsymbol{0}, \quad \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I_n\]

すなわち、誤差項は平均ゼロ、等分散、かつ無相関であることを仮定する。正規性は仮定しない。

線形不偏推定量のクラス

$\boldsymbol{\beta}$ の線形推定量とは、$\boldsymbol{Y}$ の線形変換として表されるもの、すなわち

\[\tilde{\boldsymbol{\beta}} = A\boldsymbol{Y}\]

の形をもつ推定量である（$A \in \mathbb{R}^{p \times n}$ は定数行列）。不偏性の条件

\[E[\tilde{\boldsymbol{\beta}}] = AE[\boldsymbol{Y}] = AX\boldsymbol{\beta} = \boldsymbol{\beta}\]

はすべての $\boldsymbol{\beta}$ に対して成立する必要があるから、

\[AX = I_p\]

が不偏性の必要十分条件である。

定理の主張

ガウス・マルコフの定理：上記の仮定のもとで、最小二乗推定量

\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1}X^\top \boldsymbol{Y}\]

は $\boldsymbol{\beta}$ の任意の線形不偏推定量 $\tilde{\boldsymbol{\beta}} = A\boldsymbol{Y}$ に対して

\[\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}}) \succeq O\]

を満たす。すなわち $\hat{\boldsymbol{\beta}}$ は BLUE（Best Linear Unbiased Estimator）である。

証明

分散の表現

不偏条件 $AX = I_p$ を満たす任意の線形推定量 $\tilde{\boldsymbol{\beta}} = A\boldsymbol{Y}$ の分散共分散行列は

\[\text{Var}(\tilde{\boldsymbol{\beta}}) = \sigma^2 AA^\top\]

である。最小二乗推定量に対しては $A_0 = (X^\top X)^{-1}X^\top$ とおくと、

\[\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 A_0 A_0^\top = \sigma^2 (X^\top X)^{-1}\]

である。

差の半正定値性

$D = A - A_0$ とおくと、不偏条件より

\[AX = I_p, \quad A_0 X = I_p \implies DX = O\]

が成立する。このとき、

\[AA^\top = (A_0 + D)(A_0 + D)^\top = A_0 A_0^\top + A_0 D^\top + DA_0^\top + DD^\top\]

ここで $DX = O$ より $DA_0^\top = D X(X^\top X)^{-1} = O$ であり、同様に $A_0 D^\top = O$ が成立する。したがって

\[AA^\top = A_0 A_0^\top + DD^\top\]

となり、

\[\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 DD^\top \succeq O\]

が示される。$DD^\top$ は半正定値行列であるから、等号は $D = O$、すなわち $A = A_0$ のときに限り成立する。

スカラー量への含意

任意の $\boldsymbol{c} \in \mathbb{R}^p$ に対して、$\boldsymbol{c}^\top \boldsymbol{\beta}$ の線形不偏推定量の中で $\boldsymbol{c}^\top \hat{\boldsymbol{\beta}}$ が最小分散を持つ。すなわち、

\[\text{Var}(\boldsymbol{c}^\top \tilde{\boldsymbol{\beta}}) \geq \text{Var}(\boldsymbol{c}^\top \hat{\boldsymbol{\beta}}) = \sigma^2 \boldsymbol{c}^\top (X^\top X)^{-1} \boldsymbol{c}\]

が任意の線形不偏推定量 $\tilde{\boldsymbol{\beta}}$ に対して成立する。

仮定の役割と限界

$E[\boldsymbol{\varepsilon}] = \boldsymbol{0}$：不偏性の保証に必須である
$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I_n$：等分散かつ無相関の仮定であり、これが崩れると最小二乗推定量は BLUE でなくなる
誤差が異分散または相関を持つ場合は、一般化最小二乗法（GLS）が BLUE を与える
正規性の仮定がない場合、最小二乗推定量は最小分散不偏推定量（UMVUE）である保証はない

一般化最小二乗法との関係

$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \Omega$（$\Omega$ は既知の正定値行列）の場合、GLS 推定量

\[\hat{\boldsymbol{\beta}}_{\text{GLS}} = (X^\top \Omega^{-1} X)^{-1} X^\top \Omega^{-1} \boldsymbol{Y}\]

が線形不偏推定量のクラスの中で BLUE となる。$\Omega = I_n$ のとき GLS は最小二乗推定量に一致する。

まとめ

ガウス・マルコフの定理は、正規性を仮定せず誤差の平均ゼロ・等分散・無相関のみから、最小二乗推定量が線形不偏推定量のクラスで最小分散を達成することを示す。証明の核心は、任意の線形不偏推定量と最小二乗推定量の差 $D$ が $DX = O$ を満たすことから、分散の差が $\sigma^2 DD^\top \succeq O$ と表されることにある。仮定が崩れる場合には一般化最小二乗法への拡張が自然な対応となる。

Mathematics is the language with which God has written the universe.

回帰係数の検定と信頼区間モデル選択（AIC・BIC）符号検定・ウィルコクソン検定順位相関コルモゴロフ・スミルノフ検定