ガウス・マルコフの定理は、線形回帰モデルにおける最小二乗推定量の最適性を保証する定理である。正規性の仮定を必要とせず、誤差項の二次モーメントに関する条件のみから、最小二乗推定量が線形不偏推定量のクラスの中で分散最小となることを示す。
線形回帰モデル
\[\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}\]
を考える。ここで $X \in \mathbb{R}^{n \times p}$ は列フルランクの計画行列、$\boldsymbol{\beta} \in \mathbb{R}^p$ は未知の回帰係数ベクトルである。誤差項に対して以下の仮定を置く:
\[E[\boldsymbol{\varepsilon}] = \boldsymbol{0}, \quad \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 I_n\]
すなわち、誤差項は平均ゼロ、等分散、かつ無相関であることを仮定する。正規性は仮定しない。
$\boldsymbol{\beta}$ の線形推定量とは、$\boldsymbol{Y}$ の線形変換として表されるもの、すなわち
\[\tilde{\boldsymbol{\beta}} = A\boldsymbol{Y}\]
の形をもつ推定量である($A \in \mathbb{R}^{p \times n}$ は定数行列)。不偏性の条件
\[E[\tilde{\boldsymbol{\beta}}] = AE[\boldsymbol{Y}] = AX\boldsymbol{\beta} = \boldsymbol{\beta}\]
はすべての $\boldsymbol{\beta}$ に対して成立する必要があるから、
\[AX = I_p\]
が不偏性の必要十分条件である。
ガウス・マルコフの定理:上記の仮定のもとで、最小二乗推定量
\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1}X^\top \boldsymbol{Y}\]
は $\boldsymbol{\beta}$ の任意の線形不偏推定量 $\tilde{\boldsymbol{\beta}} = A\boldsymbol{Y}$ に対して
\[\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}}) \succeq O\]
を満たす。すなわち $\hat{\boldsymbol{\beta}}$ は BLUE(Best Linear Unbiased Estimator)である。
不偏条件 $AX = I_p$ を満たす任意の線形推定量 $\tilde{\boldsymbol{\beta}} = A\boldsymbol{Y}$ の分散共分散行列は
\[\text{Var}(\tilde{\boldsymbol{\beta}}) = \sigma^2 AA^\top\]
である。最小二乗推定量に対しては $A_0 = (X^\top X)^{-1}X^\top$ とおくと、
\[\text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 A_0 A_0^\top = \sigma^2 (X^\top X)^{-1}\]
である。
$D = A - A_0$ とおくと、不偏条件より
\[AX = I_p, \quad A_0 X = I_p \implies DX = O\]
が成立する。このとき、
\[AA^\top = (A_0 + D)(A_0 + D)^\top = A_0 A_0^\top + A_0 D^\top + DA_0^\top + DD^\top\]
ここで $DX = O$ より $DA_0^\top = D X(X^\top X)^{-1} = O$ であり、同様に $A_0 D^\top = O$ が成立する。したがって
\[AA^\top = A_0 A_0^\top + DD^\top\]
となり、
\[\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 DD^\top \succeq O\]
が示される。$DD^\top$ は半正定値行列であるから、等号は $D = O$、すなわち $A = A_0$ のときに限り成立する。
任意の $\boldsymbol{c} \in \mathbb{R}^p$ に対して、$\boldsymbol{c}^\top \boldsymbol{\beta}$ の線形不偏推定量の中で $\boldsymbol{c}^\top \hat{\boldsymbol{\beta}}$ が最小分散を持つ。すなわち、
\[\text{Var}(\boldsymbol{c}^\top \tilde{\boldsymbol{\beta}}) \geq \text{Var}(\boldsymbol{c}^\top \hat{\boldsymbol{\beta}}) = \sigma^2 \boldsymbol{c}^\top (X^\top X)^{-1} \boldsymbol{c}\]
が任意の線形不偏推定量 $\tilde{\boldsymbol{\beta}}$ に対して成立する。
$\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \Omega$($\Omega$ は既知の正定値行列)の場合、GLS 推定量
\[\hat{\boldsymbol{\beta}}_{\text{GLS}} = (X^\top \Omega^{-1} X)^{-1} X^\top \Omega^{-1} \boldsymbol{Y}\]
が線形不偏推定量のクラスの中で BLUE となる。$\Omega = I_n$ のとき GLS は最小二乗推定量に一致する。
ガウス・マルコフの定理は、正規性を仮定せず誤差の平均ゼロ・等分散・無相関のみから、最小二乗推定量が線形不偏推定量のクラスで最小分散を達成することを示す。証明の核心は、任意の線形不偏推定量と最小二乗推定量の差 $D$ が $DX = O$ を満たすことから、分散の差が $\sigma^2 DD^\top \succeq O$ と表されることにある。仮定が崩れる場合には一般化最小二乗法への拡張が自然な対応となる。
Mathematics is the language with which God has written the universe.