重回帰モデルにおける回帰係数の推測では、点推定にとどまらず、各係数の有意性を評価する検定と不確実性を定量化する信頼区間の構成が重要となる。これらは正規誤差の仮定のもとで、t分布およびF分布に基づいて展開される。
線形回帰モデル
\[\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I_n)\]
を考える。$X \in \mathbb{R}^{n \times p}$ は列フルランク、$\boldsymbol{\beta} = (\beta_0, \beta_1, \dots, \beta_{p-1})^\top$ である。最小二乗推定量および誤差分散の不偏推定量は
\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1}X^\top \boldsymbol{Y}, \quad \hat{\sigma}^2 = \frac{RSS}{n-p}\]
であり、両者は独立である。
正規誤差のもとで以下が成立する:
\[\hat{\boldsymbol{\beta}} \sim \mathcal{N}\!\left(\boldsymbol{\beta},\ \sigma^2(X^\top X)^{-1}\right)\]
\[\frac{(n-p)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-p)\]
また $\hat{\boldsymbol{\beta}}$ と $\hat{\sigma}^2$ は独立である。これらがt統計量およびF統計量の構成の基礎となる。
$(X^\top X)^{-1}$ の $(j,j)$ 成分を $c_{jj}$ とおく。$\hat{\beta}_j$ の周辺分布は
\[\hat{\beta}_j \sim \mathcal{N}(\beta_j,\ \sigma^2 c_{jj})\]
であるから、標準化すると
\[\frac{\hat{\beta}_j - \beta_j}{\sigma\sqrt{c_{jj}}} \sim \mathcal{N}(0,1)\]
が成立する。$\sigma$ を $\hat{\sigma}$ で置き換えると、$\hat{\boldsymbol{\beta}}$ と $\hat{\sigma}^2$ の独立性およびχ²分布との関係から
\[T_j = \frac{\hat{\beta}_j - \beta_j}{\hat{\sigma}\sqrt{c_{jj}}} \sim t(n-p)\]
が従う。
帰無仮説 $H_0 : \beta_j = 0$ のもとで検定統計量は
\[T_j = \frac{\hat{\beta}_j}{\hat{\sigma}\sqrt{c_{jj}}} \sim t(n-p)\]
となる。両側検定では
\[|T_j| > t_{\alpha/2,\,n-p}\]
のとき帰無仮説を棄却する。$H_0 : \beta_j = 0$ の棄却は、他の説明変数を固定したもとで $x_j$ が $Y$ に対して有意な線形効果を持つことを意味する。
$T_j$ の分布から、$\beta_j$ の $100(1-\alpha)\%$ 信頼区間は
\[\hat{\beta}_j \pm t_{\alpha/2,\,n-p} \cdot \hat{\sigma}\sqrt{c_{jj}}\]
で与えられる。この区間は繰り返し標本抽出のもとで $100(1-\alpha)\%$ の確率で真の $\beta_j$ を含む。
$\boldsymbol{c} \in \mathbb{R}^p$ を定数ベクトルとするとき、$\boldsymbol{c}^\top \boldsymbol{\beta}$ の推定量は
\[\boldsymbol{c}^\top \hat{\boldsymbol{\beta}} \sim \mathcal{N}\!\left(\boldsymbol{c}^\top \boldsymbol{\beta},\ \sigma^2 \boldsymbol{c}^\top (X^\top X)^{-1}\boldsymbol{c}\right)\]
であり、検定統計量は
\[T = \frac{\boldsymbol{c}^\top \hat{\boldsymbol{\beta}} - \boldsymbol{c}^\top \boldsymbol{\beta}}{\hat{\sigma}\sqrt{\boldsymbol{c}^\top(X^\top X)^{-1}\boldsymbol{c}}} \sim t(n-p)\]
となる。$\boldsymbol{c} = \boldsymbol{e}_j$(第 $j$ 標準基底ベクトル)のとき個々の係数の場合に帰着する。
$\boldsymbol{c}^\top \boldsymbol{\beta}$ の $100(1-\alpha)\%$ 信頼区間は
\[\boldsymbol{c}^\top \hat{\boldsymbol{\beta}} \pm t_{\alpha/2,\,n-p} \cdot \hat{\sigma}\sqrt{\boldsymbol{c}^\top(X^\top X)^{-1}\boldsymbol{c}}\]
で与えられる。
$q$ 本の線形制約
\[H_0 : C\boldsymbol{\beta} = \boldsymbol{d}, \quad C \in \mathbb{R}^{q \times p},\ \text{rank}(C) = q\]
を検定する。
帰無仮説のもとで、
\[F = \frac{(C\hat{\boldsymbol{\beta}} - \boldsymbol{d})^\top \left[C(X^\top X)^{-1}C^\top\right]^{-1}(C\hat{\boldsymbol{\beta}} - \boldsymbol{d})}{q\hat{\sigma}^2} \sim F(q,\, n-p)\]
が成立する。$F > F_{\alpha,\,q,\,n-p}$ のとき帰無仮説を棄却する。
$q = 1$、すなわち $H_0 : \beta_j = 0$ の場合、F統計量はt統計量の二乗に一致する:
\[F = T_j^2 \sim F(1,\, n-p)\]
一般に $F(1, \nu)$ 分布に従う確率変数は $t(\nu)$ 分布に従う確率変数の二乗と同分布である。
$\boldsymbol{\beta}$ 全体に関する $100(1-\alpha)\%$ 同時信頼域は楕円体として
\[(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta})^\top (X^\top X)(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \leq p\hat{\sigma}^2 F_{\alpha,\,p,\,n-p}\]
で与えられる。個々の係数に対する区間推定を並べたものとは異なり、係数間の相関構造を反映した楕円形の領域となる。
新たな観測点 $\boldsymbol{x}^* \in \mathbb{R}^p$ に対する予測値は $\hat{Y}^* = {\boldsymbol{x}^*}^\top \hat{\boldsymbol{\beta}}$ であり、その平均の $100(1-\alpha)\%$ 信頼区間は
\[{\boldsymbol{x}^*}^\top \hat{\boldsymbol{\beta}} \pm t_{\alpha/2,\,n-p} \cdot \hat{\sigma}\sqrt{{\boldsymbol{x}^*}^\top(X^\top X)^{-1}\boldsymbol{x}^*}\]
個々の観測値に対する予測区間は推定誤差に加えて誤差項のばらつきを含むため、
\[{\boldsymbol{x}^*}^\top \hat{\boldsymbol{\beta}} \pm t_{\alpha/2,\,n-p} \cdot \hat{\sigma}\sqrt{1 + {\boldsymbol{x}^*}^\top(X^\top X)^{-1}\boldsymbol{x}^*}\]
となり、常に信頼区間より幅が広い。
回帰係数の検定と信頼区間は、正規誤差のもとでの $\hat{\boldsymbol{\beta}}$ の分布と $\hat{\sigma}^2$ の独立性を基礎とする。個々の係数にはt検定、複数の線形制約にはF検定が対応し、両者は $F = T^2$($q=1$ の場合)という関係で結ばれる。同時信頼域は係数間の相関を反映した楕円体として表され、個別の区間推定とは本質的に異なる構造を持つ。
Mathematics is the language with which God has written the universe.