統計的推論において、仮説検定(Hypothesis Testing)は データに基づいて命題の真偽を確率的に判断する枠組みであり、 情報量基準(Information Criteria)は モデルの当てはまりと複雑度のトレードオフを定量化してモデル選択を行う枠組みである。 両者は統計的学習理論における汎化誤差制御・モデル選択と深く関わり、 最尤推定・ベイズ推定(前節)および測度論的確率(前々節)を基盤とする。
前節と同一の設定を引き継ぐ。確率空間 $(\Omega, \mathcal{F}, P)$ 上で、 パラメトリックモデル族 $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$、 Radon–Nikodym 密度 $p(x;\theta)$、i.i.d. 標本
\[ \mathcal{D}_n = \{x_1, \ldots, x_n\}, \quad x_i \overset{\text{i.i.d.}}{\sim} P_{\theta^*}\]が与えられているとする。仮説検定ではパラメータ空間の分割 $\Theta = \Theta_0 \cup \Theta_1$($\Theta_0 \cap \Theta_1 = \emptyset$)を考え、 情報量基準では複数のモデル族 $\mathcal{M}_1, \ldots, \mathcal{M}_K$ の比較を行う。
帰無仮説(Null Hypothesis)$H_0 : \theta \in \Theta_0$ と 対立仮説(Alternative Hypothesis)$H_1 : \theta \in \Theta_1$ を設定する。特に $\Theta_0 = \{\theta_0\}$(一点集合)のとき単純仮説、 $|\Theta_0| > 1$ のとき複合仮説と呼ぶ。
検定統計量(Test Statistic)$T = T(\mathcal{D}_n)$ は 標本 $\mathcal{D}_n$ の可測関数であり、棄却域
\[ \mathcal{R} \subseteq \mathbb{R}, \quad \delta(\mathcal{D}_n) = \begin{cases} \text{$H_0$ を棄却} & T(\mathcal{D}_n) \in \mathcal{R} \\ \text{$H_0$ を保留} & T(\mathcal{D}_n) \notin \mathcal{R} \end{cases}\]によって検定方式 $\delta$ が定まる。$H_0$ の「保留」は $H_0$ の「証明」では ないことに注意する——検定はあくまで $H_0$ を棄却する証拠の強さを測るものである。
検定には二種類の誤りが存在する。
| $H_0$ が真 | $H_1$ が真 | |
|---|---|---|
| $H_0$ を棄却 | 第一種の過誤(偽陽性) 確率 $= \alpha$(有意水準) | 正しい判定(真陽性) 確率 $= 1 - \beta$(検出力) |
| $H_0$ を保留 | 正しい判定(真陰性) 確率 $= 1 - \alpha$ | 第二種の過誤(偽陰性) 確率 $= \beta$ |
有意水準(Significance Level)$\alpha \in (0,1)$ は 第一種の過誤の確率の上限として定める:
\[ \sup_{\theta \in \Theta_0} P_\theta(T \in \mathcal{R}) \leq \alpha\]検出力関数(Power Function)は $H_1$ のもとでの棄却確率であり、
\[ \beta(\theta) = P_\theta(T \in \mathcal{R}), \quad \theta \in \Theta_1\]と定義される。検出力 $\beta(\theta)$ は大きいほど好ましく、 $1 - \beta(\theta)$ が第二種の過誤の確率である。 有意水準 $\alpha$ を固定したもとで検出力を最大化することが検定の目標である。
$p$ 値($p$-value)は、$H_0$ が真であると仮定したもとで、 観測された検定統計量 $T_{\text{obs}}$ と同等またはそれ以上に極端な値が得られる確率:
\[ p\text{-value} = P_{H_0}(T \geq T_{\text{obs}})\]として定義される(片側検定の場合;両側検定では対称化する)。 $H_0$ が真のとき $p$ 値は $[0,1]$ 上の一様分布に従う(連続分布の場合)。 すなわち
\[ P_{H_0}(p\text{-value} \leq \alpha) = \alpha\]が成立し、$p \leq \alpha$ を検定の棄却基準とすることで有意水準 $\alpha$ が保証される。 $p$ 値は「$H_0$ が真である確率」ではなく、 「$H_0$ のもとでデータがこれほど極端に観測される確率」であることに注意する。
単純仮説 $H_0 : \theta = \theta_0$ 対 $H_1 : \theta = \theta_1$ において、 有意水準 $\alpha$ を固定したとき検出力を最大化する検定を 最強力検定(Most Powerful Test, MP test)と呼ぶ。
ネイマン・ピアソンの補題(Neyman–Pearson Lemma)は 最強力検定の構造を完全に特徴づける。 尤度比
\[ \Lambda(\mathcal{D}_n) = \frac{L(\theta_1 ; \mathcal{D}_n)}{L(\theta_0 ; \mathcal{D}_n)} = \prod_{i=1}^n \frac{p(x_i ; \theta_1)}{p(x_i ; \theta_0)}\]を検定統計量とする棄却域 $\mathcal{R} = \{\Lambda > k_\alpha\}$ が、 有意水準 $\alpha$ のもとで検出力を最大化する。閾値 $k_\alpha$ は $P_{\theta_0}(\Lambda > k_\alpha) = \alpha$ を満たすように定める。
ネイマン・ピアソンの補題の証明の本質は、 有意水準の制約のもとでの検出力最大化が 尤度比による棄却域と等価であることを示す点にある。 この補題は最尤推定(前節)と同様に尤度関数を中心概念とし、 統計的検定の最適性理論の出発点となる。
複合仮説 $H_1 : \theta \in \Theta_1$ への拡張として、 すべての $\theta \in \Theta_1$ で一様に最強力な検定(一様最強力検定、 Uniformly Most Powerful Test, UMP test)が存在する場合があるが、 一般には存在しない。指数型分布族では UMP 検定が構成できることが多い。
複合仮説の設定で最も広く使われる三つの検定統計量を示す。 いずれも MLE の漸近理論(前節)を基礎とし、 帰無仮説のもとで漸近的に $\chi^2$ 分布に従う。
帰無仮説 $H_0 : \theta \in \Theta_0$(次元 $d_0$)対 対立仮説 $H_1 : \theta \in \Theta$(次元 $d$、$d_0 < d$)に対して、 尤度比統計量を
\[ \Lambda_n = -2\log\frac{\sup_{\theta \in \Theta_0} L(\theta;\mathcal{D}_n)} {\sup_{\theta \in \Theta} L(\theta;\mathcal{D}_n)} = 2\Bigl[\ell(\hat{\theta}_n;\mathcal{D}_n) - \ell(\hat{\theta}_0;\mathcal{D}_n)\Bigr]\]と定義する($\hat{\theta}_n$ は全空間上の MLE、$\hat{\theta}_0$ は $\Theta_0$ 上の制約 MLE)。 Wilks の定理より、$H_0$ のもとで
\[ \Lambda_n \xrightarrow{d} \chi^2(d - d_0) \quad (n \to \infty)\]が成立する。棄却域は $\Lambda_n > \chi^2_{d-d_0,\,\alpha}$($\chi^2$ 分布の上側 $\alpha$ 点)。
MLE の漸近正規性 $\sqrt{n}(\hat{\theta}_n - \theta^*) \xrightarrow{d} \mathcal{N}(0, I(\theta^*)^{-1})$ (前節)を利用する。線形制約 $H_0 : C\theta = c$($C \in \mathbb{R}^{r \times d}$、$r \leq d$)に対して Wald 統計量を
\[ W_n = n(C\hat{\theta}_n - c)^\top \bigl(C\, I(\hat{\theta}_n)^{-1} C^\top\bigr)^{-1} (C\hat{\theta}_n - c)\]と定義すると、$H_0$ のもとで $W_n \xrightarrow{d} \chi^2(r)$。 Wald 検定は $\hat{\theta}_n$ のみを必要とし、制約 MLE の計算を要しない。
制約 MLE $\hat{\theta}_0$ のみを使い、スコア関数 $s(\mathcal{D}_n;\theta) = \nabla_\theta \ell(\theta;\mathcal{D}_n)$ を用いた統計量
\[ S_n = \frac{1}{n}\, s(\mathcal{D}_n;\hat{\theta}_0)^\top\, I(\hat{\theta}_0)^{-1}\, s(\mathcal{D}_n;\hat{\theta}_0)\]は $H_0$ のもとで $S_n \xrightarrow{d} \chi^2(d - d_0)$。 スコア検定は全空間上の MLE が計算困難な場合に有用である。
三検定は漸近的に等価(第一次漸近同値)であるが、 小標本では尤度比検定が最も安定することが多い。
$m$ 個の仮説 $H_0^{(1)}, \ldots, H_0^{(m)}$ を同時に検定する場合、 個々の有意水準 $\alpha$ を維持しても全体での偽陽性が増大する。
族別誤り率(Family-Wise Error Rate, FWER)は 少なくとも一つの真の $H_0$ を誤って棄却する確率であり、 Bonferroni 補正はその最も単純な制御法である: 各検定の有意水準を $\alpha/m$ とすることで $\text{FWER} \leq \alpha$ を保証する。
偽発見率(False Discovery Rate, FDR)は棄却された仮説のうち 真の $H_0$ が占める割合の期待値
\[ \text{FDR} = \mathbb{E}\!\left[\frac{V}{R \vee 1}\right]\]であり($V$:偽陽性数、$R$:総棄却数)、 Benjamini–Hochberg 手続きにより $\text{FDR} \leq \alpha$ が保証される。 FDR 制御は大規模な仮説検定(ゲノム解析・機械学習の特徴選択など)で広く用いられ、 FWER 制御より検出力を高く保てる。
複数のモデル族 $\mathcal{M}_1, \ldots, \mathcal{M}_K$(異なるパラメータ次元 $d_1, \ldots, d_K$ を持つ)の中から最良のモデルを選ぶ問題を考える。 単純に MLE の対数尤度 $\ell(\hat{\theta}_n;\mathcal{D}_n)$ を最大化するモデルを 選ぶと、より複雑なモデルが常に有利となり過学習を招く(前々節参照)。 情報量基準はこの複雑度ペナルティを定量化する。
赤池情報量基準(Akaike Information Criterion, AIC;赤池弘次, 1973)は、 KL ダイバージェンスの推定に基づくモデル選択基準である。
真の分布 $P_{\theta^*}$ と推定モデル $P_{\hat{\theta}}$ の KL ダイバージェンス $\mathrm{KL}(P_{\theta^*}\|P_{\hat{\theta}})$ の推定量として、 対数尤度からの偏り補正を施すと
\[ \mathrm{AIC} = -2\,\ell(\hat{\theta}_n;\mathcal{D}_n) + 2d\]が導かれる($d$ はモデルの自由パラメータ数)。 第一項は当てはまりの良さ(小さいほど良い)、 第二項 $2d$ は複雑度ペナルティである。 AIC を最小化するモデルを選択する。
AIC の導出の骨子を示す。真のリスク(負の対数尤度による期待損失)の推定として、 訓練データによる対数尤度 $\ell(\hat{\theta}_n;\mathcal{D}_n)/n$ は 楽観的バイアスを持ち、漸近的にその偏りが $d/n$ であることを フィッシャー情報行列の理論から導出できる。 よって偏り補正として $d$ を加算した $-2\ell + 2d$ が AIC となる。 すなわち AIC は
\[ \mathrm{AIC} \approx 2n\cdot\mathrm{KL}(P_{\theta^*}\|P_{\hat{\theta}}) + \text{const.}\]の不偏推定量(漸近的な意味で)を与える。 AIC は漸近的な予測精度の観点から最良のモデルを選択するが、 真のモデルが候補に含まれても真のモデルに一致収束しない (一致性を持たない)。
小標本補正版として AICc(Corrected AIC)がある:
\[ \mathrm{AICc} = \mathrm{AIC} + \frac{2d(d+1)}{n - d - 1}\]$n/d$ が小さいとき AIC より AICc が推奨される。
ベイズ情報量基準(Bayesian Information Criterion, BIC;Schwarz, 1978)は、 周辺尤度(モデルエビデンス)の漸近近似に基づくモデル選択基準である。
モデル $\mathcal{M}_k$ の周辺尤度(前節参照)を $m_k(\mathcal{D}_n) = \int L(\theta;\mathcal{D}_n)\pi_k(\theta)\,d\theta$ とすると、 Laplace 近似(鞍点近似)により
\[ \log m_k(\mathcal{D}_n) \approx \ell(\hat{\theta}_n;\mathcal{D}_n) - \frac{d_k}{2}\log n + O(1)\]が成立する。これを $-2$ 倍して定数項を落とすと
\[ \mathrm{BIC} = -2\,\ell(\hat{\theta}_n;\mathcal{D}_n) + d\log n\]が得られる。$\log n$ ペナルティが AIC の $2$ より大きい($n \geq 8$ で $\log n > 2$)ため、 BIC はより複雑度の小さいモデルを好む傾向がある。
BIC の重要な性質として、真のモデルが候補に含まれるとき BIC は $n \to \infty$ で真のモデルを確率 $1$ で選択する (一致性を持つ)。 一方で予測精度の最適性は保証されない。
| 観点 | AIC | BIC |
|---|---|---|
| 導出の根拠 | KL ダイバージェンスの偏り補正 | 周辺尤度の Laplace 近似 |
| ペナルティ項 | $2d$($n$ に依存しない) | $d\log n$($n$ とともに増大) |
| 目的 | 予測精度(汎化性能)の最大化 | 真のモデル構造の同定 |
| 一致性 | なし(真のモデルに収束しない) | あり(真のモデルを確率 $1$ で選択) |
| 効率性 | 漸近的に効率的(予測損失最小) | 一致モデルを選ぶが予測効率は非最適 |
| 大標本での傾向 | 過大モデルを選びやすい | 過小モデルを選びやすい |
| 推奨される場面 | 予測・汎化が主目的のとき | モデルの構造同定・解釈が主目的のとき |
AIC・BIC 以外にも文脈に応じた情報量基準が存在する。
AIC の本質は訓練データによる対数尤度が真のリスク(汎化誤差)に対して持つ 楽観的バイアスの補正にある。すなわち
\[ \mathbb{E}\!\left[\frac{1}{n}\ell(\hat{\theta}_n;\mathcal{D}_n)\right] - \mathbb{E}_{x_{\text{new}} \sim P_{\theta^*}}\!\left[\log p(x_{\text{new}};\hat{\theta}_n)\right] \approx \frac{d}{n}\]という偏りが漸近的に成立し(訓練誤差と汎化誤差のギャップ、前々節参照)、 $2d$ のペナルティとして AIC に反映される。 この構造は ERM の汎化誤差上界
\[ R(\hat{f}) \leq R_n(\hat{f}) + \Phi(h, n, \delta)\]における複雑度ペナルティ $\Phi$ と本質的に同じ役割を果たす。 AIC・BIC・MDL・WAIC はそれぞれ異なる理論的根拠のもとで この複雑度ペナルティを定量化する方法であり、 SRM(構造的リスク最小化、第一節参照)の情報論的・統計的な具現化と理解できる。
入れ子モデル($\mathcal{M}_0 \subset \mathcal{M}_1$)の比較において、 尤度比検定と情報量基準は密接に関係する。 LRT 統計量 $\Lambda_n = 2[\ell(\hat{\theta}_n) - \ell(\hat{\theta}_0)]$ に対して、
\[ \mathrm{AIC}(\mathcal{M}_0) - \mathrm{AIC}(\mathcal{M}_1) = \Lambda_n - 2(d_1 - d_0)\]\[ \mathrm{BIC}(\mathcal{M}_0) - \mathrm{BIC}(\mathcal{M}_1) = \Lambda_n - (d_1 - d_0)\log n\]が成立する。LRT では $\Lambda_n > \chi^2_{d_1-d_0,\,\alpha}$ を棄却基準とするのに対し、 AIC は $\Lambda_n > 2(d_1-d_0)$、BIC は $\Lambda_n > (d_1-d_0)\log n$ を $\mathcal{M}_1$ 採択の基準とみなす。 すなわち情報量基準はモデル選択を(確率的閾値ではなく)決定論的ペナルティによって行う 暗黙の検定として解釈できる。
仮説検定はネイマン・ピアソンの枠組みのもとで第一種過誤を制御しつつ 検出力を最大化する理論を与え、その漸近的な実装が尤度比・Wald・スコアの 三検定として体系化される。情報量基準は対数尤度と複雑度ペナルティの和として モデル選択を定式化し、AIC は予測精度(KL 最小化・汎化誤差補正)、 BIC は真のモデル同定(周辺尤度最大化・一致性)、 WAIC は特異モデルへの拡張という異なる目的に対応する。 両者は最尤推定の漸近理論・フィッシャー情報量、 KL ダイバージェンス、測度論的確率(前々節)、 そして汎化誤差の複雑度ペナルティと 整合的な理論体系を形成し、統計的学習理論の実践的基盤となる。
Mathematics is the language with which God has written the universe.