仮説検定と情報量基準

統計的推論において、仮説検定(Hypothesis Testing)は データに基づいて命題の真偽を確率的に判断する枠組みであり、 情報量基準(Information Criteria)は モデルの当てはまりと複雑度のトレードオフを定量化してモデル選択を行う枠組みである。 両者は統計的学習理論における汎化誤差制御・モデル選択と深く関わり、 最尤推定・ベイズ推定(前節)および測度論的確率(前々節)を基盤とする。

設定

前節と同一の設定を引き継ぐ。確率空間 $(\Omega, \mathcal{F}, P)$ 上で、 パラメトリックモデル族 $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$、 Radon–Nikodym 密度 $p(x;\theta)$、i.i.d. 標本

\[ \mathcal{D}_n = \{x_1, \ldots, x_n\}, \quad x_i \overset{\text{i.i.d.}}{\sim} P_{\theta^*}\]

が与えられているとする。仮説検定ではパラメータ空間の分割 $\Theta = \Theta_0 \cup \Theta_1$($\Theta_0 \cap \Theta_1 = \emptyset$)を考え、 情報量基準では複数のモデル族 $\mathcal{M}_1, \ldots, \mathcal{M}_K$ の比較を行う。

仮説検定の基本概念

帰無仮説・対立仮説と検定統計量

帰無仮説(Null Hypothesis)$H_0 : \theta \in \Theta_0$ と 対立仮説(Alternative Hypothesis)$H_1 : \theta \in \Theta_1$ を設定する。特に $\Theta_0 = \{\theta_0\}$(一点集合)のとき単純仮説、 $|\Theta_0| > 1$ のとき複合仮説と呼ぶ。

検定統計量(Test Statistic)$T = T(\mathcal{D}_n)$ は 標本 $\mathcal{D}_n$ の可測関数であり、棄却域

\[ \mathcal{R} \subseteq \mathbb{R}, \quad \delta(\mathcal{D}_n) = \begin{cases} \text{$H_0$ を棄却} & T(\mathcal{D}_n) \in \mathcal{R} \\ \text{$H_0$ を保留} & T(\mathcal{D}_n) \notin \mathcal{R} \end{cases}\]

によって検定方式 $\delta$ が定まる。$H_0$ の「保留」は $H_0$ の「証明」では ないことに注意する——検定はあくまで $H_0$ を棄却する証拠の強さを測るものである。

第一種・第二種の過誤と検出力

検定には二種類の誤りが存在する。

  $H_0$ が真 $H_1$ が真
$H_0$ を棄却 第一種の過誤(偽陽性)
確率 $= \alpha$(有意水準)
正しい判定(真陽性)
確率 $= 1 - \beta$(検出力)
$H_0$ を保留 正しい判定(真陰性)
確率 $= 1 - \alpha$
第二種の過誤(偽陰性)
確率 $= \beta$

有意水準(Significance Level)$\alpha \in (0,1)$ は 第一種の過誤の確率の上限として定める:

\[ \sup_{\theta \in \Theta_0} P_\theta(T \in \mathcal{R}) \leq \alpha\]

検出力関数(Power Function)は $H_1$ のもとでの棄却確率であり、

\[ \beta(\theta) = P_\theta(T \in \mathcal{R}), \quad \theta \in \Theta_1\]

と定義される。検出力 $\beta(\theta)$ は大きいほど好ましく、 $1 - \beta(\theta)$ が第二種の過誤の確率である。 有意水準 $\alpha$ を固定したもとで検出力を最大化することが検定の目標である。

$p$ 値

$p$ 値($p$-value)は、$H_0$ が真であると仮定したもとで、 観測された検定統計量 $T_{\text{obs}}$ と同等またはそれ以上に極端な値が得られる確率:

\[ p\text{-value} = P_{H_0}(T \geq T_{\text{obs}})\]

として定義される(片側検定の場合;両側検定では対称化する)。 $H_0$ が真のとき $p$ 値は $[0,1]$ 上の一様分布に従う(連続分布の場合)。 すなわち

\[ P_{H_0}(p\text{-value} \leq \alpha) = \alpha\]

が成立し、$p \leq \alpha$ を検定の棄却基準とすることで有意水準 $\alpha$ が保証される。 $p$ 値は「$H_0$ が真である確率」ではなく、 「$H_0$ のもとでデータがこれほど極端に観測される確率」であることに注意する。

ネイマン・ピアソンの補題と最強力検定

単純仮説 $H_0 : \theta = \theta_0$ 対 $H_1 : \theta = \theta_1$ において、 有意水準 $\alpha$ を固定したとき検出力を最大化する検定を 最強力検定(Most Powerful Test, MP test)と呼ぶ。

ネイマン・ピアソンの補題(Neyman–Pearson Lemma)は 最強力検定の構造を完全に特徴づける。 尤度比

\[ \Lambda(\mathcal{D}_n) = \frac{L(\theta_1 ; \mathcal{D}_n)}{L(\theta_0 ; \mathcal{D}_n)} = \prod_{i=1}^n \frac{p(x_i ; \theta_1)}{p(x_i ; \theta_0)}\]

を検定統計量とする棄却域 $\mathcal{R} = \{\Lambda > k_\alpha\}$ が、 有意水準 $\alpha$ のもとで検出力を最大化する。閾値 $k_\alpha$ は $P_{\theta_0}(\Lambda > k_\alpha) = \alpha$ を満たすように定める。

ネイマン・ピアソンの補題の証明の本質は、 有意水準の制約のもとでの検出力最大化が 尤度比による棄却域と等価であることを示す点にある。 この補題は最尤推定(前節)と同様に尤度関数を中心概念とし、 統計的検定の最適性理論の出発点となる。

複合仮説 $H_1 : \theta \in \Theta_1$ への拡張として、 すべての $\theta \in \Theta_1$ で一様に最強力な検定(一様最強力検定、 Uniformly Most Powerful Test, UMP test)が存在する場合があるが、 一般には存在しない。指数型分布族では UMP 検定が構成できることが多い。

尤度比検定・Wald 検定・スコア検定

複合仮説の設定で最も広く使われる三つの検定統計量を示す。 いずれも MLE の漸近理論(前節)を基礎とし、 帰無仮説のもとで漸近的に $\chi^2$ 分布に従う。

尤度比検定(Likelihood Ratio Test, LRT)

帰無仮説 $H_0 : \theta \in \Theta_0$(次元 $d_0$)対 対立仮説 $H_1 : \theta \in \Theta$(次元 $d$、$d_0 < d$)に対して、 尤度比統計量

\[ \Lambda_n = -2\log\frac{\sup_{\theta \in \Theta_0} L(\theta;\mathcal{D}_n)} {\sup_{\theta \in \Theta} L(\theta;\mathcal{D}_n)} = 2\Bigl[\ell(\hat{\theta}_n;\mathcal{D}_n) - \ell(\hat{\theta}_0;\mathcal{D}_n)\Bigr]\]

と定義する($\hat{\theta}_n$ は全空間上の MLE、$\hat{\theta}_0$ は $\Theta_0$ 上の制約 MLE)。 Wilks の定理より、$H_0$ のもとで

\[ \Lambda_n \xrightarrow{d} \chi^2(d - d_0) \quad (n \to \infty)\]

が成立する。棄却域は $\Lambda_n > \chi^2_{d-d_0,\,\alpha}$($\chi^2$ 分布の上側 $\alpha$ 点)。

Wald 検定

MLE の漸近正規性 $\sqrt{n}(\hat{\theta}_n - \theta^*) \xrightarrow{d} \mathcal{N}(0, I(\theta^*)^{-1})$ (前節)を利用する。線形制約 $H_0 : C\theta = c$($C \in \mathbb{R}^{r \times d}$、$r \leq d$)に対して Wald 統計量

\[ W_n = n(C\hat{\theta}_n - c)^\top \bigl(C\, I(\hat{\theta}_n)^{-1} C^\top\bigr)^{-1} (C\hat{\theta}_n - c)\]

と定義すると、$H_0$ のもとで $W_n \xrightarrow{d} \chi^2(r)$。 Wald 検定は $\hat{\theta}_n$ のみを必要とし、制約 MLE の計算を要しない。

スコア検定(Rao 検定)

制約 MLE $\hat{\theta}_0$ のみを使い、スコア関数 $s(\mathcal{D}_n;\theta) = \nabla_\theta \ell(\theta;\mathcal{D}_n)$ を用いた統計量

\[ S_n = \frac{1}{n}\, s(\mathcal{D}_n;\hat{\theta}_0)^\top\, I(\hat{\theta}_0)^{-1}\, s(\mathcal{D}_n;\hat{\theta}_0)\]

は $H_0$ のもとで $S_n \xrightarrow{d} \chi^2(d - d_0)$。 スコア検定は全空間上の MLE が計算困難な場合に有用である。

三検定は漸近的に等価(第一次漸近同値)であるが、 小標本では尤度比検定が最も安定することが多い。

多重検定と誤り率の制御

$m$ 個の仮説 $H_0^{(1)}, \ldots, H_0^{(m)}$ を同時に検定する場合、 個々の有意水準 $\alpha$ を維持しても全体での偽陽性が増大する。

族別誤り率(Family-Wise Error Rate, FWER)は 少なくとも一つの真の $H_0$ を誤って棄却する確率であり、 Bonferroni 補正はその最も単純な制御法である: 各検定の有意水準を $\alpha/m$ とすることで $\text{FWER} \leq \alpha$ を保証する。

偽発見率(False Discovery Rate, FDR)は棄却された仮説のうち 真の $H_0$ が占める割合の期待値

\[ \text{FDR} = \mathbb{E}\!\left[\frac{V}{R \vee 1}\right]\]

であり($V$:偽陽性数、$R$:総棄却数)、 Benjamini–Hochberg 手続きにより $\text{FDR} \leq \alpha$ が保証される。 FDR 制御は大規模な仮説検定(ゲノム解析・機械学習の特徴選択など)で広く用いられ、 FWER 制御より検出力を高く保てる。

情報量基準

モデル選択問題

複数のモデル族 $\mathcal{M}_1, \ldots, \mathcal{M}_K$(異なるパラメータ次元 $d_1, \ldots, d_K$ を持つ)の中から最良のモデルを選ぶ問題を考える。 単純に MLE の対数尤度 $\ell(\hat{\theta}_n;\mathcal{D}_n)$ を最大化するモデルを 選ぶと、より複雑なモデルが常に有利となり過学習を招く(前々節参照)。 情報量基準はこの複雑度ペナルティを定量化する。

赤池情報量基準(AIC)

赤池情報量基準(Akaike Information Criterion, AIC;赤池弘次, 1973)は、 KL ダイバージェンスの推定に基づくモデル選択基準である。

真の分布 $P_{\theta^*}$ と推定モデル $P_{\hat{\theta}}$ の KL ダイバージェンス $\mathrm{KL}(P_{\theta^*}\|P_{\hat{\theta}})$ の推定量として、 対数尤度からの偏り補正を施すと

\[ \mathrm{AIC} = -2\,\ell(\hat{\theta}_n;\mathcal{D}_n) + 2d\]

が導かれる($d$ はモデルの自由パラメータ数)。 第一項は当てはまりの良さ(小さいほど良い)、 第二項 $2d$ は複雑度ペナルティである。 AIC を最小化するモデルを選択する。

AIC の導出の骨子を示す。真のリスク(負の対数尤度による期待損失)の推定として、 訓練データによる対数尤度 $\ell(\hat{\theta}_n;\mathcal{D}_n)/n$ は 楽観的バイアスを持ち、漸近的にその偏りが $d/n$ であることを フィッシャー情報行列の理論から導出できる。 よって偏り補正として $d$ を加算した $-2\ell + 2d$ が AIC となる。 すなわち AIC は

\[ \mathrm{AIC} \approx 2n\cdot\mathrm{KL}(P_{\theta^*}\|P_{\hat{\theta}}) + \text{const.}\]

の不偏推定量(漸近的な意味で)を与える。 AIC は漸近的な予測精度の観点から最良のモデルを選択するが、 真のモデルが候補に含まれても真のモデルに一致収束しない (一致性を持たない)。

小標本補正版として AICc(Corrected AIC)がある:

\[ \mathrm{AICc} = \mathrm{AIC} + \frac{2d(d+1)}{n - d - 1}\]

$n/d$ が小さいとき AIC より AICc が推奨される。

ベイズ情報量基準(BIC)

ベイズ情報量基準(Bayesian Information Criterion, BIC;Schwarz, 1978)は、 周辺尤度(モデルエビデンス)の漸近近似に基づくモデル選択基準である。

モデル $\mathcal{M}_k$ の周辺尤度(前節参照)を $m_k(\mathcal{D}_n) = \int L(\theta;\mathcal{D}_n)\pi_k(\theta)\,d\theta$ とすると、 Laplace 近似(鞍点近似)により

\[ \log m_k(\mathcal{D}_n) \approx \ell(\hat{\theta}_n;\mathcal{D}_n) - \frac{d_k}{2}\log n + O(1)\]

が成立する。これを $-2$ 倍して定数項を落とすと

\[ \mathrm{BIC} = -2\,\ell(\hat{\theta}_n;\mathcal{D}_n) + d\log n\]

が得られる。$\log n$ ペナルティが AIC の $2$ より大きい($n \geq 8$ で $\log n > 2$)ため、 BIC はより複雑度の小さいモデルを好む傾向がある。

BIC の重要な性質として、真のモデルが候補に含まれるとき BIC は $n \to \infty$ で真のモデルを確率 $1$ で選択する (一致性を持つ)。 一方で予測精度の最適性は保証されない。

AIC と BIC の比較

観点 AIC BIC
導出の根拠 KL ダイバージェンスの偏り補正 周辺尤度の Laplace 近似
ペナルティ項 $2d$($n$ に依存しない) $d\log n$($n$ とともに増大)
目的 予測精度(汎化性能)の最大化 真のモデル構造の同定
一致性 なし(真のモデルに収束しない) あり(真のモデルを確率 $1$ で選択)
効率性 漸近的に効率的(予測損失最小) 一致モデルを選ぶが予測効率は非最適
大標本での傾向 過大モデルを選びやすい 過小モデルを選びやすい
推奨される場面 予測・汎化が主目的のとき モデルの構造同定・解釈が主目的のとき

その他の情報量基準

AIC・BIC 以外にも文脈に応じた情報量基準が存在する。

情報量基準と汎化誤差の接続

AIC の本質は訓練データによる対数尤度が真のリスク(汎化誤差)に対して持つ 楽観的バイアスの補正にある。すなわち

\[ \mathbb{E}\!\left[\frac{1}{n}\ell(\hat{\theta}_n;\mathcal{D}_n)\right] - \mathbb{E}_{x_{\text{new}} \sim P_{\theta^*}}\!\left[\log p(x_{\text{new}};\hat{\theta}_n)\right] \approx \frac{d}{n}\]

という偏りが漸近的に成立し(訓練誤差と汎化誤差のギャップ、前々節参照)、 $2d$ のペナルティとして AIC に反映される。 この構造は ERM の汎化誤差上界

\[ R(\hat{f}) \leq R_n(\hat{f}) + \Phi(h, n, \delta)\]

における複雑度ペナルティ $\Phi$ と本質的に同じ役割を果たす。 AIC・BIC・MDL・WAIC はそれぞれ異なる理論的根拠のもとで この複雑度ペナルティを定量化する方法であり、 SRM(構造的リスク最小化、第一節参照)の情報論的・統計的な具現化と理解できる。

仮説検定と情報量基準の関係

入れ子モデル($\mathcal{M}_0 \subset \mathcal{M}_1$)の比較において、 尤度比検定と情報量基準は密接に関係する。 LRT 統計量 $\Lambda_n = 2[\ell(\hat{\theta}_n) - \ell(\hat{\theta}_0)]$ に対して、

\[ \mathrm{AIC}(\mathcal{M}_0) - \mathrm{AIC}(\mathcal{M}_1) = \Lambda_n - 2(d_1 - d_0)\]\[ \mathrm{BIC}(\mathcal{M}_0) - \mathrm{BIC}(\mathcal{M}_1) = \Lambda_n - (d_1 - d_0)\log n\]

が成立する。LRT では $\Lambda_n > \chi^2_{d_1-d_0,\,\alpha}$ を棄却基準とするのに対し、 AIC は $\Lambda_n > 2(d_1-d_0)$、BIC は $\Lambda_n > (d_1-d_0)\log n$ を $\mathcal{M}_1$ 採択の基準とみなす。 すなわち情報量基準はモデル選択を(確率的閾値ではなく)決定論的ペナルティによって行う 暗黙の検定として解釈できる。

まとめ

仮説検定はネイマン・ピアソンの枠組みのもとで第一種過誤を制御しつつ 検出力を最大化する理論を与え、その漸近的な実装が尤度比・Wald・スコアの 三検定として体系化される。情報量基準は対数尤度と複雑度ペナルティの和として モデル選択を定式化し、AIC は予測精度(KL 最小化・汎化誤差補正)、 BIC は真のモデル同定(周辺尤度最大化・一致性)、 WAIC は特異モデルへの拡張という異なる目的に対応する。 両者は最尤推定の漸近理論・フィッシャー情報量、 KL ダイバージェンス、測度論的確率(前々節)、 そして汎化誤差の複雑度ペナルティと 整合的な理論体系を形成し、統計的学習理論の実践的基盤となる。

Mathematics is the language with which God has written the universe.





















凸最適化と双対性 確率的勾配法 正則化とスパース推定 線形モデルと一般化線形モデル 回帰分析と正則化