モデル選択は、データへの当てはまりと複雑さのトレードオフを評価し、複数の候補モデルの中から適切なものを選ぶ手続きである。AICおよびBICは情報量規準と呼ばれる指標であり、対数尤度にパラメータ数に応じたペナルティを加えることでこのトレードオフを定量化する。
説明変数の部分集合を変えた $M$ 個の候補モデル $\mathcal{M}_1, \dots, \mathcal{M}_M$ を考える。モデルを複雑にするほどデータへの当てはまりは向上するが、過学習のリスクが増す。決定係数 $R^2$ はパラメータを追加するだけで単調非減少となるため、モデル選択の規準としては不適切である。情報量規準はペナルティ項により複雑さを明示的に制御する。
パラメータ $\boldsymbol{\theta}$ をもつモデルのもとで観測データ $\boldsymbol{Y}$ の対数尤度を
\[\ell(\hat{\boldsymbol{\theta}}) = \log L(\hat{\boldsymbol{\theta}};\, \boldsymbol{Y})\]
とおく。正規線形回帰モデル $\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}$、$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I_n)$ では、最尤推定量のもとで
\[\ell(\hat{\boldsymbol{\beta}}, \hat{\sigma}^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\hat{\sigma}^2 - \frac{n}{2}\]
となる。ここで $\hat{\sigma}^2 = RSS/n$ は最尤推定量(不偏推定量 $RSS/(n-p)$ とは異なる)である。対数尤度は当てはまりの良さを測るが、パラメータ数を増やすほど大きくなるため、そのままではモデル選択に使えない。
自由パラメータ数を $k$ とするとき、
\[\text{AIC} = -2\ell(\hat{\boldsymbol{\theta}}) + 2k\]
と定義される。第一項はモデルの当てはまりの悪さを、第二項はパラメータ数に比例するペナルティを表す。AICは小さいほど良いモデルとみなす。
AICは真のモデル $f$ と推定モデル $g$ の間のKullback–Leibler乖離度
\[\text{KL}(f \| g) = E_f\!\left[\log\frac{f(\boldsymbol{Y})}{g(\boldsymbol{Y};\hat{\boldsymbol{\theta}})}\right]\]
の推定量として導出される。$-2\ell(\hat{\boldsymbol{\theta}})$ はKL乖離度の推定として楽観的にすぎるため、そのバイアスの補正項として $2k$ が加わる。すなわちAICは予測精度の観点からモデルを評価する。
パラメータは $\boldsymbol{\beta}$($p$ 個)と $\sigma^2$($1$ 個)の計 $k = p + 1$ 個であり、
\[\text{AIC} = n\log\hat{\sigma}^2 + 2(p+1) + \text{const}\]
と表される。モデル比較において定数項は共通であるため省略できる。
標本サイズ $n$ がパラメータ数 $k$ に対して小さい場合、AICのバイアス補正が不十分となる。補正済みAICとして
\[\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n-k-1}\]
が用いられる。$n/k$ が大きいとき AICc は AIC に収束する。
自由パラメータ数を $k$、標本サイズを $n$ とするとき、
\[\text{BIC} = -2\ell(\hat{\boldsymbol{\theta}}) + k\log n\]
と定義される。ペナルティが $2k$ ではなく $k\log n$ である点がAICと異なる。
BICはモデルの周辺尤度(エビデンス)
\[p(\boldsymbol{Y} \mid \mathcal{M}) = \int L(\boldsymbol{\theta};\boldsymbol{Y})\, \pi(\boldsymbol{\theta})\, d\boldsymbol{\theta}\]
の対数をラプラス近似することで得られる。すなわち、
\[\log p(\boldsymbol{Y} \mid \mathcal{M}) \approx \ell(\hat{\boldsymbol{\theta}}) - \frac{k}{2}\log n + \text{const}\]
であり、$-2$ 倍するとBICが得られる。BICはモデルの事後確率を最大化するという観点からの選択規準であり、真のモデルが候補の中に含まれるという前提と親和性が高い。
\[\text{BIC} = n\log\hat{\sigma}^2 + (p+1)\log n + \text{const}\]
と表される。$\log n > 2$、すなわち $n > e^2 \approx 7.39$ のとき、BICのペナルティはAICより大きくなる。
$p-1$ 個の説明変数に対して $2^{p-1}$ 個の候補モデルをすべて評価し、AICまたはBICが最小のモデルを選ぶ。$p$ が大きい場合は計算量が膨大となる。
変数を一つずつ追加・削除しながら規準を改善するステップワイズ法が広く用いられる。前進選択・後退除去・双方向選択の三種がある。局所最適解に陥る可能性があることに注意が必要である。
AICは予測精度の観点からKL乖離度のバイアス補正として導出され、BICはモデルの周辺尤度のラプラス近似として導出される。両者はともに $-2\ell(\hat{\boldsymbol{\theta}}) + \text{ペナルティ}$ の形をとるが、ペナルティの大きさと理論的背景が異なる。目的に応じてAICとBICを使い分けることが、適切なモデル選択の基本となる。
Mathematics is the language with which God has written the universe.