モデル選択（AIC・BIC）

モデル選択は、データへの当てはまりと複雑さのトレードオフを評価し、複数の候補モデルの中から適切なものを選ぶ手続きである。AICおよびBICは情報量規準と呼ばれる指標であり、対数尤度にパラメータ数に応じたペナルティを加えることでこのトレードオフを定量化する。

モデル選択の問題設定

説明変数の部分集合を変えた $M$ 個の候補モデル $\mathcal{M}_1, \dots, \mathcal{M}_M$ を考える。モデルを複雑にするほどデータへの当てはまりは向上するが、過学習のリスクが増す。決定係数 $R^2$ はパラメータを追加するだけで単調非減少となるため、モデル選択の規準としては不適切である。情報量規準はペナルティ項により複雑さを明示的に制御する。

対数尤度の役割

パラメータ $\boldsymbol{\theta}$ をもつモデルのもとで観測データ $\boldsymbol{Y}$ の対数尤度を

\[\ell(\hat{\boldsymbol{\theta}}) = \log L(\hat{\boldsymbol{\theta}};\, \boldsymbol{Y})\]

とおく。正規線形回帰モデル $\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}$、$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I_n)$ では、最尤推定量のもとで

\[\ell(\hat{\boldsymbol{\beta}}, \hat{\sigma}^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\hat{\sigma}^2 - \frac{n}{2}\]

となる。ここで $\hat{\sigma}^2 = RSS/n$ は最尤推定量（不偏推定量 $RSS/(n-p)$ とは異なる）である。対数尤度は当てはまりの良さを測るが、パラメータ数を増やすほど大きくなるため、そのままではモデル選択に使えない。

AIC（赤池情報量規準）

定義

自由パラメータ数を $k$ とするとき、

\[\text{AIC} = -2\ell(\hat{\boldsymbol{\theta}}) + 2k\]

と定義される。第一項はモデルの当てはまりの悪さを、第二項はパラメータ数に比例するペナルティを表す。AICは小さいほど良いモデルとみなす。

情報論的導出

AICは真のモデル $f$ と推定モデル $g$ の間のKullback–Leibler乖離度

\[\text{KL}(f \| g) = E_f\!\left[\log\frac{f(\boldsymbol{Y})}{g(\boldsymbol{Y};\hat{\boldsymbol{\theta}})}\right]\]

の推定量として導出される。$-2\ell(\hat{\boldsymbol{\theta}})$ はKL乖離度の推定として楽観的にすぎるため、そのバイアスの補正項として $2k$ が加わる。すなわちAICは予測精度の観点からモデルを評価する。

正規線形回帰への適用

パラメータは $\boldsymbol{\beta}$（$p$ 個）と $\sigma^2$（$1$ 個）の計 $k = p + 1$ 個であり、

\[\text{AIC} = n\log\hat{\sigma}^2 + 2(p+1) + \text{const}\]

と表される。モデル比較において定数項は共通であるため省略できる。

AICc（小標本補正）

標本サイズ $n$ がパラメータ数 $k$ に対して小さい場合、AICのバイアス補正が不十分となる。補正済みAICとして

\[\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n-k-1}\]

が用いられる。$n/k$ が大きいとき AICc は AIC に収束する。

BIC（ベイズ情報量規準）

定義

自由パラメータ数を $k$、標本サイズを $n$ とするとき、

\[\text{BIC} = -2\ell(\hat{\boldsymbol{\theta}}) + k\log n\]

と定義される。ペナルティが $2k$ ではなく $k\log n$ である点がAICと異なる。

ベイズ的導出

BICはモデルの周辺尤度（エビデンス）

\[p(\boldsymbol{Y} \mid \mathcal{M}) = \int L(\boldsymbol{\theta};\boldsymbol{Y})\, \pi(\boldsymbol{\theta})\, d\boldsymbol{\theta}\]

の対数をラプラス近似することで得られる。すなわち、

\[\log p(\boldsymbol{Y} \mid \mathcal{M}) \approx \ell(\hat{\boldsymbol{\theta}}) - \frac{k}{2}\log n + \text{const}\]

であり、$-2$ 倍するとBICが得られる。BICはモデルの事後確率を最大化するという観点からの選択規準であり、真のモデルが候補の中に含まれるという前提と親和性が高い。

正規線形回帰への適用

\[\text{BIC} = n\log\hat{\sigma}^2 + (p+1)\log n + \text{const}\]

と表される。$\log n > 2$、すなわち $n > e^2 \approx 7.39$ のとき、BICのペナルティはAICより大きくなる。

AICとBICの比較

AICは予測精度の最大化を目的とし、BICは真のモデルの同定（一致性）を目的とする
$n$ が大きいとき、BICはAICより強くパラメータを罰するため、より簡潔なモデルを選ぶ傾向がある
BICは一致性を持つ（$n \to \infty$ で真のモデルを選ぶ確率が $1$ に収束）が、AICは一致性を持たない
AICは真のモデルが候補に含まれない場合でも予測の観点で合理的な選択を与える
どちらが優れるかは目的による：予測ならAIC、モデルの同定ならBICが適する

変数選択への応用

総当たり法

$p-1$ 個の説明変数に対して $2^{p-1}$ 個の候補モデルをすべて評価し、AICまたはBICが最小のモデルを選ぶ。$p$ が大きい場合は計算量が膨大となる。

逐次法

変数を一つずつ追加・削除しながら規準を改善するステップワイズ法が広く用いられる。前進選択・後退除去・双方向選択の三種がある。局所最適解に陥る可能性があることに注意が必要である。

情報量規準の限界

AIC・BICはネストしていないモデル間でも比較可能だが、同一データへの当てはまりに基づくため、交差検証とは異なる観点の評価となる
対数尤度の計算にはモデルの分布仮定が必要であり、仮定が誤っている場合は規準の解釈に注意が必要である
変数選択に用いる場合、選ばれた係数の推定量は選択バイアスを持つことがある

まとめ

AICは予測精度の観点からKL乖離度のバイアス補正として導出され、BICはモデルの周辺尤度のラプラス近似として導出される。両者はともに $-2\ell(\hat{\boldsymbol{\theta}}) + \text{ペナルティ}$ の形をとるが、ペナルティの大きさと理論的背景が異なる。目的に応じてAICとBICを使い分けることが、適切なモデル選択の基本となる。

Mathematics is the language with which God has written the universe.

符号検定・ウィルコクソン検定順位相関コルモゴロフ・スミルノフ検定カーネル密度推定多変量正規分布