カーネル密度推定

カーネル密度推定は、観測データから確率密度関数をノンパラメトリックに推定する手法である。各観測点にカーネル関数を配置してその和をとることで滑らかな密度推定量を構成し、分布の形状に関する仮定を必要としない。

設定

独立同分布な標本

\[X_1, X_2, \dots, X_n \sim f\]

から未知の密度関数 $f$ を推定する。ヒストグラムは区間の幅と始点に依存し不連続であるのに対し、カーネル密度推定量は滑らかな推定量を与える。

カーネル密度推定量の定義

バンド幅 $h > 0$ およびカーネル関数 $K$ を用いて、カーネル密度推定量を

\[\hat{f}_h(x) = \frac{1}{nh}\sum_{i=1}^n K\!\left(\frac{x - X_i}{h}\right)\]

と定義する。カーネル関数 $K$ は通常、対称な確率密度関数

\[K(u) \geq 0, \quad \int_{-\infty}^{\infty} K(u)\, du = 1, \quad \int_{-\infty}^{\infty} u\, K(u)\, du = 0\]

の条件を満たすものを用いる。$\hat{f}_h(x)$ は各観測点 $X_i$ を中心とするカーネルの重ね合わせとして構成され、$h$ が大きいほど滑らかに、小さいほど観測値に敏感な推定量となる。

主なカーネル関数

ガウスカーネル：

\[K(u) = \frac{1}{\sqrt{2\pi}}e^{-u^2/2}\]

エパネチニコフカーネル：

\[K(u) = \frac{3}{4}(1 - u^2)\mathbf{1}(|u| \leq 1)\]

一様カーネル：

\[K(u) = \frac{1}{2}\mathbf{1}(|u| \leq 1)\]

エパネチニコフカーネルは平均積分二乗誤差を最小化する最適カーネルであるが、実用上はガウスカーネルが広く用いられる。カーネルの選択は推定精度への影響がバンド幅の選択に比べて小さいことが知られている。

バイアスと分散のトレードオフ

条件付き期待値と分散

$K$ が対称で $\int u^2 K(u)\,du = \kappa_2 < \infty$ を満たすとき、テイラー展開により

\[E[\hat{f}_h(x)] \approx f(x) + \frac{\kappa_2 h^2}{2}f''(x)\]

\[\text{Var}(\hat{f}_h(x)) \approx \frac{R(K)}{nh}f(x)\]

が成立する。ここで $R(K) = \int K(u)^2\, du$ である。バイアスは $h$ とともに増大し、分散は $h$ とともに減少する。

平均積分二乗誤差（MISE）

推定精度の総合的な指標として平均積分二乗誤差

\[\text{MISE}(h) = E\!\left[\int (\hat{f}_h(x) - f(x))^2\, dx\right]\]

を用いる。漸近展開により

\[\text{AMISE}(h) = \frac{\kappa_2^2 h^4}{4}\int (f''(x))^2\, dx + \frac{R(K)}{nh}\]

が得られる。第一項はバイアスの二乗、第二項は分散に対応する。

最適バンド幅

AMISE最小化

AMISEを $h$ で微分してゼロとおくと、最適バンド幅

\[h^* = \left(\frac{R(K)}{\kappa_2^2 \int (f''(x))^2\, dx}\right)^{1/5} n^{-1/5}\]

が得られる。最適バンド幅は $n^{-1/5}$ のオーダーで収束し、このとき $\text{AMISE}(h^*) = O(n^{-4/5})$ となる。パラメトリック推定の収束レート $O(n^{-1})$ に比べて遅く、これはノンパラメトリック推定の本質的な制約を反映している。

シルバーマンの経験則

$h^*$ は未知の $f''$ に依存するため直接計算できない。真の分布を正規分布で近似すると

\[\int (f''(x))^2\, dx \approx \frac{3}{8\sqrt{\pi}\sigma^5}\]

となり、ガウスカーネルのもとで

\[h_{\text{Silverman}} = 1.06\, \hat{\sigma}\, n^{-1/5}\]

が得られる。ここで $\hat{\sigma}$ は標本標準偏差である。真の分布が正規分布から大きく外れる場合（多峰性など）には過大平滑化となるため注意が必要である。

バンド幅選択の実用的手法

クロスバリデーション

leave-one-out クロスバリデーションにより、

\[\text{CV}(h) = \int \hat{f}_h(x)^2\, dx - \frac{2}{n}\sum_{i=1}^n \hat{f}_{h,-i}(X_i)\]

を最小化する $h$ を選ぶ。ここで $\hat{f}_{h,-i}$ は $X_i$ を除いた推定量である。データ駆動であるが計算コストが高い。

プラグイン法

$h^*$ 中の $\int (f''(x))^2\, dx$ を段階的に推定することで最適バンド幅を近似する。シルバーマンの経験則より適応的であり、多峰分布にも対応できる。

多次元への拡張

$d$ 次元の場合、バンド幅行列 $H \in \mathbb{R}^{d \times d}$（正定値）を用いて

\[\hat{f}_H(\boldsymbol{x}) = \frac{1}{n|H|^{1/2}}\sum_{i=1}^n K\!\left(H^{-1/2}(\boldsymbol{x} - \boldsymbol{X}_i)\right)\]

と定義される。最適バンド幅のオーダーは $n^{-1/(d+4)}$ となり、次元 $d$ が大きいほど収束が遅くなる。これは次元の呪いとして知られる現象であり、高次元では大量の標本が必要となる。

カーネル密度推定の特徴と限界

推定量は $K$ が連続であれば滑らかであり、$K$ と同じ回数だけ微分可能である
$\hat{f}_h$ は密度関数の条件（非負性・積分が $1$）を自動的に満たす
台が有界な分布では境界付近でバイアスが増大する境界問題が生じ、反射法や境界カーネルによる補正が必要となる
バンド幅が一定の推定量は密度が高い領域と低い領域で平滑化の程度が同じとなるため、適応型カーネル推定が有効な場合がある

まとめ

カーネル密度推定は各観測点にカーネルを配置して密度を滑らかに推定するノンパラメトリック手法であり、バンド幅 $h$ がバイアスと分散のトレードオフを制御する。AMISEの最小化により最適バンド幅は $n^{-1/5}$ のオーダーで与えられ、実用的にはシルバーマンの経験則やクロスバリデーションによる選択が広く用いられる。多次元への拡張では次元の呪いにより収束が遅くなり、バンド幅選択と計算コストが実践上の課題となる。

Mathematics is the language with which God has written the universe.

多変量正規分布主成分分析判別分析クラスター分析機械学習