統計的推定は、観測データ $\mathcal{D}_n$ から未知の確率分布やそのパラメータを 推論する枠組みである。本節では二大アプローチである 最尤推定(Maximum Likelihood Estimation, MLE)と ベイズ推定(Bayesian Estimation)を測度論的確率の基礎のうえに 厳密に定式化し、統計的学習理論との接続を示す。
パラメータ空間 $\Theta \subseteq \mathbb{R}^d$ と、 可測空間 $(\mathcal{X}, \mathcal{B}(\mathcal{X}))$ 上の パラメトリックモデル族
\[ \mathcal{P} = \{ P_\theta : \theta \in \Theta \}\]を考える。各 $P_\theta$ はある $\sigma$-有限基準測度 $\nu$ (例:ルベーグ測度 $\lambda$ または計数測度 $\#$)に対して 絶対連続であり、Radon–Nikodym密度
\[ p(x ; \theta) = \frac{dP_\theta}{d\nu}(x)\]を持つとする。真のパラメータを $\theta^* \in \Theta$ とし、 観測データ
\[ \mathcal{D}_n = \{ x_1, \ldots, x_n \}, \quad x_i \overset{\text{i.i.d.}}{\sim} P_{\theta^*}\]が与えられているとする(前節の i.i.d. 設定と整合する)。 簡単のため $\mathcal{X} \subseteq \mathbb{R}^p$ とし、 連続分布では $\nu = \lambda$(ルベーグ測度)、 離散分布では $\nu = \#$(計数測度)を用いる。
パラメータ $\theta$ のもとでデータ $\mathcal{D}_n$ が観測される 尤度関数(Likelihood Function)を
\[ L(\theta ; \mathcal{D}_n) = \prod_{i=1}^n p(x_i ; \theta)\]と定義する(i.i.d. 仮定による積の形)。 数値的安定性と解析の便宜のため、対数尤度関数を
\[ \ell(\theta ; \mathcal{D}_n) = \log L(\theta ; \mathcal{D}_n) = \sum_{i=1}^n \log p(x_i ; \theta)\]と定義する。$\log$ は単調増加であるから、 $L$ の最大化と $\ell$ の最大化は同値である。
最尤推定量(MLE)$\hat{\theta}_n^{\text{MLE}}$ を
\[ \hat{\theta}_n^{\text{MLE}} = \arg\max_{\theta \in \Theta} \ell(\theta ; \mathcal{D}_n) = \arg\max_{\theta \in \Theta} \sum_{i=1}^n \log p(x_i ; \theta)\]と定義する。$\hat{\theta}_n^{\text{MLE}}$ はデータの関数であるから確率変数であり、 その統計的性質が推定理論の主要な研究対象となる。
強大数の法則より、
\[ \frac{1}{n} \ell(\theta ; \mathcal{D}_n) = \frac{1}{n} \sum_{i=1}^n \log p(x_i ; \theta) \xrightarrow{P\text{-a.s.}} \mathbb{E}_{x \sim P_{\theta^*}}[\log p(x ; \theta)]\]が成立する。右辺を整理すると、
\[ \mathbb{E}_{x \sim P_{\theta^*}}[\log p(x ; \theta)] = -\underbrace{\mathrm{KL}(P_{\theta^*} \| P_\theta)}_{\geq\, 0} - H(P_{\theta^*})\]ここで $\mathrm{KL}(P_{\theta^*} \| P_\theta)$ は KLダイバージェンス(Kullback–Leibler Divergence)
\[ \mathrm{KL}(P_{\theta^*} \| P_\theta) = \mathbb{E}_{x \sim P_{\theta^*}}\!\left[ \log \frac{p(x;\theta^*)}{p(x;\theta)} \right] \geq 0\]であり、$H(P_{\theta^*}) = -\mathbb{E}[\log p(x;\theta^*)]$ は真の分布の 微分エントロピー($\theta$ に依存しない定数)である。 したがって対数尤度の最大化は $\mathrm{KL}(P_{\theta^*} \| P_\theta)$ の最小化と漸近的に同値であり、 MLEは真の分布に最も近い(KL距離の意味で)分布を選ぶ手続きとして解釈できる。 この観点はERM(経験リスク最小化)との深い接続を示す(後述)。
対数尤度の勾配をスコア関数(Score Function)と呼ぶ:
\[ s(x ; \theta) = \nabla_\theta \log p(x ; \theta)\]正則条件(微分と積分の交換可能性)のもと、スコアの期待値はゼロになる:
\[ \mathbb{E}_{x \sim P_\theta}[s(x;\theta)] = 0\]スコアの共分散行列をフィッシャー情報行列(Fisher Information Matrix)と呼ぶ:
\[ I(\theta) = \mathbb{E}_{x \sim P_\theta}\bigl[ s(x;\theta)\, s(x;\theta)^\top \bigr] = -\mathbb{E}_{x \sim P_\theta}\bigl[ \nabla_\theta^2 \log p(x;\theta) \bigr] \in \mathbb{R}^{d \times d}\]$I(\theta)$ は半正定値行列であり、$\theta$ 近傍における尤度面の曲率、 すなわちパラメータに関する情報量を定量化する。
$\hat{\theta}$ を $\theta^*$ の不偏推定量($\mathbb{E}[\hat{\theta}] = \theta^*$)とする。 正則条件のもとでクラメール・ラオ下界(Cramér–Rao Lower Bound)が成立する:
\[ \operatorname{Cov}(\hat{\theta}) \succeq I(\theta^*)^{-1}\]すなわち不偏推定量の共分散行列は $I(\theta^*)^{-1}$ 以上(半正定値の意味で)である。 推定量 $\hat{\theta}$ がこの下界を達成するとき有効推定量(Efficient Estimator)と呼ぶ。
正則条件($\Theta$ が開集合、$p(x;\theta)$ が $\theta$ について三階微分可能、 フィッシャー情報行列 $I(\theta^*)$ が正定値、など)のもとで、 MLE $\hat{\theta}_n^{\text{MLE}}$ は次の性質を持つ。
漸近正規性は中心極限定理(前節)の応用であり、 フィッシャー情報行列が漸近分散の逆行列として現れることを示している。
ベイズ推定はパラメータ $\theta$ を確率変数とみなし、 データ観測前の不確実性を事前分布(Prior Distribution) $\pi(\theta)$ として確率的に表現する枠組みである。
データ $\mathcal{D}_n$ の観測後、ベイズの定理により 事後分布(Posterior Distribution)が
\[ \pi(\theta \mid \mathcal{D}_n) = \frac{L(\theta;\mathcal{D}_n)\, \pi(\theta)}{\displaystyle\int_\Theta L(\theta';\mathcal{D}_n)\, \pi(\theta')\, d\theta'} \propto L(\theta;\mathcal{D}_n)\, \pi(\theta)\]と定まる。分母
\[ m(\mathcal{D}_n) = \int_\Theta L(\theta';\mathcal{D}_n)\, \pi(\theta')\, d\theta'\]を周辺尤度(Marginal Likelihood)またはモデルエビデンスと呼ぶ。 $m(\mathcal{D}_n)$ は $\theta$ に依存しない正規化定数であり、モデル比較の基準として用いられる。 測度論的には、事後分布は同時分布 $p(\mathcal{D}_n, \theta) = L(\theta;\mathcal{D}_n)\pi(\theta)$ の $\theta$ に関する条件付き分布(前節の条件付き期待値と整合する)である。
事後分布から点推定値を得る代表的な方法は以下の三種である。
新たな観測 $x_{\text{new}}$ に対するベイズ予測は、事後分布にわたる期待値として
\[ p(x_{\text{new}} \mid \mathcal{D}_n) = \int_\Theta p(x_{\text{new}} ; \theta)\, \pi(\theta \mid \mathcal{D}_n)\, d\theta\]で与えられる。これを事後予測分布(Posterior Predictive Distribution)と呼ぶ。 点推定値 $\hat{\theta}$ による予測 $p(x_{\text{new}};\hat{\theta})$ とは異なり、 パラメータの不確実性(事後分布の広がり)を周辺化によって積分消去している。 これはベイズ推定の本質的な利点であり、予測の不確実性定量化(Uncertainty Quantification) の理論的基礎となる。
尤度 $L(\theta;\mathcal{D}_n)$ と事前分布 $\pi(\theta)$ が同一のパラメトリック族に属する 事後分布を生成するとき、$\pi$ を共役事前分布(Conjugate Prior)と呼ぶ。 共役性により事後分布が解析的に得られ、逐次更新も容易となる。 代表的な共役ペアを示す。
| 尤度 | 共役事前分布 | 事後分布 |
|---|---|---|
| ベルヌーイ / 二項分布 | ベータ分布 $\mathrm{Beta}(\alpha, \beta)$ | $\mathrm{Beta}(\alpha + \sum x_i,\; \beta + n - \sum x_i)$ |
| ポアソン分布 | ガンマ分布 $\mathrm{Gamma}(\alpha, \beta)$ | $\mathrm{Gamma}(\alpha + \sum x_i,\; \beta + n)$ |
| 正規分布(分散既知 $\sigma^2$) | $\mathcal{N}(\mu_0, \tau_0^2)$ | $\mathcal{N}\!\left(\dfrac{\tau_0^{-2}\mu_0 + \sigma^{-2}n\bar{x}}{\tau_0^{-2}+n\sigma^{-2}},\; (\tau_0^{-2}+n\sigma^{-2})^{-1}\right)$ |
| 多項分布 | ディリクレ分布 $\mathrm{Dir}(\boldsymbol{\alpha})$ | $\mathrm{Dir}(\boldsymbol{\alpha} + \boldsymbol{n})$ |
正則条件のもとで、標本数 $n \to \infty$ のとき事後分布は MLE $\hat{\theta}_n^{\text{MLE}}$ を中心とするガウス分布に収束する:
\[ \pi\!\left(\,\sqrt{n}(\theta - \hat{\theta}_n^{\text{MLE}}) \;\Big|\; \mathcal{D}_n\right) \xrightarrow{d} \mathcal{N}\!\bigl(0,\, I(\theta^*)^{-1}\bigr)\]これをBernstein–von Mises(BvM)定理と呼ぶ。 BvM定理は以下を意味する。
対数尤度の最大化と経験リスク最小化は、損失関数を負の対数尤度 $L(f(\boldsymbol{x}), y) = -\log p(y \mid \boldsymbol{x}; \theta)$ とすることで完全に一致する:
\[ \hat{\theta}_n^{\text{MLE}} = \arg\max_\theta \sum_{i=1}^n \log p(y_i \mid \boldsymbol{x}_i;\theta) = \arg\min_\theta \frac{1}{n}\sum_{i=1}^n \bigl[-\log p(y_i \mid \boldsymbol{x}_i;\theta)\bigr] = \hat{f}_{\text{ERM}}\]具体例として、ガウスノイズモデル $y = f_\theta(\boldsymbol{x}) + \varepsilon$、 $\varepsilon \sim \mathcal{N}(0, \sigma^2)$ のもとでは $-\log p(y \mid \boldsymbol{x};\theta) \propto (y - f_\theta(\boldsymbol{x}))^2$ となり、 MLEは二乗損失によるERMに一致する。 また、$\ell_2$ 正則化付きERMはガウス事前分布のもとでのMAP推定に対応する。
この対応を表にまとめる。
| 統計的推定の枠組み | 学習理論の枠組み | 損失・正則化の対応 |
|---|---|---|
| MLE | ERM(負の対数尤度損失) | 正則化なし |
| MAP(ガウス事前) | $\ell_2$ 正則化ERM(リッジ) | $\lambda\|\theta\|^2$ |
| MAP(ラプラス事前) | $\ell_1$ 正則化ERM(Lasso) | $\lambda\|\theta\|_1$ |
| ベイズ予測分布 | アンサンブル(事後分布による平均化) | パラメータ不確実性の積分消去 |
| 観点 | 頻度論(MLE) | ベイズ |
|---|---|---|
| $\theta$ の扱い | 固定した未知定数 | 確率変数(不確実性を持つ) |
| 出力 | 点推定値 $\hat{\theta}$ | 事後分布 $\pi(\theta\mid\mathcal{D}_n)$ |
| 不確実性の表現 | 信頼区間(反復実験の頻度として解釈) | 信用区間(事後確率として直接解釈) |
| 小標本 | 漸近近似が粗い可能性 | 事前分布が本質的に影響(正則化効果) |
| 大標本 | 漸近有効性が保証される | BvM定理によりMLEに収束 |
| 計算 | 最適化問題(勾配法等) | 積分(MCMC・変分推論等が必要な場合あり) |
| 事前知識の組み込み | 構造的制約として(陽に難しい) | 事前分布として自然に組み込める |
最尤推定は対数尤度の最大化としてERMと統一的に定式化され、 フィッシャー情報量・クラメール・ラオ下界・漸近正規性という 強力な理論的保証を持つ。ベイズ推定は事前分布・事後分布・予測分布という 確率的枠組みにより不確実性を統一的に扱い、 MAP推定は正則化付きERM、ベイズ予測はアンサンブルと対応する。 Bernstein–von Mises定理は大標本での両者の漸近的等価性を保証し、 小標本・高次元設定での差異を際立たせる。 測度論的確率(Radon–Nikodym定理・条件付き期待値)はこれらの定式化の 数学的基盤を提供し、統計的学習理論全体の整合的な理解を支える。
Mathematics is the language with which God has written the universe.