推定（最尤・ベイズ）

統計的推定は、観測データ $\mathcal{D}_n$ から未知の確率分布やそのパラメータを推論する枠組みである。本節では二大アプローチである 最尤推定（Maximum Likelihood Estimation, MLE）と ベイズ推定（Bayesian Estimation）を測度論的確率の基礎のうえに厳密に定式化し、統計的学習理論との接続を示す。

設定

パラメータ空間 $\Theta \subseteq \mathbb{R}^d$ と、可測空間 $(\mathcal{X}, \mathcal{B}(\mathcal{X}))$ 上のパラメトリックモデル族

\[ \mathcal{P} = \{ P_\theta : \theta \in \Theta \}\]

を考える。各 $P_\theta$ はある $\sigma$-有限基準測度 $\nu$ （例：ルベーグ測度 $\lambda$ または計数測度 $\#$）に対して絶対連続であり、Radon–Nikodym密度

\[ p(x ; \theta) = \frac{dP_\theta}{d\nu}(x)\]

を持つとする。真のパラメータを $\theta^* \in \Theta$ とし、観測データ

\[ \mathcal{D}_n = \{ x_1, \ldots, x_n \}, \quad x_i \overset{\text{i.i.d.}}{\sim} P_{\theta^*}\]

が与えられているとする（前節の i.i.d. 設定と整合する）。簡単のため $\mathcal{X} \subseteq \mathbb{R}^p$ とし、連続分布では $\nu = \lambda$（ルベーグ測度）、離散分布では $\nu = \#$（計数測度）を用いる。

最尤推定（MLE）

尤度関数と対数尤度

パラメータ $\theta$ のもとでデータ $\mathcal{D}_n$ が観測される 尤度関数（Likelihood Function）を

\[ L(\theta ; \mathcal{D}_n) = \prod_{i=1}^n p(x_i ; \theta)\]

と定義する（i.i.d. 仮定による積の形）。数値的安定性と解析の便宜のため、対数尤度関数を

\[ \ell(\theta ; \mathcal{D}_n) = \log L(\theta ; \mathcal{D}_n) = \sum_{i=1}^n \log p(x_i ; \theta)\]

と定義する。$\log$ は単調増加であるから、 $L$ の最大化と $\ell$ の最大化は同値である。

最尤推定量の定義

最尤推定量（MLE）$\hat{\theta}_n^{\text{MLE}}$ を

\[ \hat{\theta}_n^{\text{MLE}} = \arg\max_{\theta \in \Theta} \ell(\theta ; \mathcal{D}_n) = \arg\max_{\theta \in \Theta} \sum_{i=1}^n \log p(x_i ; \theta)\]

と定義する。$\hat{\theta}_n^{\text{MLE}}$ はデータの関数であるから確率変数であり、その統計的性質が推定理論の主要な研究対象となる。

MLEとKLダイバージェンスの関係

強大数の法則より、

\[ \frac{1}{n} \ell(\theta ; \mathcal{D}_n) = \frac{1}{n} \sum_{i=1}^n \log p(x_i ; \theta) \xrightarrow{P\text{-a.s.}} \mathbb{E}_{x \sim P_{\theta^*}}[\log p(x ; \theta)]\]

が成立する。右辺を整理すると、

\[ \mathbb{E}_{x \sim P_{\theta^*}}[\log p(x ; \theta)] = -\underbrace{\mathrm{KL}(P_{\theta^*} \| P_\theta)}_{\geq\, 0} - H(P_{\theta^*})\]

ここで $\mathrm{KL}(P_{\theta^*} \| P_\theta)$ は KLダイバージェンス（Kullback–Leibler Divergence）

\[ \mathrm{KL}(P_{\theta^*} \| P_\theta) = \mathbb{E}_{x \sim P_{\theta^*}}\!\left[ \log \frac{p(x;\theta^*)}{p(x;\theta)} \right] \geq 0\]

であり、$H(P_{\theta^*}) = -\mathbb{E}[\log p(x;\theta^*)]$ は真の分布の微分エントロピー（$\theta$ に依存しない定数）である。したがって対数尤度の最大化は $\mathrm{KL}(P_{\theta^*} \| P_\theta)$ の最小化と漸近的に同値であり、 MLEは真の分布に最も近い（KL距離の意味で）分布を選ぶ手続きとして解釈できる。この観点はERM（経験リスク最小化）との深い接続を示す（後述）。

スコア関数とフィッシャー情報量

対数尤度の勾配をスコア関数（Score Function）と呼ぶ：

\[ s(x ; \theta) = \nabla_\theta \log p(x ; \theta)\]

正則条件（微分と積分の交換可能性）のもと、スコアの期待値はゼロになる：

\[ \mathbb{E}_{x \sim P_\theta}[s(x;\theta)] = 0\]

スコアの共分散行列をフィッシャー情報行列（Fisher Information Matrix）と呼ぶ：

\[ I(\theta) = \mathbb{E}_{x \sim P_\theta}\bigl[ s(x;\theta)\, s(x;\theta)^\top \bigr] = -\mathbb{E}_{x \sim P_\theta}\bigl[ \nabla_\theta^2 \log p(x;\theta) \bigr] \in \mathbb{R}^{d \times d}\]

$I(\theta)$ は半正定値行列であり、$\theta$ 近傍における尤度面の曲率、すなわちパラメータに関する情報量を定量化する。

クラメール・ラオ下界

$\hat{\theta}$ を $\theta^*$ の不偏推定量（$\mathbb{E}[\hat{\theta}] = \theta^*$）とする。正則条件のもとでクラメール・ラオ下界（Cramér–Rao Lower Bound）が成立する：

\[ \operatorname{Cov}(\hat{\theta}) \succeq I(\theta^*)^{-1}\]

すなわち不偏推定量の共分散行列は $I(\theta^*)^{-1}$ 以上（半正定値の意味で）である。推定量 $\hat{\theta}$ がこの下界を達成するとき有効推定量（Efficient Estimator）と呼ぶ。

MLEの漸近理論

正則条件（$\Theta$ が開集合、$p(x;\theta)$ が $\theta$ について三階微分可能、フィッシャー情報行列 $I(\theta^*)$ が正定値、など）のもとで、 MLE $\hat{\theta}_n^{\text{MLE}}$ は次の性質を持つ。

一致性（Consistency）： \[ \hat{\theta}_n^{\text{MLE}} \xrightarrow{P} \theta^* \quad (n \to \infty) \]
漸近正規性（Asymptotic Normality）： \[ \sqrt{n}\,\bigl(\hat{\theta}_n^{\text{MLE}} - \theta^*\bigr) \xrightarrow{d} \mathcal{N}\!\bigl(0,\, I(\theta^*)^{-1}\bigr) \]
漸近有効性（Asymptotic Efficiency）： MLEはすべての一致推定量の中でクラメール・ラオ下界を漸近的に達成する（漸近有効推定量である）。

漸近正規性は中心極限定理（前節）の応用であり、フィッシャー情報行列が漸近分散の逆行列として現れることを示している。

ベイズ推定

ベイズの定理と事後分布

ベイズ推定はパラメータ $\theta$ を確率変数とみなし、データ観測前の不確実性を事前分布（Prior Distribution） $\pi(\theta)$ として確率的に表現する枠組みである。

データ $\mathcal{D}_n$ の観測後、ベイズの定理により 事後分布（Posterior Distribution）が

\[ \pi(\theta \mid \mathcal{D}_n) = \frac{L(\theta;\mathcal{D}_n)\, \pi(\theta)}{\displaystyle\int_\Theta L(\theta';\mathcal{D}_n)\, \pi(\theta')\, d\theta'} \propto L(\theta;\mathcal{D}_n)\, \pi(\theta)\]

と定まる。分母

\[ m(\mathcal{D}_n) = \int_\Theta L(\theta';\mathcal{D}_n)\, \pi(\theta')\, d\theta'\]

を周辺尤度（Marginal Likelihood）またはモデルエビデンスと呼ぶ。 $m(\mathcal{D}_n)$ は $\theta$ に依存しない正規化定数であり、モデル比較の基準として用いられる。測度論的には、事後分布は同時分布 $p(\mathcal{D}_n, \theta) = L(\theta;\mathcal{D}_n)\pi(\theta)$ の $\theta$ に関する条件付き分布（前節の条件付き期待値と整合する）である。

点推定：MAP推定とベイズ推定量

事後分布から点推定値を得る代表的な方法は以下の三種である。

MAP推定（最大事後確率推定、Maximum A Posteriori）： \[ \hat{\theta}^{\text{MAP}} = \arg\max_{\theta \in \Theta} \pi(\theta \mid \mathcal{D}_n) = \arg\max_{\theta \in \Theta} \bigl[ \ell(\theta;\mathcal{D}_n) + \log \pi(\theta) \bigr] \] 事前分布 $\pi(\theta)$ が一様のとき MAP 推定は MLE に一致する。 $\log\pi(\theta)$ はMLEにおける正則化項に対応し、例えば $\pi(\theta) = \mathcal{N}(0, \lambda^{-1}I)$（等方ガウス事前分布）のとき $\log\pi(\theta) \propto -\lambda\|\theta\|^2$ となり $\ell_2$ 正則化（リッジ回帰）に一致する。
事後平均（Posterior Mean）： \[ \hat{\theta}^{\text{PM}} = \mathbb{E}[\theta \mid \mathcal{D}_n] = \int_\Theta \theta\, \pi(\theta \mid \mathcal{D}_n)\, d\theta \] 二乗損失 $L(\hat{\theta}, \theta) = \|\hat{\theta} - \theta\|^2$ のもとでのベイズ最適推定量（事後リスクを最小化する推定量）である。
事後中央値（Posterior Median）： 絶対値損失 $L(\hat{\theta}, \theta) = |\hat{\theta} - \theta|$ のもとでのベイズ最適推定量。

ベイズ予測分布

新たな観測 $x_{\text{new}}$ に対するベイズ予測は、事後分布にわたる期待値として

\[ p(x_{\text{new}} \mid \mathcal{D}_n) = \int_\Theta p(x_{\text{new}} ; \theta)\, \pi(\theta \mid \mathcal{D}_n)\, d\theta\]

で与えられる。これを事後予測分布（Posterior Predictive Distribution）と呼ぶ。点推定値 $\hat{\theta}$ による予測 $p(x_{\text{new}};\hat{\theta})$ とは異なり、パラメータの不確実性（事後分布の広がり）を周辺化によって積分消去している。これはベイズ推定の本質的な利点であり、予測の不確実性定量化（Uncertainty Quantification）の理論的基礎となる。

共役事前分布

尤度 $L(\theta;\mathcal{D}_n)$ と事前分布 $\pi(\theta)$ が同一のパラメトリック族に属する事後分布を生成するとき、$\pi$ を共役事前分布（Conjugate Prior）と呼ぶ。共役性により事後分布が解析的に得られ、逐次更新も容易となる。代表的な共役ペアを示す。

尤度	共役事前分布	事後分布
ベルヌーイ / 二項分布	ベータ分布 $\mathrm{Beta}(\alpha, \beta)$	$\mathrm{Beta}(\alpha + \sum x_i,\; \beta + n - \sum x_i)$
ポアソン分布	ガンマ分布 $\mathrm{Gamma}(\alpha, \beta)$	$\mathrm{Gamma}(\alpha + \sum x_i,\; \beta + n)$
正規分布（分散既知 $\sigma^2$）	$\mathcal{N}(\mu_0, \tau_0^2)$	$\mathcal{N}\!\left(\dfrac{\tau_0^{-2}\mu_0 + \sigma^{-2}n\bar{x}}{\tau_0^{-2}+n\sigma^{-2}},\; (\tau_0^{-2}+n\sigma^{-2})^{-1}\right)$
多項分布	ディリクレ分布 $\mathrm{Dir}(\boldsymbol{\alpha})$	$\mathrm{Dir}(\boldsymbol{\alpha} + \boldsymbol{n})$

ベイズ推定の漸近理論：Bernstein–von Mises定理

正則条件のもとで、標本数 $n \to \infty$ のとき事後分布は MLE $\hat{\theta}_n^{\text{MLE}}$ を中心とするガウス分布に収束する：

\[ \pi\!\left(\,\sqrt{n}(\theta - \hat{\theta}_n^{\text{MLE}}) \;\Big|\; \mathcal{D}_n\right) \xrightarrow{d} \mathcal{N}\!\bigl(0,\, I(\theta^*)^{-1}\bigr)\]

これをBernstein–von Mises（BvM）定理と呼ぶ。 BvM定理は以下を意味する。

大標本では事前分布の選択は（正則な場合）漸近的な推定結果に影響しない。事後分布・MLE・クラメール・ラオ下界が一致した情報を与える。
事後分布の $95\%$ 信用区間（Credible Interval）と MLEに基づく $95\%$ 信頼区間（Confidence Interval）は漸近的に一致する。
逆に小標本・高次元・ノンパラメトリック設定ではBvMが成立しないことがあり、事前分布の選択が推定に本質的に影響する。

MLEとERMの統一的理解

対数尤度の最大化と経験リスク最小化は、損失関数を負の対数尤度 $L(f(\boldsymbol{x}), y) = -\log p(y \mid \boldsymbol{x}; \theta)$ とすることで完全に一致する：

\[ \hat{\theta}_n^{\text{MLE}} = \arg\max_\theta \sum_{i=1}^n \log p(y_i \mid \boldsymbol{x}_i;\theta) = \arg\min_\theta \frac{1}{n}\sum_{i=1}^n \bigl[-\log p(y_i \mid \boldsymbol{x}_i;\theta)\bigr] = \hat{f}_{\text{ERM}}\]

具体例として、ガウスノイズモデル $y = f_\theta(\boldsymbol{x}) + \varepsilon$、 $\varepsilon \sim \mathcal{N}(0, \sigma^2)$ のもとでは $-\log p(y \mid \boldsymbol{x};\theta) \propto (y - f_\theta(\boldsymbol{x}))^2$ となり、 MLEは二乗損失によるERMに一致する。また、$\ell_2$ 正則化付きERMはガウス事前分布のもとでのMAP推定に対応する。

この対応を表にまとめる。

統計的推定の枠組み	学習理論の枠組み	損失・正則化の対応
MLE	ERM（負の対数尤度損失）	正則化なし
MAP（ガウス事前）	$\ell_2$ 正則化ERM（リッジ）	$\lambda\\|\theta\\|^2$
MAP（ラプラス事前）	$\ell_1$ 正則化ERM（Lasso）	$\lambda\\|\theta\\|_1$
ベイズ予測分布	アンサンブル（事後分布による平均化）	パラメータ不確実性の積分消去

頻度論的推定とベイズ推定の比較

観点	頻度論（MLE）	ベイズ
$\theta$ の扱い	固定した未知定数	確率変数（不確実性を持つ）
出力	点推定値 $\hat{\theta}$	事後分布 $\pi(\theta\mid\mathcal{D}_n)$
不確実性の表現	信頼区間（反復実験の頻度として解釈）	信用区間（事後確率として直接解釈）
小標本	漸近近似が粗い可能性	事前分布が本質的に影響（正則化効果）
大標本	漸近有効性が保証される	BvM定理によりMLEに収束
計算	最適化問題（勾配法等）	積分（MCMC・変分推論等が必要な場合あり）
事前知識の組み込み	構造的制約として（陽に難しい）	事前分布として自然に組み込める

まとめ

最尤推定は対数尤度の最大化としてERMと統一的に定式化され、フィッシャー情報量・クラメール・ラオ下界・漸近正規性という強力な理論的保証を持つ。ベイズ推定は事前分布・事後分布・予測分布という確率的枠組みにより不確実性を統一的に扱い、 MAP推定は正則化付きERM、ベイズ予測はアンサンブルと対応する。 Bernstein–von Mises定理は大標本での両者の漸近的等価性を保証し、小標本・高次元設定での差異を際立たせる。測度論的確率（Radon–Nikodym定理・条件付き期待値）はこれらの定式化の数学的基盤を提供し、統計的学習理論全体の整合的な理解を支える。

Mathematics is the language with which God has written the universe.

仮説検定と情報量基準凸最適化と双対性確率的勾配法正則化とスパース推定線形モデルと一般化線形モデル