最尤推定法（MLE）

最尤推定法は、観測された標本が得られる確率（尤度）を最大にするような母数を推定する方法であり、現代統計学における最も重要な推定手法の一つである。

尤度関数

定義

確率密度関数（または確率質量関数）を $f(x;\theta)$ とし、独立同分布な標本

\[X_1, X_2, \dots, X_n\]

が得られたとする。このとき、尤度関数は

\[L(\theta) = \prod_{i=1}^{n} f(X_i; \theta)\]

で定義される。

対数尤度関数

計算の簡便さのため、対数尤度関数

\[\ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(X_i;\theta)\]

を用いることが多い。

最尤推定量

尤度関数（または対数尤度関数）を最大にする母数の値

\[\hat{\theta} = \arg\max_{\theta} L(\theta)\]

を最尤推定量という。

通常、次の方程式（スコア方程式）を解くことで求める：

\[\frac{\partial \ell(\theta)}{\partial \theta} = 0\]

例

正規分布の場合

$X_i \sim \mathcal{N}(\mu, \sigma^2)$ とすると、対数尤度関数は

\[\ell(\mu,\sigma^2) =-\frac{n}{2}\log(2\pi)-\frac{n}{2}\log \sigma^2-\frac{1}{2\sigma^2} \sum_{i=1}^{n}(X_i - \mu)^2\]

これを最大化すると、

\[\hat{\mu} = \bar{X}, \quad\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^2\]

が得られる。

ベルヌーイ分布の場合

$X_i \sim \mathrm{Bernoulli}(p)$ とすると、

\[L(p) = p^{\sum X_i} (1-p)^{n - \sum X_i}\]

より、

\[\hat{p} = \frac{1}{n} \sum_{i=1}^{n} X_i\]

が得られる。

性質

一致性

適切な条件のもとで、最尤推定量は一致性を持つ：

\[\hat{\theta} \xrightarrow{P} \theta\]

漸近正規性

\[\sqrt{n}(\hat{\theta} - \theta)\Rightarrow \mathcal{N}\left(0, \frac{1}{I(\theta)}\right)\]

が成立する。

漸近有効性

最尤推定量は漸近的にクラメール・ラオの下界を達成する。

フィッシャー情報量

フィッシャー情報量は

\[I(\theta) = \mathbb{E}\left[\left(\frac{\partial}{\partial \theta} \log f(X;\theta)\right)^2\right]\]

で定義され、推定の精度を表す。

不変性

最尤推定量は不変性を持つ。すなわち、$\hat{\theta}$ が $\theta$ のMLEであれば、

\[g(\hat{\theta})\]

は $g(\theta)$ のMLEとなる。

注意点

必ずしも不偏ではない
多峰性により解が一意でない場合がある
計算が困難な場合がある

まとめ

最尤推定法は、尤度を最大化することで母数を推定する強力な手法であり、一致性・漸近正規性・漸近有効性といった優れた性質を持つ。統計学および機械学習において広く利用されている。

Mathematics is the language with which God has written the universe.

クラメール・ラオの下界と情報量ベイズ推定信頼区間の概念正規母集団の区間推定比率の区間推定