尤度

Definition:Likelihood

尤度とは,観測されたデータが特定のパラメータのもとで生成される確率の尺度である.すなわち,確率モデルにおけるパラメータを変数とみなし,観測データを固定した条件の下でそのパラメータの値を評価する関数である.

尤度は確率密度関数または確率質量関数を基に定義され,観測データが与えられたとき,パラメータがそのデータをどれほど説明できるかを定量化する.

具体的には,独立同分布に従う観測データ集合 $\mathcal{D} = \{x_1, x_2, \ldots, x_n\}$ が与えられ,モデルがパラメータ $w$ に依存する確率密度関数[または確率質量関数] $p(x \mid w)$ で表される場合,尤度関数 $L(w; \mathcal{D})$ は以下のように定義される.\[L(w; \mathcal{D}) = \prod_{i=1}^n p(x_i \mid w)\]ここで,各データ点が独立に生成されたという仮定に基づき,全データの同時確率は個々の確率の積となる.

尤度関数は最大化されることで最尤推定法[Maximum Likelihood Estimation, MLE]における推定値 $\hat{w}$ が決定される.すなわち,観測データを最もよく説明するパラメータを求める手法である.最尤推定量は $\hat{w}{\text{ML}} = \arg\max_w L(w; \mathcal{D})$ として定式化され,これは同時に $\hat{w}{\text{ML}} = \arg\max_w \ell(w; \mathcal{D})$ とも表される.

計算や解析の便宜上,尤度の対数をとった対数尤度関数 $\ell(w; \mathcal{D}) = \log L(w; \mathcal{D}) = \sum_{i=1}^n \log p(x_i \mid w)$ を用いることが一般的である.対数をとることで積が和に変換され,微分などの計算が容易になるためである.さらに重要な利点として,数値計算における桁落ちやアンダーフローの問題を回避できる.多数のデータ点における確率密度の積は極めて小さな値となり,計算機の表現精度を超える場合があるが,対数変換により数値的安定性が確保される.

最尤推定の理論的性質として,データ数が十分大きい場合の漸近的性質が重要である.適当な正則性条件下で,最尤推定量は一致性[真の値に確率収束],漸近正規性[正規分布に分布収束],漸近有効性[クラメール・ラオ下界を達成]を満たす.これらの優れた統計的性質により,最尤推定は統計的推論の標準的手法として広く用いられている.

尤度の概念は,統計学や機械学習の基礎となり,パラメータ推定のみならずモデル選択,検定,ベイズ推論など多様な応用を持つ.モデル選択においては,赤池情報量基準[AIC]やベイズ情報量基準[BIC]などの情報量基準が対数尤度を基礎として定義される.AICは $\text{AIC} = -2\ell(\hat{w}) + 2k$ [$k$はパラメータ数]として表され,予測性能と模型の複雑さのバランスを評価する指標となる.

仮説検定においては,尤度比検定が基本的な手法として用いられる.帰無仮説 $H_0: w \in \Theta_0$ と対立仮説 $H_1: w \in \Theta_1$ に対して,尤度比統計量 $\Lambda = \frac{\max_{w \in \Theta_0} L(w)}{\max_{w \in \Theta_1} L(w)}$ を構成し,その分布に基づいて検定を行う.ウィルクスの定理により,適当な条件下で $-2\log\Lambda$ はカイ二乗分布に従うことが知られている.

ベイズ推論においては,尤度は事前分布 $p(w)$ と結合して事後分布 $p(w|\mathcal{D}) \propto L(w; \mathcal{D}) \cdot p(w)$ を形成する核心的要素である.ベイズの定理により,観測データが与えられた条件下でのパラメータの不確実性を定量化し,点推定だけでなく区間推定や予測分布の構築が可能となる.

尤度は観測データを固定しパラメータを変化させる関数である点が,確率密度関数の定義と異なる重要な特徴である.確率密度関数 $p(x|w)$ はパラメータ $w$ を固定してデータ $x$ を変数とするのに対し,尤度関数 $L(w; \mathcal{D})$ はデータ $\mathcal{D}$ を固定してパラメータ $w$ を変数とする.この視点の転換により,観測されたデータがどのパラメータ値を支持するかを評価できる.

さらに,尤度原理[likelihood principle]は統計的推論の基本原則の一つである.この原理によれば,同じ尤度関数を生成する異なる実験や標本抽出方法は,統計的推論において同等に扱われるべきである.これは,推論において本質的に重要なのは尤度関数の形状であり,データの収集方法や標本空間の詳細ではないことを示している.

機械学習の文脈では,尤度最大化は多くの学習アルゴリズムの理論的基盤となっている.線形回帰におけるガウシアンノイズ仮定下での最小二乗法,ロジスティック回帰,ニューラルネットワークの訓練などは,いずれも本質的に尤度最大化の問題として定式化される.深層学習においても,変分オートエンコーダー生成対抗ネットワークなどの手法で尤度の概念が中心的役割を果たしている.

Mathematics is the language with which God has written the universe.





















自然対数の底 学習 カーネル法 カーネル関数の族 カーネル関数 レヴィの反転公式