ベイズの定理

ベイズの定理は、観測されたデータに基づいて確率を更新するための基本原理であり、確率論および統計的推論における中核的概念である。これは条件付き確率の定義と全確率の法則から導かれる。

この定理は、18世紀半ば、イギリスの牧師トーマス・ベイズ（Thomas Bayes）によって考案された。ベイズ自身はこの成果を公表せず没したが、友人のリチャード・プライスが遺稿を整理し、1763年に王立協会で発表。しかし、当時は数学界に大きな影響を与えることはなかった。

現在のような数学的な形に整えたのは、フランスの数学者ピエール＝シモン・ラプラス。ラプラスはベイズの研究を知らずに、1774年に「原因の確率」という概念を独自に導き出した。

19世紀後半から20世紀にかけて、ベイズの手法は統計学の主流から激しく攻撃された。これは、「事前確率」という主観的な要素を導入することが、科学的な「客観性」に反すると見なされたため。フィッシャーやピアソンといった統計学の巨頭たちが「頻度主義（データのみを絶対視する立場）」を確立し、ベイズ統計は「使うべきではない誤った手法」とされた。

しかし、1980年代以降、コンピュータの性能向上により、複雑な計算を可能にする「MCMC法（マルコフ連鎖モンテカルロ法）」が登場。これにより、膨大なデータから事後確率を計算できるようになり、ベイズ統計は爆発的に普及。現在では、スパムメールのフィルタリング、自動運転、AIの学習アルゴリズム、医療診断など、不確実な状況で意思決定を行うあらゆる場面で中核を担っている。

基本定式化

確率空間 $(\Omega, \mathcal{F}, P)$ において、事象 $A, B \in \mathcal{F}$ が $P(B) > 0$ を満たすとき、ベイズの定理は次式で与えられる。

\[P(A \mid B) = \frac{P(B \mid A)\,P(A)}{P(B)}\]

ここで、$P(A)$ は事前確率（prior）、$P(B \mid A)$ は尤度（likelihood）、$P(A \mid B)$ は事後確率（posterior）と呼ばれる。

ベイスの定理を、一言でいうと、「新しい情報を手に入れるたびに、手持ちの予想をアップデートしていく仕組み」のことになる。

全確率の法則との関係

もし $\{A_i\}_{i=1}^n$ が標本空間の分割（すなわち互いに排反かつ全体を覆う集合族）であれば、

\[P(B) = \sum_{i=1}^n P(B \mid A_i)\,P(A_i)\]

が成り立つ。この式を用いることで、ベイズの定理は次の一般形として書ける。

\[P(A_k \mid B) = \frac{P(B \mid A_k)\,P(A_k)}{\sum_{i=1}^n P(B \mid A_i)\,P(A_i)}\]

測度論的定式化

確率変数 $X, Y$ に対して、ベイズの定理は条件付き分布の関係として一般化される。密度関数が存在する場合、

\[f_{X \mid Y}(x \mid y) = \frac{f_{Y \mid X}(y \mid x)\,f_X(x)}{f_Y(y)}\]

が成立する。ここで $f_X(x)$ は事前分布、$f_{Y \mid X}(y \mid x)$ は尤度、$f_{X \mid Y}(x \mid y)$ は事後分布である。

さらに、$f_Y(y)$ は

\[f_Y(y) = \int f_{Y \mid X}(y \mid x)\,f_X(x)\,dx\]

によって与えられる。

離散分布の場合

離散型確率変数の場合、確率質量関数を用いて

\[P(X = x \mid Y = y) = \frac{P(Y = y \mid X = x)\,P(X = x)}{\sum_{x'} P(Y = y \mid X = x')\,P(X = x')}\]

と書ける。

逐次更新（ベイズ更新）

観測データ $D_1, D_2, \dots, D_n$ が逐次的に得られる場合、事後分布は再帰的に更新される。

\[P(\theta \mid D_1, \dots, D_n) \propto P(D_n \mid \theta)\,P(\theta \mid D_1, \dots, D_{n-1})\]

この形式により、逐次推論やオンライン学習が可能となる。

共役事前分布

尤度関数と同じ族に属する事前分布を選ぶことで、事後分布が同じ形式を保つ場合がある。このような事前分布を共役事前分布と呼ぶ。

例えば、ベルヌーイ分布に対してはベータ分布が共役であり、

\[\theta \sim \mathrm{Beta}(\alpha, \beta), \quad X \mid \theta \sim \mathrm{Bernoulli}(\theta)\]

のとき、事後分布は

\[\theta \mid X_1, \dots, X_n \sim \mathrm{Beta}(\alpha + \sum X_i,\ \beta + n - \sum X_i)\]

となる。

ベイズ推論の解釈

ベイズの定理は、確率を「事象の発生頻度」ではなく「主観的な信念の度合い」として解釈し、観測データに基づいてその信念を動的に更新する枠組みを与える。これは、未知のパラメータを固定値とみなす頻度主義的な立場とは異なり、パラメータ自体を確率変数として扱い、その不確実性を分布（事後分布）として記述する点に最大の特徴がある。また、過去の知見を「事前分布」として解析に取り入れられる点や、得られた事後分布を次なる推論の事前分布として再利用できる「逐次更新」の性質により、現代の機械学習や意思決定理論における中核的な基盤となっている。

まとめ

ベイズの定理は条件付き確率の基本公式から導かれるが、その意義は単なる恒等式を超え、情報更新の一般原理として統計学・機械学習・意思決定理論に広く応用される。事前分布と尤度の組み合わせにより事後分布を構成するという構造は、現代の確率的モデリングの基盤である。

特に、得られた事後分布を次なる観測における新たな事前分布として再利用できる「逐次更新」の性質は、リアルタイムでの学習や動的な予測を可能にしている。また、点推定に留まらず不確実性を分布として保持できる点は、リスク管理を伴う意思決定において極めて重要な役割を果たす。現代では計算機統計学の発展に伴い、かつて困難であった複雑な階層モデルの推定も実用化され、AIや自動運転、医療診断などの広範な領域でその真価を発揮している。

Mathematics is the language with which God has written the universe.

大数の法則（弱・強）確率変数の定義離散型確率分布連続型確率分布累積分布関数