測度論的確率の基礎

統計的学習理論における確率的議論（汎化誤差の上界、独立同分布標本の定式化、期待値の厳密な扱いなど）は、測度論に基づく確率論を基盤とする。本節では、その基礎となる概念を体系的に整理する。

可測空間

集合 $\Omega$（標本空間、Sample Space）と、その部分集合族 $\mathcal{F}$（$\sigma$-加法族、$\sigma$-algebra）の組 $(\Omega, \mathcal{F})$ を可測空間（Measurable Space）と呼ぶ。 $\mathcal{F}$ は以下の三条件を満たす：

$\Omega \in \mathcal{F}$
$A \in \mathcal{F} \Rightarrow A^c \in \mathcal{F}$（補集合について閉じている）
$A_1, A_2, \ldots \in \mathcal{F} \Rightarrow \bigcup_{k=1}^{\infty} A_k \in \mathcal{F}$（可算和について閉じている）

$\mathcal{F}$ の元を可測集合（事象、Event）と呼ぶ。 $\sigma$-加法族は「確率を割り当てることのできる事象の全体」を規定する構造であり、任意の部分集合に確率を定義しようとするとパラドックス（後述のVitali集合など）が生じるため、この制限が本質的に必要となる。

重要な例（ボレル $\sigma$-加法族）： $\Omega = \mathbb{R}$ に対し、すべての開区間 $(a, b)$ を含む最小の $\sigma$-加法族をボレル $\sigma$-加法族 $\mathcal{B}(\mathbb{R})$ と呼ぶ。より一般に $\mathbb{R}^d$ 上のボレル $\sigma$-加法族 $\mathcal{B}(\mathbb{R}^d)$ は開集合全体が生成する最小の $\sigma$-加法族として定義される。連続関数・単調関数・可測関数の概念はすべてボレル $\sigma$-加法族を前提とする。

測度と確率測度

可測空間 $(\Omega, \mathcal{F})$ 上の測度（Measure）$\mu$ とは、写像 $\mu: \mathcal{F} \to [0, +\infty]$ であって次の二条件を満たすものである：

$\mu(\emptyset) = 0$
$\sigma$-加法性（可算加法性）： 互いに素な $A_1, A_2, \ldots \in \mathcal{F}$ に対して \[ \mu\!\left( \bigcup_{k=1}^{\infty} A_k \right) = \sum_{k=1}^{\infty} \mu(A_k) \]

特に $\mu(\Omega) = 1$ を満たす測度を確率測度（Probability Measure）と呼び、 $P$ で表す。三つ組 $(\Omega, \mathcal{F}, P)$ を確率空間 （Probability Space）と呼ぶ。これはKolmogorov（1933）による確率論の公理的基礎である。

確率測度の基本性質：確率空間 $(\Omega, \mathcal{F}, P)$ において、

$P(A^c) = 1 - P(A)$
$A \subset B \Rightarrow P(A) \leq P(B)$（単調性）
$P\!\left(\bigcup_{k=1}^{\infty} A_k\right) \leq \sum_{k=1}^{\infty} P(A_k)$ （劣$\sigma$-加法性、Union Bound）
$A_n \nearrow A$（単調増加）$\Rightarrow P(A_n) \to P(A)$（測度の上方連続性）
$A_n \searrow A$（単調減少）かつ $P(A_1) < \infty$ $\Rightarrow P(A_n) \to P(A)$（測度の下方連続性）

なお、劣$\sigma$-加法性（Union Bound）は汎化誤差論における有限仮説空間の一様上界の導出で直接用いられる（前節参照）。

可測関数と確率変数

二つの可測空間 $(\Omega, \mathcal{F})$ と $(\mathcal{X}, \mathcal{G})$ に対して、写像 $X: \Omega \to \mathcal{X}$ が可測（Measurable）であるとは、

\[ \forall B \in \mathcal{G},\quad X^{-1}(B) = \{\omega \in \Omega : X(\omega) \in B\} \in \mathcal{F}\]

が成立することをいう。確率空間 $(\Omega, \mathcal{F}, P)$ 上の可測関数 $X: \Omega \to \mathbb{R}$（$\mathcal{G} = \mathcal{B}(\mathbb{R})$）を 確率変数（Random Variable）と呼ぶ。

可測性の条件は「事象 $\{X \in B\}$ に確率が割り当てられる」ことを保証する。連続関数・単調関数はボレル可測であり、可測関数の和・積・極限も（存在すれば）可測である。

確率変数 $X$ の分布（Law）$\mu_X$ とは、$(\mathbb{R}, \mathcal{B}(\mathbb{R}))$ 上の確率測度

\[ \mu_X(B) = P(X^{-1}(B)) = P(X \in B), \quad B \in \mathcal{B}(\mathbb{R})\]

として定義される。学習理論における「データが分布 $P$ に従う」という記述は、入出力対 $(\boldsymbol{X}, Y)$ を $\mathcal{X} \times \mathcal{Y}$ 値の確率変数とみなし、その分布が $P$ であることを意味する。

積分とルベーグ積分

確率空間 $(\Omega, \mathcal{F}, P)$ 上の非負可測関数 $f: \Omega \to [0, +\infty)$ に対して、 ルベーグ積分（Lebesgue Integral）を段階的に構成する。

ステップ1（単関数の積分）： 有限個の値 $a_1, \ldots, a_m \geq 0$ を取る単関数 $\varphi = \sum_{k=1}^m a_k \mathbf{1}_{A_k}$（$A_k \in \mathcal{F}$ は互いに素）に対して、

\[ \int_\Omega \varphi \, dP = \sum_{k=1}^m a_k P(A_k)\]

ステップ2（非負可測関数の積分）： 単関数で近似する単調増加列 $0 \leq \varphi_n \nearrow f$ を取り、

\[ \int_\Omega f \, dP = \lim_{n \to \infty} \int_\Omega \varphi_n \, dP\]

（この極限は取り方によらず一意に定まる。）

ステップ3（一般の可測関数）： $f = f^+ - f^-$（$f^+ = \max(f, 0)$, $f^- = \max(-f, 0)$）と分解し、 $\int f^+ \, dP$ と $\int f^- \, dP$ の少なくとも一方が有限のとき、

\[ \int_\Omega f \, dP = \int_\Omega f^+ \, dP - \int_\Omega f^- \, dP\]

両方が有限のとき $f$ を可積分（Integrable）と呼ぶ。確率変数 $X$ の期待値は $\mathbb{E}[X] = \int_\Omega X \, dP$ として定義され、リーマン積分の概念を大幅に拡張する。

積分の収束定理

ルベーグ積分の最大の利点は、極限操作と積分の交換を正当化する強力な定理群にある。

単調収束定理（Monotone Convergence Theorem, MCT）： $0 \leq f_n \nearrow f$（$P$-a.s.）ならば、

\[ \lim_{n \to \infty} \int_\Omega f_n \, dP = \int_\Omega f \, dP\]

Fatouの補題： 非負可測関数列 $\{f_n\}$ に対して、

\[ \int_\Omega \liminf_{n \to \infty} f_n \, dP \leq \liminf_{n \to \infty} \int_\Omega f_n \, dP\]

優収束定理（Dominated Convergence Theorem, DCT）： $f_n \to f$（$P$-a.s.）かつある可積分関数 $g \geq 0$ が存在して $|f_n| \leq g$（$P$-a.s.）ならば、$f$ は可積分であり

\[ \lim_{n \to \infty} \int_\Omega f_n \, dP = \int_\Omega f \, dP\]

優収束定理は確率論・統計学において最もよく使われる収束定理であり、大数の法則の証明や汎化誤差論における期待値の極限操作で基盤として機能する。

確率変数の独立性

事象 $A_1, \ldots, A_k \in \mathcal{F}$ が独立であるとは、任意の部分集合 $I \subseteq \{1, \ldots, k\}$ に対して

\[ P\!\left( \bigcap_{i \in I} A_i \right) = \prod_{i \in I} P(A_i)\]

が成立することをいう。確率変数 $X_1, \ldots, X_k$ が独立であるとは、それぞれが生成する $\sigma$-加法族 $\sigma(X_i) = \{ X_i^{-1}(B) : B \in \mathcal{B}(\mathbb{R}) \}$ が互いに独立であること、すなわち任意の $B_1, \ldots, B_k \in \mathcal{B}(\mathbb{R})$ に対して

\[ P(X_1 \in B_1, \ldots, X_k \in B_k) = \prod_{i=1}^k P(X_i \in B_i)\]

が成立することと等価である。

学習理論における「訓練データが i.i.d. に従う」という仮定は、 $\{(\boldsymbol{X}_i, Y_i)\}_{i=1}^n$ が互いに独立かつ同一の分布 $P$ に従う確率変数列であることを、この定義の意味で厳密に表す。独立性はHoeffdingの不等式・大数の法則・中心極限定理の前提条件でもある。

大数の法則と中心極限定理

確率変数列 $X_1, X_2, \ldots$ が i.i.d. で $\mathbb{E}[|X_1|] < \infty$ を満たすとき、 強大数の法則（Strong Law of Large Numbers, SLLN）が成立する：

\[ \frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P\text{-a.s.}} \mathbb{E}[X_1] \quad (n \to \infty)\]

これは経験リスク $R_n(f)$ の各点収束 $R_n(f) \to R(f)$ の根拠であり、 ERMの基礎となる。一方、仮説空間全体にわたる一様大数の法則

\[ \sup_{f \in \mathcal{H}} |R_n(f) - R(f)| \xrightarrow{P} 0\]

はVC次元やラデマッハ複雑度が有限であることを条件とし、 ERMの汎化性能を保証する本質的な結果である。

さらに $\mathbb{E}[X_1^2] < \infty$ のとき、中心極限定理 （Central Limit Theorem, CLT）が成立する：

\[ \frac{\sqrt{n}\left(\dfrac{1}{n}\sum_{i=1}^n X_i - \mathbb{E}[X_1]\right)}{\sqrt{\operatorname{Var}(X_1)}} \xrightarrow{d} \mathcal{N}(0, 1) \quad (n \to \infty)\]

ここで $\xrightarrow{d}$ は分布収束（Convergence in Distribution）を表す。 CLTは統計的検定・信頼区間構成の理論的根拠であり、漸近的な汎化誤差評価にも応用される。

確率収束の諸概念と関係

確率論では複数の収束概念が使い分けられる。それぞれの定義と包含関係を示す。

概収束（Almost Sure Convergence, a.s.）： $P\bigl(\{\omega : X_n(\omega) \to X(\omega)\}\bigr) = 1$
確率収束（Convergence in Probability）： $\forall \varepsilon > 0,\ P(|X_n - X| > \varepsilon) \to 0$
$L^p$ 収束（$p \geq 1$）： $\mathbb{E}[|X_n - X|^p] \to 0$
分布収束（Convergence in Distribution）： $F_{X_n}(x) \to F_X(x)$（$F_X$ の連続点すべてで）

各収束の間には次の包含関係が成立する：

\[ \text{概収束} \Rightarrow \text{確率収束} \Rightarrow \text{分布収束}, \qquad L^p \text{収束} \Rightarrow \text{確率収束}\]

逆方向は一般に成立しない。強大数の法則は概収束、CLTは分布収束の結果である。

条件付き期待値

確率空間 $(\Omega, \mathcal{F}, P)$ において、確率変数 $X \in L^1(\Omega, \mathcal{F}, P)$ と部分 $\sigma$-加法族 $\mathcal{G} \subseteq \mathcal{F}$ に対して、 条件付き期待値 $\mathbb{E}[X \mid \mathcal{G}]$ とは、 $\mathcal{G}$-可測な確率変数 $Z$ であって

\[ \forall G \in \mathcal{G},\quad \int_G Z \, dP = \int_G X \, dP\]

を満たすもの（$P$-a.s. 意味で一意）と定義される。これはRadon–Nikodym定理により存在が保証される。

$\mathcal{G} = \sigma(Y)$（確率変数 $Y$ が生成する $\sigma$-加法族）のとき $\mathbb{E}[X \mid \mathcal{G}] = \mathbb{E}[X \mid Y]$ と書く。学習理論における真の回帰関数 $f^*(\boldsymbol{x}) = \mathbb{E}[Y \mid \boldsymbol{X} = \boldsymbol{x}]$ はこの意味での条件付き期待値であり、二乗損失のもとでの最適予測を与える。

条件付き期待値の主要性質：

線形性： $\mathbb{E}[\alpha X + \beta Y \mid \mathcal{G}] = \alpha \mathbb{E}[X \mid \mathcal{G}] + \beta \mathbb{E}[Y \mid \mathcal{G}]$
全期待値の法則（Tower Property）： $\mathcal{H} \subseteq \mathcal{G}$ のとき $\mathbb{E}[\mathbb{E}[X \mid \mathcal{G}] \mid \mathcal{H}] = \mathbb{E}[X \mid \mathcal{H}]$
独立性： $X$ が $\mathcal{G}$ と独立なら $\mathbb{E}[X \mid \mathcal{G}] = \mathbb{E}[X]$
Jensen不等式： $\varphi$ が凸関数のとき $\varphi(\mathbb{E}[X \mid \mathcal{G}]) \leq \mathbb{E}[\varphi(X) \mid \mathcal{G}]$（$P$-a.s.）

測度論的確率と学習理論の接続

本節で導入した概念が統計的学習理論の各論点とどのように接続するかを整理する。

測度論的概念	学習理論における役割
確率空間 $(\Omega, \mathcal{F}, P)$	データ生成過程の厳密な定式化基盤
確率変数・可測関数	入出力対 $(\boldsymbol{X}, Y)$、損失 $L(f(\boldsymbol{X}), Y)$ の定式化
ルベーグ積分・期待値	真のリスク $R(f) = \mathbb{E}[L(f(\boldsymbol{X}), Y)]$ の定義
独立性（i.i.d.）	訓練データの仮定、集中不等式の前提
強大数の法則	経験リスクの各点収束 $R_n(f) \to R(f)$
劣$\sigma$-加法性（Union Bound）	有限仮説空間の一様汎化上界の導出
条件付き期待値	真の回帰関数 $f^*(\boldsymbol{x}) = \mathbb{E}[Y \mid \boldsymbol{X} = \boldsymbol{x}]$
収束概念（a.s.・確率・分布）	大数の法則・CLT・一様収束の峻別

まとめ

測度論的確率論は、統計的学習理論が依拠する数学的基盤を提供する。 $\sigma$-加法族による事象の厳密な定義、ルベーグ積分による期待値の一般的構成、独立性の代数的定式化、そして大数の法則・中心極限定理・収束定理は、経験リスク・汎化誤差・一様収束・バイアス・バリアンス分解を曖昧さなく扱うための不可欠な道具立てである。特にRadon–Nikodym定理は条件付き期待値の存在を保証し、 Kolmogorov拡張定理は無限次元の確率過程（逐次学習・オンライン学習）の定式化へとつながる。測度論的確率の理解は、学習理論の厳密な論証とその限界を正しく把握するための出発点となる。

Mathematics is the language with which God has written the universe.

推定（最尤・ベイズ）仮説検定と情報量基準凸最適化と双対性確率的勾配法正則化とスパース推定