経験リスク最小化と構造的リスク最小化

統計的学習理論における中心的概念として、経験リスク最小化（Empirical Risk Minimization, ERM）および構造的リスク最小化（Structural Risk Minimization, SRM）がある。これらはモデル学習において汎化誤差を制御するための理論的枠組みであり、 PAC（Probably Approximately Correct）学習理論の基礎をなす。

設定

入力空間 $\mathcal{X}$、出力空間 $\mathcal{Y}$、損失関数 $L: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_+$ を考える。未知の確率分布 $P(\boldsymbol{x}, y)$ に従う 独立同分布（i.i.d.） な標本

\[ \mathcal{D}_n = \{ (\boldsymbol{x}_i, y_i) \}_{i=1}^n\]

が与えられているとする。仮説空間 $\mathcal{H}$ は $\mathcal{X}$ から $\mathcal{Y}$ への写像の集合であり、各 $f \in \mathcal{H}$ が学習対象のモデルに対応する。

真のリスク（汎化誤差）

任意の仮説 $f \in \mathcal{H}$ に対して真のリスク（期待損失）は

\[ R(f) = \mathbb{E}_{(\boldsymbol{X}, Y) \sim P}\bigl[ L(f(\boldsymbol{X}), Y) \bigr]\]

で定義される。真のリスクは未知の分布 $P$ に依存するため直接最小化できない。学習の目標は $R(f)$ をできるだけ小さくする仮説 $f$ を、観測された標本 $\mathcal{D}_n$ のみを用いて求めることである。

経験リスク最小化（ERM）

経験リスク（標本平均損失）は次のように定義される：

\[ R_n(f) = \frac{1}{n} \sum_{i=1}^n L(f(\boldsymbol{x}_i), y_i)\]

大数の法則より、$n \to \infty$ のとき $R_n(f) \to R(f)$ が（各点で）成立する。経験リスク最小化とは、標本上の損失を最小化する仮説を選ぶ手法である：

\[ \hat{f}_{\text{ERM}} = \arg\min_{f \in \mathcal{H}} R_n(f)\]

ERMの理論的課題は以下の二点に整理される。

過学習（Overfitting）： 仮説空間 $\mathcal{H}$ の複雑度が高い場合、$\hat{f}_{\text{ERM}}$ は $\mathcal{D}_n$ に過適合し、真のリスク $R(\hat{f}_{\text{ERM}})$ が経験リスク $R_n(\hat{f}_{\text{ERM}})$ に比べて著しく大きくなる可能性がある。
一様収束の欠如： 有限標本では $\sup_{f \in \mathcal{H}} |R_n(f) - R(f)|$ を小さく抑えられない場合があり、経験リスクの最小化が真のリスクの最小化を保証しない。これはバイアス・バリアンスのトレードオフとも密接に関係する。

構造的リスク最小化（SRM）

SRM（Vapnik, 1995）は、仮説空間の複雑度をVC次元（Vapnik–Chervonenkis dimension）によって定量化し、汎化誤差の上界を直接制御する枠組みである。仮説空間 $\mathcal{H}$ を複雑度に応じた入れ子状の部分集合

\[ \mathcal{H}_1 \subset \mathcal{H}_2 \subset \cdots \subset \mathcal{H}_K \subset \mathcal{H}\]

に分割する（$K$ は考慮する複雑度の最大段階数）。各 $\mathcal{H}_k$ の VC次元を $h_k$ とし、$h_1 \leq h_2 \leq \cdots \leq h_K$ が成立するものとする。

SRMの原理は、経験リスクと複雑度ペナルティ項の和（構造的リスク）を、 $k$ と $f$ の両方にわたって同時に最小化することにある：

\[ \hat{f}_{\text{SRM}} = \arg\min_{\substack{k \in \{1,\dots,K\} \\ f \in \mathcal{H}_k}} \Bigl( R_n(f) + \Phi(h_k, n, \delta) \Bigr)\]

ここで $\Phi(h_k, n, \delta)$ はVC次元 $h_k$ と標本数 $n$、信頼パラメータ $\delta \in (0,1)$ に依存する汎化誤差上界（下節参照）であり、確率 $1-\delta$ 以上で真のリスクと経験リスクの乖離を抑制する。 $k$ が小さいほど $\Phi$ は小さいがバイアスが大きく、$k$ が大きいほど表現力は高いが $\Phi$ が増大する。SRMはこのトレードオフを理論的に解決する。

汎化誤差の上界（VC不等式）

$h_k \geq 1$ かつ $h_k \leq n$ を満たす VC次元 $h_k$ を持つ仮説空間 $\mathcal{H}_k$ に対して、$\mathcal{D}_n$ が i.i.d. で生成されるとき、確率 $1 - \delta$（$\delta \in (0,1)$）で次の不等式が任意の $f \in \mathcal{H}_k$ について成立する：

\[ R(f) \leq R_n(f) + \sqrt{\frac{h_k \left( \ln\dfrac{2n}{h_k} + 1 \right) + \ln\dfrac{4}{\delta}}{n}}\]

右辺第2項がペナルティ $\Phi(h_k, n, \delta)$ に相当し、SRMにおけるモデル選択基準として機能する。この上界は $h_k/n \to 0$ のとき $0$ に収束し、十分な標本があれば経験リスクへの収束が保証されることを示している。なお、係数や対数の底を定数倍まで緩めた形で

\[ \Phi(h_k, n, \delta) \approx C\sqrt{\frac{h_k \log(n/h_k) + \log(1/\delta)}{n}}\]

と表記されることも多い（$C$ は絶対定数）。この不等式はVC理論における一様大数の法則の帰結であり、 $\sup_{f \in \mathcal{H}_k} |R_n(f) - R(f)|$ の確率的上界を与える。

ERMとSRMの関係および正則化との対応

ERMは固定された仮説空間 $\mathcal{H}$ 内で経験リスクのみを最小化するが、 $\mathcal{H}$ の複雑度制御を行わないため汎化誤差の保証が得られない。
SRMは仮説空間の複雑度階層を陽に考慮し、経験リスクと複雑度ペナルティのバランスを同時に最適化することで、理論的な汎化誤差の保証を与える。
SRMは正則化（Regularization）と密接に対応する。たとえば Tikhonov正則化（リッジ回帰・重みの $\ell_2$ ノルムペナルティ）や Lasso（$\ell_1$ ノルムペナルティ）は、SRMにおけるペナルティ項の具体的実装とみなすことができる。
現代的な拡張として、VC次元に代わりラデマッハ複雑度（Rademacher complexity）を用いるより精密な汎化誤差上界が知られており、ニューラルネットワーク等の複雑なモデルクラスへの適用が研究されている。

まとめ

経験リスク最小化は標本に基づく損失最小化の直接手法であり、実装が簡潔である反面、仮説空間の複雑度制御がなければ過学習を招く。一方、構造的リスク最小化は VC次元による複雑度の定量化と入れ子状の仮説空間階層を活用し、汎化誤差を確率的上界として制御する理論的枠組みである。 SRMはPAC学習理論における一様収束と整合的であり、モデル選択・複雑度制御・正則化理論の基礎を提供する。ラデマッハ複雑度や情報理論的アプローチなどの現代的理論はSRMを出発点として発展しており、統計的学習理論全体の礎となっている。

Mathematics is the language with which God has written the universe.

汎化誤差と過学習測度論的確率の基礎推定（最尤・ベイズ）仮説検定と情報量基準凸最適化と双対性