経験リスク最小化と構造的リスク最小化

統計的学習理論における中心的概念として、経験リスク最小化(Empirical Risk Minimization, ERM)および構造的リスク最小化(Structural Risk Minimization, SRM)がある。これらはモデル学習において汎化誤差を制御するための理論的枠組みであり、 PAC(Probably Approximately Correct)学習理論の基礎をなす。

設定

入力空間 $\mathcal{X}$、出力空間 $\mathcal{Y}$、損失関数 $L: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_+$ を考える。 未知の確率分布 $P(\boldsymbol{x}, y)$ に従う 独立同分布(i.i.d.) な標本

\[ \mathcal{D}_n = \{ (\boldsymbol{x}_i, y_i) \}_{i=1}^n\]

が与えられているとする。仮説空間 $\mathcal{H}$ は $\mathcal{X}$ から $\mathcal{Y}$ への写像の集合であり、各 $f \in \mathcal{H}$ が学習対象のモデルに対応する。

真のリスク(汎化誤差)

任意の仮説 $f \in \mathcal{H}$ に対して真のリスク(期待損失)は

\[ R(f) = \mathbb{E}_{(\boldsymbol{X}, Y) \sim P}\bigl[ L(f(\boldsymbol{X}), Y) \bigr]\]

で定義される。真のリスクは未知の分布 $P$ に依存するため直接最小化できない。 学習の目標は $R(f)$ をできるだけ小さくする仮説 $f$ を、観測された標本 $\mathcal{D}_n$ のみを用いて求めることである。

経験リスク最小化(ERM)

経験リスク(標本平均損失)は次のように定義される:

\[ R_n(f) = \frac{1}{n} \sum_{i=1}^n L(f(\boldsymbol{x}_i), y_i)\]

大数の法則より、$n \to \infty$ のとき $R_n(f) \to R(f)$ が(各点で)成立する。 経験リスク最小化とは、標本上の損失を最小化する仮説を選ぶ手法である:

\[ \hat{f}_{\text{ERM}} = \arg\min_{f \in \mathcal{H}} R_n(f)\]

ERMの理論的課題は以下の二点に整理される。

構造的リスク最小化(SRM)

SRM(Vapnik, 1995)は、仮説空間の複雑度をVC次元(Vapnik–Chervonenkis dimension) によって定量化し、汎化誤差の上界を直接制御する枠組みである。 仮説空間 $\mathcal{H}$ を複雑度に応じた入れ子状の部分集合

\[ \mathcal{H}_1 \subset \mathcal{H}_2 \subset \cdots \subset \mathcal{H}_K \subset \mathcal{H}\]

に分割する($K$ は考慮する複雑度の最大段階数)。各 $\mathcal{H}_k$ の VC次元を $h_k$ とし、$h_1 \leq h_2 \leq \cdots \leq h_K$ が成立するものとする。

SRMの原理は、経験リスクと複雑度ペナルティ項の和(構造的リスク)を、 $k$ と $f$ の両方にわたって同時に最小化することにある:

\[ \hat{f}_{\text{SRM}} = \arg\min_{\substack{k \in \{1,\dots,K\} \\ f \in \mathcal{H}_k}} \Bigl( R_n(f) + \Phi(h_k, n, \delta) \Bigr)\]

ここで $\Phi(h_k, n, \delta)$ はVC次元 $h_k$ と標本数 $n$、信頼パラメータ $\delta \in (0,1)$ に依存する汎化誤差上界(下節参照)であり、 確率 $1-\delta$ 以上で真のリスクと経験リスクの乖離を抑制する。 $k$ が小さいほど $\Phi$ は小さいがバイアスが大きく、$k$ が大きいほど 表現力は高いが $\Phi$ が増大する。SRMはこのトレードオフを理論的に解決する。

汎化誤差の上界(VC不等式)

$h_k \geq 1$ かつ $h_k \leq n$ を満たす VC次元 $h_k$ を持つ仮説空間 $\mathcal{H}_k$ に対して、$\mathcal{D}_n$ が i.i.d. で生成されるとき、 確率 $1 - \delta$($\delta \in (0,1)$)で次の不等式が任意の $f \in \mathcal{H}_k$ について成立する:

\[ R(f) \leq R_n(f) + \sqrt{\frac{h_k \left( \ln\dfrac{2n}{h_k} + 1 \right) + \ln\dfrac{4}{\delta}}{n}}\]

右辺第2項がペナルティ $\Phi(h_k, n, \delta)$ に相当し、SRMにおける モデル選択基準として機能する。この上界は $h_k/n \to 0$ のとき $0$ に収束し、 十分な標本があれば経験リスクへの収束が保証されることを示している。 なお、係数や対数の底を定数倍まで緩めた形で

\[ \Phi(h_k, n, \delta) \approx C\sqrt{\frac{h_k \log(n/h_k) + \log(1/\delta)}{n}}\]

と表記されることも多い($C$ は絶対定数)。 この不等式はVC理論における一様大数の法則の帰結であり、 $\sup_{f \in \mathcal{H}_k} |R_n(f) - R(f)|$ の確率的上界を与える。

ERMとSRMの関係および正則化との対応

まとめ

経験リスク最小化は標本に基づく損失最小化の直接手法であり、実装が簡潔である反面、 仮説空間の複雑度制御がなければ過学習を招く。一方、構造的リスク最小化は VC次元による複雑度の定量化と入れ子状の仮説空間階層を活用し、 汎化誤差を確率的上界として制御する理論的枠組みである。 SRMはPAC学習理論における一様収束と整合的であり、 モデル選択・複雑度制御・正則化理論の基礎を提供する。 ラデマッハ複雑度や情報理論的アプローチなどの現代的理論はSRMを出発点として発展しており、 統計的学習理論全体の礎となっている。

Mathematics is the language with which God has written the universe.





















汎化誤差と過学習 測度論的確率の基礎 推定(最尤・ベイズ) 仮説検定と情報量基準 凸最適化と双対性