Statistical learning
学習,観測データ空間を $\mathcal{X} \subseteq \mathbb{R}^d$, 未知の真の確率分布を $q(x)(x \in \mathcal{X})$ とし,パラメータ空間を $\mathcal{W} \subseteq \mathbb{R}^m$ として, パラメータ $w \in \mathcal{W}$ によって定まる確率密度関数[または確率質量関数]\[p(x \mid w)\]を用いるモデルにおいて,観測データ\[\mathcal{D} = \{ x_1, x_2, \ldots, x_n \} \subseteq \mathcal{X}^n\]に基づいてパラメータ $w$ を推定する操作\[L : \mathcal{X}^n \to \mathcal{W}, \quad \hat{w} = L(\mathcal{D})\]のことである.
学習とは,未知の真の分布 $q(x)$ に対して,観測されたデータ $\mathcal{D}$ を用いてパラメトリックモデル $p(x \mid w)$ のパラメータ $w$ を推定する統計的推論の過程である.観測データ空間 $\mathcal{X}$ は実際に観測可能なデータが取りうる値の集合であり,$d$ はその次元数を表す.例えば画像認識では画像のピクセル値,自然言語処理では単語の分散表現[ベクトル表現]などが該当する.
真の確率分布 $q(x)$ はデータを生成する未知の分布であり,実際には直接観測できない理論的な概念である.学習の究極の目的は,この真の分布にできるだけ近い分布をモデルから導くことである.一方でパラメトリックモデル $p(x \mid w)$ は,パラメータ $w$ によって特徴づけられる確率分布の族を表す.ガウス分布の場合は平均と分散がパラメータに相当し,ニューラルネットワークでは重みとバイアスがパラメータとなる.
学習関数 $L$ は,損失関数の設計,正則化手法,最適化アルゴリズムなどの複数要素を含み,観測データ $\mathcal{D} = \{ x_1, \ldots, x_n \}$ に基づいて\[\hat{w} = L(\mathcal{D})\]のようにパラメータを推定する.最尤推定では\[\hat{w} = \arg\max_{w} \prod_{i=1}^n p(x_i \mid w)\]として観測データの尤度を最大化するパラメータを求める.最小二乗法では\[\hat{w} = \arg\min_{w} \sum_{i=1}^n (y_i - f(x_i, w))^2\]のように予測誤差を最小化する.過学習防止のため,L1正則化やL2正則化をパラメータに課すことも重要である.
理想的には,推定されたパラメータ $\hat{w}$ によるモデル分布 $p(x \mid \hat{w})$ が真の分布 $q(x)$ に近似することを目指す.この近さは統計学的には,一致性[サンプル数 $n \to \infty$ で推定値が真値に収束],不偏性[推定量の期待値が真値と等しい],効率性[分散が最小]などの観点で評価される.
実践においては,データ品質[ノイズ,欠損値,外れ値の処理],適切なモデル選択[パラメータ空間 $\mathcal{W}$ の設計],計算効率[大規模データに対応したアルゴリズム],そして汎化性能[未知データに対する予測精度]を総合的に考慮する必要がある.
この定義は統計的学習理論の基盤となり,教師あり学習,教師なし学習,強化学習など機械学習の多様な手法の統一的理論枠組みを提供する.深層学習から古典的統計手法まで,現代機械学習全般に適用される重要な概念である.
特に渡辺澄夫の代数幾何学的学習理論は,この古典的学習定義に対して革新的な理論的拡張をもたらしている.従来の統計的学習理論は真の分布 $q(x)$ がモデル族 $p(x \mid w)$ に含まれる[実現可能性, realizability]や,正則性条件[フィッシャー情報行列の正則性など]を前提に漸近理論を展開してきた.しかし,現代の機械学習では特にニューラルネットワークなど複雑モデルにおいてこれらの条件は必ずしも満たされず,特異[非正則]モデルが多い.
渡辺理論の核心は,学習の汎化誤差を代数幾何学の不変量である実ログ標準閾値[real log canonical threshold] $\lambda$ を用いて\[\text{汎化誤差} = \frac{\lambda}{n} \log n + o\left(\frac{\log n}{n}\right)\]と特徴付ける点にある.ここで $n$ はデータ数,$\lambda$ は真の分布と学習モデルの特異点構造に依存する幾何学的不変量である.従来のAICやBICが $\frac{d}{2n}$($d$ はパラメータ数)という単純な項で汎化誤差を評価するのに対し,渡辺理論は特異統計モデルに対してより精密な評価を可能とする.
この枠組みでは,学習関数 $L$ によって得られる推定パラメータ $\hat{w}$ の性能を,ベイズ推論の事前分布 $\phi(w)$ のもとでの事後分布を用いて評価する.真の分布と学習モデルの関係性はカルバック・ライブラー発散\[K(w) = \int q(x) \log \frac{q(x)}{p(x|w)} dx\]によって定量化され,$K(w) = 0$ となるパラメータ集合[真の分布を含む]周辺の特異点構造が学習性能を決定的に支配することが明らかになった.
従来の正則性を仮定した学習理論ではパラメータ数に比例した汎化誤差評価しか得られなかったが,渡辺理論により,ニューラルネットワーク,混合ガウスモデル,隠れマルコフモデルなどの特異統計モデルでは,実際のパラメータ数よりも小さい有効次元 $2\lambda$ によって汎化性能が決定されることが理論的に示された.これにより,過剰パラメータ化されたニューラルネットワークが高い汎化性能を示す現象に数学的根拠を与えている.
さらに渡辺理論は,WAIC[Widely Applicable Information Criterion]やWBIC[Widely Applicable Bayesian Information Criterion]など新しい情報量基準を導入し,特異モデルにおけるモデル選択の理論的根拠を提供している.これらは学習関数 $L$ の設計において,特異性を考慮したより適切なモデル選択を可能にする実用的指標として機能する.
Mathematics is the language with which God has written the universe.