深層展開

Def:Deep Unfolding

ある最適化問題\[x^\ast(y) = \arg\min_{x \in \mathbb{R}^n} F(x;y)\]を解く反復型アルゴリズム\[x^{(t+1)} = \mathcal{A}(x^{(t)}, y; \theta), \quad t=0,1,2,\dots\]が存在するとする.

深層展開とは, この反復アルゴリズム $\mathcal{A}$ を有限回 $T$ 回だけ適用して\[x^{(T)} = \mathcal{A}_T \circ \mathcal{A}_{T-1} \circ \dots \circ \mathcal{A}_1 (x^{(0)}, y; \Theta)\]により最終出力を得るとともに, 各反復ステップ $\mathcal{A}_t$ の内部パラメータ $\theta_t$ を固定値とせず, 学習可能パラメータ $\Theta = \{\theta_0, \dots, \theta_{T-1}\}$ として扱うものである.さらに, この最終出力に対して損失関数 $L(x^{(T)}, x)$ を定義し, データ $(x,y)$ に基づき\[\Theta^\ast = \arg\min_{\Theta} \ \mathbb{E}_{(x,y)} \bigl[ L(x^{(T)}_\Theta(y), x)\bigr]\]を満たすようにパラメータ $\Theta$ を学習する.

このように, 深層展開とは反復型アルゴリズムを有限層のニューラルネットワークとして展開し, 各層のパラメータをデータ駆動で最適化する手法である.

Mathematics is the language with which God has written the universe.





















自然対数の底 幾何分布の指数分布への収束 幾何分布 中心極限定理 二項係数 二項分布