LASSO

Def:Least Absolute Shrinkage and Selection Operator

LASSO正則化付き回帰であり,スパース性を活用して不要な説明変数をゼロにしつつ予測性能を高める方法である.

線形回帰モデルを考える.\[y = X \beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I),\]ここで $y \in \mathbb{R}^n$ は被説明変数ベクトル,$X \in \mathbb{R}^{n \times p}$ は説明変数行列、$\beta \in \mathbb{R}^p$ は回帰係数である.

通常の最小二乗推定量[OLS]は,\[\hat{\beta}^{OLS} = \arg \min_{\beta} \; \| y - X\beta \|_2^2\]で与えられる.

これに対して,LASSO推定量は次の最適化問題の解として定義される.\[\hat{\beta}^{LASSO} = \arg \min_{\beta} \left\{ \| y - X\beta \|_2^2 + \lambda \|\beta\|_1 \right\},\]但し,\[\|\beta\|_1 = \sum_{j=1}^p |\beta_j|, \quad \lambda \geq 0\]である.ここでの $L^1$ ノルム罰則項 $\lambda \|\beta\|_1$ により,係数ベクトル $\beta$ の一部はちょうど $0$ となる.

LASSO[Least Absolute Shrinkage and Selection Operator]は, 線形回帰モデルにおける正則化手法の一種である.Robert Tibshirani が 1996 年に Journal of the Royal Statistical Society: Series B [Methodological] に発表した論文「Regression Shrinkage and Selection via the Lasso」によって提案された統計的手法である.

LASSOは残差平方和を最小化する際に, 回帰係数の絶対値の和が一定値以下という 制約形式, または同値な ペナルティ付き最適化形式 で表現される.この制約の効果により, 通常の最小二乗法とは異なり, 一部の回帰係数を正確に 0 にする特性を持つ.これは L1 正則化 と呼ばれ, 損失関数に回帰係数の絶対値の和にペナルティパラメータ $\lambda$ を掛けた項を加える形で定式化される.

LASSOの最も重要な特徴は, 自動的に変数選択を行う点にある.$L^1$ 制約により, 一部の係数が正確に 0 となり, 解釈しやすいスパースなモデルが生成される.従来の統計学では段階的変数選択法などにより手作業で行っていた変数選択を, 最適化過程の中で自動的に実現する画期的な手法であった.

LASSOは次のように定式化される.\[\hat{\beta}^{LASSO} = \arg\min_{\beta} \left\{ \| y - X\beta \|_2^2 + \lambda \|\beta\|_1 \right\}, \]

但し, $|\beta|1 = \sum{j=1}^p |\beta_j|$ である.ペナルティパラメータ $\lambda$ の値を大きくすると, より多くの係数が 0 に収束し, より疎なモデルが得られる.この $\lambda$ は通常, 交差検証などの方法によって調整される.

現代の機械学習分野において, LASSOは高次元データにおける特徴選択の標準的手法として広く利用されている.過剰適合を防ぎ, 統計モデルの汎化性能を高める正則化技法として, 遺伝子発現解析, 画像認識, 自然言語処理, 経済学, マーケティング分析など, 多岐にわたる分野で応用されている.特に説明変数の数がサンプル数を上回る高次元データや, 多重共線性の問題を抱える場合に大きな効果を発揮する.

さらに, LASSOはその後の多くの正則化手法の基盤となった.Elastic Net[$L^1$ と $L^2$ 正則化の組み合わせ], Group LASSO, Fused LASSO など, 数多くの拡張手法が開発され, 現在も活発な研究が続いている.機械学習ライブラリにおいても, scikit-learn の Lasso クラスをはじめとして標準的に実装されており, 実務でも広く利用可能な手法として定着している.

参考文献

Mathematics is the language with which God has written the universe.





















LASSO ピアソンの積率相関係数 リンター 後者関数 スコラーの定理 確率積分変換定理