判別分析(Discriminant Analysis)は観測ベクトル $\boldsymbol{x}$ をあらかじめ定められたクラスのいずれかに分類するための統計的手法である。線形判別分析(Linear Discriminant Analysis, LDA)はクラス間で共分散行列が等しいという仮定のもとで線形決定境界を構成し、二次判別分析(Quadratic Discriminant Analysis, QDA)はクラスごとに異なる共分散行列を推定することで二次決定境界を与える。両者は生成モデル(正規分布を仮定した同時分布)として定式化され、ベイズの定理を通じて事後確率を計算する。
$K$ クラス分類問題を考える。クラスラベル $y \in \{1, \ldots, K\}$、観測ベクトル $\boldsymbol{x} \in \mathbb{R}^p$、事前確率 $\pi_k = P(Y = k)$($\sum_k \pi_k = 1$)、クラス条件付き密度 $p(\boldsymbol{x} \mid Y = k)$ を考える。i.i.d. 標本 $\mathcal{D}_n = \{(\boldsymbol{x}_i, y_i)\}_{i=1}^n$、クラス $k$ の標本数を $n_k$($\sum_k n_k = n$)、クラス $k$ の標本集合を $\mathcal{C}_k = \{i : y_i = k\}$ とする。
ベイズの定理により、クラス $k$ の事後確率は
\[P(Y = k \mid \boldsymbol{x})= \frac{p(\boldsymbol{x} \mid Y = k)\,\pi_k}{\sum_{j=1}^K p(\boldsymbol{x} \mid Y = j)\,\pi_j}\]と表される。ベイズ最適分類器(Bayes Optimal Classifier)は事後確率を最大化するクラスに分類する:
\[\hat{y}(\boldsymbol{x})= \arg\max_{k \in \{1,\ldots,K\}}P(Y = k \mid \boldsymbol{x})= \arg\max_{k}\bigl[p(\boldsymbol{x} \mid Y = k)\,\pi_k\bigr]\](分母は $k$ に依存しないので省略できる)。このベイズ最適分類器は $0$-$1$ 損失のもとで誤分類確率(ベイズリスク)を最小化する。LDA・QDA はクラス条件付き密度に正規分布を仮定したベイズ最適分類器の推定量として導かれる。
LDA はクラス条件付き密度がクラス間で等しい共分散行列 $\Sigma$ を持つ正規分布であることを仮定する:
\[\boldsymbol{x} \mid Y = k\sim \mathcal{N}(\boldsymbol{\mu}_k, \Sigma),\quad k = 1, \ldots, K\]パラメータは $\{\boldsymbol{\mu}_k\}_{k=1}^K$(クラス平均)・$\Sigma$(共通共分散行列)・$\{\pi_k\}_{k=1}^K$(事前確率)である。
クラス $k$ の対数事後確率(分母を無視)は
\[\log P(Y = k \mid \boldsymbol{x})\propto \log p(\boldsymbol{x} \mid Y = k) + \log\pi_k= -\frac{1}{2}(\boldsymbol{x} - \boldsymbol{\mu}_k)^\top \Sigma^{-1} (\boldsymbol{x} - \boldsymbol{\mu}_k)+ \log\pi_k + \text{const.}\]これを展開すると
\[= -\frac{1}{2}\boldsymbol{x}^\top\Sigma^{-1}\boldsymbol{x}+ \boldsymbol{x}^\top\Sigma^{-1}\boldsymbol{\mu}_k- \frac{1}{2}\boldsymbol{\mu}_k^\top\Sigma^{-1}\boldsymbol{\mu}_k+ \log\pi_k + \text{const.}\]$-\frac{1}{2}\boldsymbol{x}^\top\Sigma^{-1}\boldsymbol{x}$(二次項)は$k$ に依存しないため消去でき、クラス $k$ の線形判別関数(Linear Discriminant Function)が得られる:
\[\delta_k(\boldsymbol{x})= \boldsymbol{x}^\top\Sigma^{-1}\boldsymbol{\mu}_k- \frac{1}{2}\boldsymbol{\mu}_k^\top\Sigma^{-1}\boldsymbol{\mu}_k+ \log\pi_k\]分類規則は $\hat{y}(\boldsymbol{x}) = \arg\max_k \delta_k(\boldsymbol{x})$。$\delta_k(\boldsymbol{x})$ は $\boldsymbol{x}$ の線形関数であり、クラス $k$ と $\ell$ の決定境界は
\[\delta_k(\boldsymbol{x}) = \delta_\ell(\boldsymbol{x})\iff\boldsymbol{x}^\top\Sigma^{-1}(\boldsymbol{\mu}_k - \boldsymbol{\mu}_\ell)= \frac{1}{2}(\boldsymbol{\mu}_k + \boldsymbol{\mu}_\ell)^\top\Sigma^{-1}(\boldsymbol{\mu}_k - \boldsymbol{\mu}_\ell)- \log\frac{\pi_k}{\pi_\ell}\]という超平面(線形決定境界)をなす。共通の二次項が消去されたことが「線形」判別の数学的根拠である。
同時対数尤度$\ell = \sum_i \log p(\boldsymbol{x}_i \mid y_i) + \sum_i \log\pi_{y_i}$を最大化する MLE は閉形式で得られる:
\[\hat{\pi}_k = \frac{n_k}{n},\qquad\hat{\boldsymbol{\mu}}_k = \frac{1}{n_k}\sum_{i \in \mathcal{C}_k} \boldsymbol{x}_i,\qquad\hat{\Sigma} = \frac{1}{n}\sum_{k=1}^K \sum_{i \in \mathcal{C}_k}(\boldsymbol{x}_i - \hat{\boldsymbol{\mu}}_k)(\boldsymbol{x}_i - \hat{\boldsymbol{\mu}}_k)^\top\]$\hat{\Sigma}$ はプールド共分散行列(Pooled Within-Class Covariance Matrix)であり、各クラス内の偏差の外積をすべてのクラスにわたって平均したものである。不偏推定量は分母を $n - K$ とした$\hat{\Sigma}_u = \frac{n}{n-K}\hat{\Sigma}$であるが、判別関数の形状(固有ベクトル)は変わらない。
Fisher(1936)による別定式化として、クラス間分散とクラス内分散の比を最大化する射影方向を求める問題がある。クラス間散布行列(Between-Class Scatter Matrix)とクラス内散布行列(Within-Class Scatter Matrix)を
\[S_B= \sum_{k=1}^K n_k (\hat{\boldsymbol{\mu}}_k - \bar{\boldsymbol{x}})(\hat{\boldsymbol{\mu}}_k - \bar{\boldsymbol{x}})^\top,\qquadS_W= \sum_{k=1}^K \sum_{i \in \mathcal{C}_k}(\boldsymbol{x}_i - \hat{\boldsymbol{\mu}}_k)(\boldsymbol{x}_i - \hat{\boldsymbol{\mu}}_k)^\top\]と定義する($\bar{\boldsymbol{x}} = \frac{1}{n}\sum_i \boldsymbol{x}_i$)。投影方向 $\boldsymbol{w} \in \mathbb{R}^p$ に対してRayleigh 商
\[J(\boldsymbol{w})= \frac{\boldsymbol{w}^\top S_B \boldsymbol{w}}{\boldsymbol{w}^\top S_W \boldsymbol{w}}\]を最大化する $\boldsymbol{w}$ は一般固有値問題
\[S_B \boldsymbol{w} = \lambda S_W \boldsymbol{w}\iff S_W^{-1} S_B \boldsymbol{w} = \lambda \boldsymbol{w}\]の固有ベクトルとして得られる。$\mathrm{rank}(S_B) \leq K - 1$ であるから、有意な固有ベクトルは高々 $K - 1$ 個存在し、これらが線形判別方向(Linear Discriminant Directions)を与える。二クラス($K=2$)のとき判別方向は一意であり、
\[\boldsymbol{w} \propto S_W^{-1}(\hat{\boldsymbol{\mu}}_1 - \hat{\boldsymbol{\mu}}_2)\]と閉形式で得られる(Fisher の線形判別)。Gaussian 仮定のもとではこの Fisher 判別方向がベイズ最適判別関数 $\delta_k(\boldsymbol{x})$ の係数方向と一致する。
$K - 1$ 個の判別方向が張る部分空間への射影は次元削減の手段としても有効であり、$K - 1 \ll p$ のとき大幅な次元圧縮が得られる。PCA との違いは LDA が教師あり(クラスラベルを利用)である点にあり、クラス分離に有効な方向を選ぶ点でより分類目的に適合する。
$\hat{\Sigma}^{-1}$ の直接計算は $O(p^3)$ を要し、$p$ が大きい場合に問題となる。SVD を用いた効率的な実装は以下の手順で行われる。
この手順により $\hat{\Sigma}^{-1}$ の陽な計算を回避でき、数値的安定性が向上する。特に $p \gg K$ のとき、$K-1$ 次元の判別空間への射影の計算量は $O(np(K-1))$ に削減される。
QDA はクラスごとに異なる共分散行列 $\Sigma_k$ を仮定する:
\[\boldsymbol{x} \mid Y = k\sim \mathcal{N}(\boldsymbol{\mu}_k, \Sigma_k),\quad k = 1, \ldots, K\]クラス $k$ の対数事後確率は
\[\delta_k(\boldsymbol{x})= -\frac{1}{2}\log|\Sigma_k|- \frac{1}{2}(\boldsymbol{x} - \boldsymbol{\mu}_k)^\top \Sigma_k^{-1} (\boldsymbol{x} - \boldsymbol{\mu}_k)+ \log\pi_k\]と書かれる(二次判別関数、Quadratic Discriminant Function)。今度は二次項 $-\frac{1}{2}\boldsymbol{x}^\top\Sigma_k^{-1}\boldsymbol{x}$ が$k$ によって異なるため消去できず、$\boldsymbol{x}$ の二次関数として残る。クラス $k$ と $\ell$ の決定境界は$\delta_k(\boldsymbol{x}) = \delta_\ell(\boldsymbol{x})$ の解であり、一般に二次曲面(楕円・放物面・双曲面等)をなす。
QDA の MLE は閉形式で得られる:
\[\hat{\pi}_k = \frac{n_k}{n},\qquad\hat{\boldsymbol{\mu}}_k = \frac{1}{n_k}\sum_{i \in \mathcal{C}_k} \boldsymbol{x}_i,\qquad\hat{\Sigma}_k = \frac{1}{n_k}\sum_{i \in \mathcal{C}_k}(\boldsymbol{x}_i - \hat{\boldsymbol{\mu}}_k)(\boldsymbol{x}_i - \hat{\boldsymbol{\mu}}_k)^\top\]各クラスの共分散行列 $\hat{\Sigma}_k$ を独立に推定するため、QDA の推定パラメータ数は$K[p + p(p+1)/2] + (K-1)$(平均 $Kp$ 個・共分散 $Kp(p+1)/2$ 個・事前確率 $K-1$ 個)となり、LDA の $Kp + p(p+1)/2 + (K-1)$ より著しく多い。各クラスの標本数が少ない($n_k \leq p$)場合、$\hat{\Sigma}_k$ は正則にならず QDA は適用不可能となる。
| 観点 | LDA | QDA |
|---|---|---|
| 共分散行列の仮定 | 全クラス共通 $\Sigma$ | クラスごとに異なる $\Sigma_k$ |
| 決定境界 | 線形(超平面) | 二次曲面 |
| パラメータ数 | $Kp + p(p+1)/2 + K - 1$ | $K[p + p(p+1)/2] + K - 1$ |
| バイアス | 高(等共分散仮定が違反のとき) | 低(仮定が正しければ) |
| バリアンス | 低(推定パラメータ少) | 高(推定パラメータ多) |
| 小標本での安定性 | 高い($n_k > p$ 不要) | 低い(各クラスで $n_k > p$ 必要) |
| 適する場面 | 共分散が近似的に等しい・小標本 | 共分散が大きく異なる・大標本 |
$p$ が大きい場合や小標本では $\hat{\Sigma}$・$\hat{\Sigma}_k$ が特異または不安定になるため、正則化が必要となる。
Friedman(1989)は LDA と QDA を連続的に補間する正則化判別分析(Regularized Discriminant Analysis, RDA)を提案した。クラス共分散行列の正則化推定量として
\[\hat{\Sigma}_k(\alpha, \gamma)= \frac{(1-\gamma)[\alpha\hat{\Sigma}_k + (1-\alpha)\hat{\Sigma}]}{(1-\gamma) + \gamma/p \cdot \mathrm{tr}((1-\gamma)[\cdots])}\]を用いるが、より実用的な形として
\[\hat{\Sigma}_k(\alpha)= \alpha\hat{\Sigma}_k + (1-\alpha)\hat{\Sigma},\quad \alpha \in [0, 1]\]\[\hat{\Sigma}(\gamma)= (1-\gamma)\hat{\Sigma} + \gamma \frac{\mathrm{tr}(\hat{\Sigma})}{p} I_p,\quad \gamma \in [0, 1]\]の二段階の正則化がしばしば用いられる。$\alpha = 0$ が LDA、$\alpha = 1$ が QDA に対応し、$\gamma > 0$ は共分散行列に等方ノイズを加えて正則化する(Ledoit–Wolf 縮小と本質的に同じ構造)。$\alpha$ と $\gamma$ は交差検証により選択する。
共分散行列の対角成分のみを推定する対角 LDA(Diagonal LDA)は
\[\hat{\Sigma}^{\mathrm{diag}}= \mathrm{diag}(\hat{\sigma}_1^2, \ldots, \hat{\sigma}_p^2)\]とすることで得られ、パラメータ数が $O(p)$ に削減される。さらにクラスごとに異なる対角共分散を推定するとガウスカーネルを持つナイーブベイズ分類器(Gaussian Naive Bayes)に一致する:
\[P(Y = k \mid \boldsymbol{x})\propto \pi_k \prod_{j=1}^p \mathcal{N}(x_j; \mu_{kj}, \sigma_{kj}^2)\]これは各変数が条件付き独立であるという強い仮定に対応する。$p \gg n$ の高次元設定では対角 LDA・ナイーブベイズが正則 LDA・QDA より安定して高い分類精度を示す場合があり、Bickel–Levina(2004)による理論的な正当化が知られている。
LDA と QDA(ロジスティック回帰との比較含む)の漸近的な統計的性質を整理する。
正規性・等共分散仮定が成立するとき、LDA は条件付き尤度(ロジスティック回帰)と同時尤度の両方の情報を利用するため、ロジスティック回帰より漸近的に有効である。Efron(1975)は二クラス・正規・等共分散の設定でLDA とロジスティック回帰の漸近相対効率(ARE)を導出した:
\[\mathrm{ARE}(\mathrm{Logistic},\, \mathrm{LDA})= \frac{2}{2 + \Delta^2/2}\leq 1\]ここで $\Delta^2 = (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)^\top \Sigma^{-1} (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)$はマハラノビス距離の二乗(二クラス間)である。ARE は $[2/3, 1]$ の範囲にあり、クラス間分離が大きいほど ARE が小さくLDA の優位性が増す。逆に仮定(正規性・等共分散)が違反されるとロジスティック回帰がよりロバストである。
高次元漸近論($p, n \to \infty$、$p/n \to \gamma \in (0,\infty)$)では古典的 LDA の誤分類率が最悪の場合にランダム分類と同等に劣化することが知られており、正則化(RDA・対角 LDA)が本質的に必要となる(Bickel–Levina, 2004)。
LDA の判別関数 $\delta_k(\boldsymbol{x})$ はマハラノビス距離の二乗
\[d_M^2(\boldsymbol{x}, \boldsymbol{\mu}_k; \Sigma)= (\boldsymbol{x} - \boldsymbol{\mu}_k)^\top \Sigma^{-1} (\boldsymbol{x} - \boldsymbol{\mu}_k)\]を用いて
\[\delta_k(\boldsymbol{x})= -\frac{1}{2}d_M^2(\boldsymbol{x}, \boldsymbol{\mu}_k; \Sigma) + \log\pi_k + \text{const.}\]と書けるから、LDA は事前確率で補正したマハラノビス距離の近傍分類器として解釈できる。事前確率が等しい場合($\pi_k = 1/K$)、LDA は共分散行列 $\Sigma$ によって計量された距離で最近傍クラス平均に割り当てる分類器(最近傍重心分類器)に一致する。
QDA では各クラスが異なる $\Sigma_k$ を持つため、QDA の判別関数はマハラノビス距離 $d_M^2(\boldsymbol{x}, \boldsymbol{\mu}_k; \Sigma_k)$ と$\log|\Sigma_k|$(体積補正項)の組み合わせとなる。体積補正項 $-\frac{1}{2}\log|\Sigma_k|$ は分散の大きいクラスへの偏りを抑制する役割を持つ。
Fisher の線形判別方向($S_W^{-1}S_B$ の固有ベクトル)を用いた次元削減は、分類精度を保ちながら $p$ 次元から $K-1$ 次元への射影を与える。具体的な手順は以下の通りである。
この射影は PCA と異なり、クラスラベルを用いた教師あり次元削減であり、クラス分離に最も寄与する方向を選ぶ。射影後の $K-1$ 次元空間でユークリッド距離による最近傍分類を行うとLDA 分類と等価になる($\hat{\Sigma}$ に基づく場合)。
LDA とロジスティック回帰はどちらも線形決定境界を生成するが、推定の方針が根本的に異なる。LDA が同時分布 $P(\boldsymbol{x}, y)$ の最大化に基づく生成モデルであるのに対し、ロジスティック回帰は条件付き分布 $P(y \mid \boldsymbol{x})$ の最大化に基づく判別モデル(識別モデル)である。
両者の関係を明確にするため、LDA の仮定($\boldsymbol{x} \mid y = k \sim \mathcal{N}(\boldsymbol{\mu}_k, \Sigma)$)のもとで事後確率を計算すると、二クラス($K=2$)の場合
\[P(Y=1\mid\boldsymbol{x})= \sigma\!\left(\boldsymbol{x}^\top\Sigma^{-1}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)- \frac{1}{2}(\boldsymbol{\mu}_1 + \boldsymbol{\mu}_2)^\top\Sigma^{-1}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)+ \log\frac{\pi_1}{\pi_2}\right)\]というロジスティック形式に帰着する。したがって LDA の仮定が成立するとき、事後確率はロジスティック回帰モデルの特殊ケースとして表現できる。違いは係数の推定法にあり、LDA は同時尤度を通じて推定する(より多くの情報を利用)のに対し、ロジスティック回帰は条件付き尤度のみを最大化する。
$K$ クラス LDA の性能評価として混同行列(Confusion Matrix)が標準的に用いられる。混同行列の $(k, \ell)$ 成分は真のクラスが $k$ であった観測のうちクラス $\ell$ と予測された数を表す。対角成分が正解数、非対角成分が誤分類数に対応する。
全体の誤分類率(Test Error)は
\[\mathrm{Err}= \frac{1}{n_{\mathrm{test}}}\sum_{i} \mathbf{1}[\hat{y}(\boldsymbol{x}_i) \neq y_i]\]と定義される。Leave-One-Out 交差検証(LOOCV)による誤分類率の推定は、LDA では閉形式で計算できる(一観測を除いたときのパラメータ変化がランク 1 更新として表現できるため)。具体的には
\[\hat{y}^{(-i)}(\boldsymbol{x}_i)= \arg\max_k \delta_k^{(-i)}(\boldsymbol{x}_i)\]を全 $i$ について効率的に計算でき、計算量は $O(nKp)$ となる。
LDA はクラス条件付き正規分布と共通共分散行列の仮定のもとでベイズの定理を適用することにより線形判別関数を導出し、MLE によるパラメータ推定は閉形式で得られる。Fisher の判別分析との等価性は $S_W^{-1}S_B$ の固有値問題として表現され、高々 $K-1$ 次元の判別空間による教師あり次元削減を与える。QDA は各クラスで独立な共分散行列を推定することで二次決定境界を生成するが、パラメータ数の増加に伴うバイアス・バリアンストレードオフを持つ。正則化 LDA(RDA)は $\alpha \in [0,1]$ の補間によりLDA と QDA を連続的に接続し、対角 LDA はナイーブベイズ分類器との接続を与える。Efron の漸近相対効率の分析はロジスティック回帰との比較においてLDA の優位性が正規性・等共分散仮定の成立度に依存することを定量化し、高次元漸近論は正則化の本質的必要性を理論的に裏付ける。LDA は生成モデルとして同時分布を推定する点で判別モデルであるロジスティック回帰と対比され、仮定の成立する小標本設定では漸近的に優れた推定効率を示す。
Mathematics is the language with which God has written the universe.