因子分析(Factor Analysis, FA)は観測変数の共分散構造を少数の潜在変数(共通因子)と観測変数固有の誤差(独自因子)に分解する統計的潜在変数モデルである。主成分分析(PCA)と目的・モデル構造を共有しながらも、確率モデルとして明示的に定式化される点で根本的に異なる。心理測定・教育測定・経済学・生物情報学における潜在構造の推定と解釈に広く用いられる。
$p$ 次元観測ベクトル $\boldsymbol{x} \in \mathbb{R}^p$、$q$ 次元共通因子ベクトル $\boldsymbol{f} \in \mathbb{R}^q$($q \ll p$)、i.i.d. 標本 $\{\boldsymbol{x}_i\}_{i=1}^n$ を考える。標本平均を $\bar{\boldsymbol{x}}$、標本共分散行列を$S = \frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i - \bar{\boldsymbol{x}})(\boldsymbol{x}_i - \bar{\boldsymbol{x}})^\top \in \mathbb{S}^p_+$とする。以降では中心化済み($\mathbb{E}[\boldsymbol{x}] = \boldsymbol{0}$)を仮定する(一般には $\boldsymbol{\mu} = \mathbb{E}[\boldsymbol{x}]$ を推定して差し引く)。
因子分析モデルは
\[\boldsymbol{x} = \Lambda \boldsymbol{f} + \boldsymbol{\varepsilon}\]と定義される。各要素の定義と仮定を以下に示す。
これらの仮定のもとで共分散行列の構造方程式
\[\Sigma = \mathrm{Cov}(\boldsymbol{x})= \Lambda\Lambda^\top + \Psi\]が成立する。$\Lambda\Lambda^\top$ の $(j,k)$ 成分は変数 $j$ と $k$ の共通因子による共通分散(Common Variance)を表し、$\psi_j$ は変数 $j$ の独自性(Uniqueness)と呼ばれる。変数 $j$ の全分散に占める共通因子の寄与率
\[h_j^2 = \frac{\sum_{k=1}^q \lambda_{jk}^2}{\sigma_{jj}}= 1 - \frac{\psi_j}{\sigma_{jj}}\]を共通性(Communality)と呼ぶ($\sigma_{jj} = \Sigma_{jj}$)。$h_j^2 \in [0,1]$ であり、$h_j^2$ が高いほど共通因子で説明される分散の割合が大きい。
因子分析モデルと PCA の構造的差異を整理する。
直交回転の不変性から、$\Lambda$ は直交変換 $\Lambda \to \Lambda R$($R \in \mathcal{O}(q)$)に対して識別不可能である。共分散構造方程式 $\Sigma = \Lambda\Lambda^\top + \Psi$ において$\Lambda$ と $\Lambda R$ は同一の $\Sigma$ を与えるため、一意な $\Lambda$ の推定には追加制約が必要である。標準的な制約として以下が用いられる。
パラメータの総数は $pq - q(q-1)/2$($\Lambda$ の自由度)$+ p$($\Psi$ の対角成分)$= pq + p - q(q-1)/2$ であり、観測可能な共分散行列の独立成分数 $p(p+1)/2$ を超えないための条件
\[q \leq \frac{2p + 1 - \sqrt{8p + 1}}{2}\]が識別可能性の必要条件として知られる。
$\boldsymbol{f} \sim \mathcal{N}(\boldsymbol{0}, I_q)$、$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \Psi)$(互いに独立)のとき、観測変数の周辺分布は
\[\boldsymbol{x} \sim \mathcal{N}(\boldsymbol{0},\, \Sigma),\quad \Sigma = \Lambda\Lambda^\top + \Psi\]となる。対数尤度は
\[\ell(\Lambda, \Psi)= -\frac{n}{2}\left[p\log(2\pi)+ \log|\Sigma|+ \mathrm{tr}(\Sigma^{-1}S)\right]\]と表される($S$ は標本共分散行列)。最尤推定量 $(\hat{\Lambda}, \hat{\Psi})$ はこの対数尤度を最大化することで得られる。
対数尤度の $\Lambda$ と $\Psi$ に関するスコア方程式は
\[\frac{\partial \ell}{\partial \Lambda}= n\Sigma^{-1}(S - \Sigma)\Sigma^{-1}\Lambda = 0\]\[\frac{\partial \ell}{\partial \psi_j}= \frac{n}{2}\left[(\Sigma^{-1})_{jj} - (\Sigma^{-1}S\Sigma^{-1})_{jj}\right] = 0\]と書ける。第一式より $S\Sigma^{-1}\Lambda = \Lambda$(スコア方程式の行列形式)、第二式より $[\Sigma^{-1}S\Sigma^{-1}]_{jj} = [\Sigma^{-1}]_{jj}$が MLE の必要条件である。これらは非線形連立方程式であり一般に閉形式解を持たないため、数値的最適化が必要となる。
因子分析の MLE は一般に凸最適化問題ではなく、局所最適解が複数存在する場合がある(Heywood 問題:$\hat{\psi}_j \leq 0$ となる不当解、後述)。
完全データ $\{(\boldsymbol{x}_i, \boldsymbol{f}_i)\}_{i=1}^n$(潜在因子を観測できると仮定)の対数尤度は
\[\ell_{\mathrm{comp}}(\Lambda, \Psi)= -\frac{n}{2}\sum_{i=1}^n\left[\log|\Psi|+ (\boldsymbol{x}_i - \Lambda\boldsymbol{f}_i)^\top \Psi^{-1}(\boldsymbol{x}_i - \Lambda\boldsymbol{f}_i)+ \boldsymbol{f}_i^\top \boldsymbol{f}_i\right] + \text{const.}\]E ステップ:現在のパラメータ $(\Lambda^{(t)}, \Psi^{(t)})$ のもとで因子スコアの事後分布を計算する。正規モデルでは $\boldsymbol{f}_i \mid \boldsymbol{x}_i$ の事後分布が正規分布となり、
\[\mathbb{E}[\boldsymbol{f}_i \mid \boldsymbol{x}_i]= \underbrace{(\Lambda^{(t)\top}\Psi^{(t)-1}\Lambda^{(t)} + I_q)^{-1}\Lambda^{(t)\top}\Psi^{(t)-1}}_{\text{Thompson 推定量}}\boldsymbol{x}_i\equiv \beta^{(t)} \boldsymbol{x}_i\]\[\mathrm{Cov}(\boldsymbol{f}_i \mid \boldsymbol{x}_i)= (\Lambda^{(t)\top}\Psi^{(t)-1}\Lambda^{(t)} + I_q)^{-1}\equiv \Omega^{(t)}\]と閉形式で得られる。$\beta^{(t)}$ は回帰法による因子スコア推定量(Bartlett 推定量との違いは後述)に相当する。
M ステップ:期待完全対数尤度 $Q(\Lambda, \Psi \mid \Lambda^{(t)}, \Psi^{(t)})$ を最大化する:
\[\Lambda^{(t+1)}= \left[\sum_i \boldsymbol{x}_i \mathbb{E}[\boldsymbol{f}_i \mid \boldsymbol{x}_i]^\top\right]\left[\sum_i \mathbb{E}[\boldsymbol{f}_i\boldsymbol{f}_i^\top \mid \boldsymbol{x}_i]\right]^{-1}= S\beta^{(t)\top}\left(\Omega^{(t)} + \beta^{(t)} S \beta^{(t)\top}\right)^{-1}\]\[\Psi^{(t+1)}= \mathrm{diag}\!\left(S - \Lambda^{(t+1)}\beta^{(t)}S\right)\]ここで $\mathbb{E}[\boldsymbol{f}_i\boldsymbol{f}_i^\top \mid \boldsymbol{x}_i]= \Omega^{(t)} + \mathbb{E}[\boldsymbol{f}_i\mid\boldsymbol{x}_i]\mathbb{E}[\boldsymbol{f}_i\mid\boldsymbol{x}_i]^\top$を用いた。EM 各ステップの計算量は $O(npq + pq^2 + q^3)$ であり、$q \ll p$ のとき直接法($O(p^3)$)より効率的である。EM は単調に対数尤度を増加させるが収束速度は線形であり、加速法(準 Newton 加速・ECME)との組み合わせが実用上推奨される。
MLE の計算コストを避ける近似手法として主因子法が用いられる。共通性の初期推定値 $\hat{h}_j^{2(0)}$(例:変数 $j$ と他変数との重相関係数の二乗)から出発し、縮小相関行列
\[R^* = R - \hat{\Psi}^{(0)}= R - \mathrm{diag}(1 - \hat{h}_1^{2(0)}, \ldots, 1 - \hat{h}_p^{2(0)})\]の上位 $q$ 個の固有ベクトルを用いて $\hat{\Lambda}$ を構成する。得られた $\hat{\Lambda}$ から共通性を更新し収束するまで反復する。主因子法は MLE より計算量が少ないが統計的効率性の保証がなく、Heywood 問題が生じやすいという欠点がある。主因子法と PCA の違いは、主因子法が縮小相関行列(対角を共通性に置換)に固有値分解を適用する点にある。
Harman(1976)の最小残差法は残差行列 $S - \hat{\Lambda}\hat{\Lambda}^\top - \hat{\Psi}$ の非対角成分の平方和を最小化する:
\[\min_{\Lambda}\sum_{j \neq k}\left(S_{jk} - [\Lambda\Lambda^\top]_{jk}\right)^2\]$\Psi$ を陽に推定せず、対角外の共分散構造のみから $\Lambda$ を求める。数値的安定性が高く、Heywood 問題が生じにくい。
識別可能性の問題から、推定された $\hat{\Lambda}$ は直交変換の任意性を持つ。因子回転(Factor Rotation)は直交変換 $\hat{\Lambda} \to \hat{\Lambda}R$($R \in \mathcal{O}(q)$)または斜交変換によりローディングの解釈可能性を向上させる手続きである。
バリマックス回転(Varimax;Kaiser, 1958)は各変数の因子負荷量の分散の合計を最大化する直交回転であり、最も広く用いられる自動回転法である:
\[\max_{R \in \mathcal{O}(q)}\sum_{k=1}^q \left[\frac{1}{p}\sum_{j=1}^p (\tilde{\lambda}_{jk}^2)^2- \left(\frac{1}{p}\sum_{j=1}^p \tilde{\lambda}_{jk}^2\right)^{\!2}\right]\]ここで $\tilde{\lambda}_{jk} = \lambda_{jk}/h_j$(共通性で正規化した負荷量)。バリマックスは各因子が一部の変数に大きな負荷量を持ち残りにはゼロに近い負荷量を持つという単純構造(Simple Structure)を目指す。最適化は $q \times q$ 行列の Jacobi 回転アルゴリズムで $O(q^3)$ の計算量で解かれる。
その他の直交回転として、バリマックスの代替にクォーティマックス(各変数の因子数最小化)・エカマックス(等分散化)・オブリマックス(斜交を許容した一般化)がある。
因子間の相関を許容する斜交回転では、因子ローディング行列 $\Lambda$ と因子パターン行列・因子構造行列が区別される。代表的な斜交回転としてプロマックス回転(Promax)とオブリミン回転(Oblimin)があり、因子間相関行列 $\Phi = \mathrm{Cov}(\boldsymbol{f})$($\Phi \neq I_q$)が推定される。斜交回転モデルでは共分散構造が$\Sigma = \Lambda\Phi\Lambda^\top + \Psi$ となる。因子間に相関が期待される場面(例:心理特性の下位因子)では斜交回転が理論的に適切であり、直交回転は情報を捨てている可能性がある。
因子分析モデルでは $\boldsymbol{f}_i$ は潜在変数であり直接観測されないため、推定が必要である。推定された因子スコアは「真の」因子スコアの代理として後続分析(回帰・クラスタリング等)に用いられる。
条件付き期待値 $\mathbb{E}[\boldsymbol{f} \mid \boldsymbol{x}]$ に基づく推定量で、正規モデルでは EM の E ステップと一致する:
\[\hat{\boldsymbol{f}}_i^{\mathrm{Reg}}= \Lambda^\top \Sigma^{-1} \boldsymbol{x}_i= (\Lambda^\top\Psi^{-1}\Lambda + I_q)^{-1}\Lambda^\top\Psi^{-1}\boldsymbol{x}_i\](木を利用して $\Sigma^{-1}$ を回避する第二式は Woodbury 恒等式による)。回帰法は二乗誤差を最小化するが一般に因子スコアが有偏であり、$\mathrm{Cov}(\hat{\boldsymbol{f}}^{\mathrm{Reg}}) \neq I_q$(推定された因子スコア間に相関が生じる)。
因子スコアを固定パラメータとして加重最小二乗で推定する:
\[\hat{\boldsymbol{f}}_i^{\mathrm{Bartlett}}= (\Lambda^\top\Psi^{-1}\Lambda)^{-1}\Lambda^\top\Psi^{-1}\boldsymbol{x}_i\]Bartlett 法は不偏性 $\mathbb{E}[\hat{\boldsymbol{f}}^{\mathrm{Bartlett}}] = \boldsymbol{f}$を満たし、推定された因子スコア間の相関が真の因子間相関(直交モデルでは零)を保持する。一方で二乗誤差は回帰法より大きくなる。
二手法の比較を整理する。
| 性質 | 回帰法(Thomson) | Bartlett 法 |
|---|---|---|
| 不偏性 | 有偏 | 不偏 |
| 二乗誤差 | 最小(MMSE 推定量) | 回帰法より大きい |
| 因子スコア間の相関 | $\hat{\boldsymbol{f}}$ 間に相関が生じる | 真の因子相関構造を保持 |
| 正規モデルとの対応 | 事後平均(EM の E ステップ) | 加重最小二乗 MLE |
因子数 $q$ の選択は理論的・統計的・実用的基準の組み合わせで行われる。
因子分析モデル $\Sigma = \Lambda\Lambda^\top + \Psi$ の適合度は標本共分散行列 $S$ とモデル予測共分散 $\hat{\Sigma}$ の差で評価される。
残差行列:$S - \hat{\Sigma}$(対角外の残差が小さいほど良い当てはまり)。
RMSEA(Root Mean Square Error of Approximation):モデルの誤特定を測る指標として
\[\mathrm{RMSEA}= \sqrt{\frac{T/(n-1) - \mathrm{df}}{\mathrm{df} \cdot p(p+1)/2}}\]が用いられる($T$:尤度比統計量、$\mathrm{df}$:モデルの自由度)。$\mathrm{RMSEA} \leq 0.05$ で良好な適合、$\leq 0.08$ で許容範囲とされる。
CFI(Comparative Fit Index)、TLI(Tucker–Lewis Index):独立モデル(因子なし)と比較した相対的な適合度指標であり、$0.95$ 以上で良好な適合とされる。構造方程式モデリング(SEM)との接続においてこれらの指標が標準的に報告される。
因子分析の推定において $\hat{\psi}_j \leq 0$(負または零の独自性)となるHeywood 解(不当解)が生じることがある。$\hat{\psi}_j = 0$ は「超 Heywood 解」とも呼ばれ、変数 $j$ が共通因子のみで完全に説明されることを意味し、統計的には識別不可能な状況を示している。発生原因として以下が挙げられる:
対処法として、因子数の削減・ベイズ推定による事前分布の導入($\psi_j$ の事前分布を逆ガンマ分布として正値性を保証)・最小残差法の採用が用いられる。
パラメータの不確実性を確率的に扱うベイズ因子分析では、事前分布を明示的に設定し事後分布からのサンプリングにより推論を行う。識別可能性のための下三角制約のもとで、標準的な事前分布の設定は以下の通りである:
\[\lambda_{jk} \sim \mathcal{N}(0, \tau_{jk}^2)\quad (j > k:\text{ 自由パラメータ}),\quad\psi_j \sim \mathrm{InvGamma}(a_0, b_0)\]ハイパーパラメータ $\tau_{jk}^2$ に縮小事前分布(horseshoe 事前分布・Dirichlet–Laplace 事前分布)を用いることでスパース因子負荷行列の自動推定が可能となる。ギブスサンプリングの各ステップでは$\boldsymbol{f}_i \mid \boldsymbol{x}_i, \Lambda, \Psi$ のサンプリング(正規分布から)と$\Lambda, \Psi \mid \{\boldsymbol{x}_i, \boldsymbol{f}_i\}$ のサンプリング(共役更新)が交互に行われる。因子数 $q$ の不確実性はIndian Buffet Process(IBP)などのノンパラメトリックベイズ事前分布により自動的に決定できる。
因子分析の実施形態は目的に応じて二種類に大別される。
| モデル | $\Psi$ の構造 | 特徴 |
|---|---|---|
| 因子分析(FA) | $\Psi = \mathrm{diag}(\psi_1,\ldots,\psi_p)$(異なる対角成分) | 各変数固有の誤差分散を推定 |
| 確率的 PCA(PPCA) | $\Psi = \sigma^2 I_p$(等方ノイズ) | MLE が古典的 PCA と一致 |
| 独立成分分析(ICA) | $\Psi = 0$(ノイズなし) | 因子の非ガウス性・独立性を仮定 |
| 確認的因子分析(CFA) | $\Psi$:対角(制約付き $\Lambda$) | $\Lambda$ に事前のゼロ制約を課す |
| 構造方程式モデル(SEM) | 一般の構造 | CFA と回帰モデルを統合 |
| 混合因子分析 | クラスター依存の $\Lambda_k, \Psi_k$ | 潜在クラスと因子構造を同時推定 |
因子分析は共分散構造 $\Sigma = \Lambda\Lambda^\top + \Psi$ による観測変数の変動を共通因子と独自因子に分解する確率的潜在変数モデルであり、直交回転の不変性・識別可能性・共通性の概念がその理論的核心をなす。MLE は EM アルゴリズムにより効率的に計算され、E ステップが因子スコアの事後計算(Thompson 推定量)、M ステップが $\Lambda$ と $\Psi$ の閉形式更新に対応する。バリマックス等の因子回転は単純構造という解釈可能性の基準のもとでJacobi アルゴリズムにより最適化される。因子数の選択には固有値基準・尤度比検定・AIC・BIC・並行分析が用いられ、モデル適合度は RMSEA・CFI・TLI で評価される。Heywood 問題はモデルの過特定や小標本での推定不安定性を示す警告であり、ベイズ推定による対処が有効である。EFA は仮説生成・尺度開発に、CFA は理論仮説の検証に用いられ、SEM へと自然に拡張される。PPCA との対比では $\Psi$ の構造的制約(等方 vs. 一般対角)が両モデルの本質的な差異であり、指数型分布族・最尤推定・EM アルゴリズム・情報量基準・ベイズ推定の理論が統合された潜在変数モデル推論の中核的な枠組みを提供する。
Mathematics is the language with which God has written the universe.