因子分析

因子分析（Factor Analysis, FA）は観測変数の共分散構造を少数の潜在変数（共通因子）と観測変数固有の誤差（独自因子）に分解する統計的潜在変数モデルである。主成分分析（PCA）と目的・モデル構造を共有しながらも、確率モデルとして明示的に定式化される点で根本的に異なる。心理測定・教育測定・経済学・生物情報学における潜在構造の推定と解釈に広く用いられる。

設定

$p$ 次元観測ベクトル $\boldsymbol{x} \in \mathbb{R}^p$、$q$ 次元共通因子ベクトル $\boldsymbol{f} \in \mathbb{R}^q$（$q \ll p$）、i.i.d. 標本 $\{\boldsymbol{x}_i\}_{i=1}^n$ を考える。標本平均を $\bar{\boldsymbol{x}}$、標本共分散行列を$S = \frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i - \bar{\boldsymbol{x}})(\boldsymbol{x}_i - \bar{\boldsymbol{x}})^\top \in \mathbb{S}^p_+$とする。以降では中心化済み（$\mathbb{E}[\boldsymbol{x}] = \boldsymbol{0}$）を仮定する（一般には $\boldsymbol{\mu} = \mathbb{E}[\boldsymbol{x}]$ を推定して差し引く）。

因子分析モデルの定義

線形因子モデル

因子分析モデルは

\[\boldsymbol{x} = \Lambda \boldsymbol{f} + \boldsymbol{\varepsilon}\]

と定義される。各要素の定義と仮定を以下に示す。

因子負荷行列（Factor Loading Matrix）$\Lambda \in \mathbb{R}^{p \times q}$：共通因子が各観測変数に与える影響を表す行列。$\lambda_{jk}$（$\Lambda$ の $(j,k)$ 成分）を第 $j$ 変数の第 $k$ 因子に対する因子負荷量と呼ぶ。
共通因子（Common Factor）$\boldsymbol{f} \in \mathbb{R}^q$：$\mathbb{E}[\boldsymbol{f}] = \boldsymbol{0}$、$\mathrm{Cov}(\boldsymbol{f}) = I_q$（直交因子モデルの場合）。
独自因子（Unique Factor、誤差）$\boldsymbol{\varepsilon} \in \mathbb{R}^p$：$\mathbb{E}[\boldsymbol{\varepsilon}] = \boldsymbol{0}$、$\mathrm{Cov}(\boldsymbol{\varepsilon}) = \Psi = \mathrm{diag}(\psi_1, \ldots, \psi_p)$（対角行列：変数間の独自誤差は無相関を仮定）、$\boldsymbol{f}$ と $\boldsymbol{\varepsilon}$ は独立。

これらの仮定のもとで共分散行列の構造方程式

\[\Sigma = \mathrm{Cov}(\boldsymbol{x})= \Lambda\Lambda^\top + \Psi\]

が成立する。$\Lambda\Lambda^\top$ の $(j,k)$ 成分は変数 $j$ と $k$ の共通因子による共通分散（Common Variance）を表し、$\psi_j$ は変数 $j$ の独自性（Uniqueness）と呼ばれる。変数 $j$ の全分散に占める共通因子の寄与率

\[h_j^2 = \frac{\sum_{k=1}^q \lambda_{jk}^2}{\sigma_{jj}}= 1 - \frac{\psi_j}{\sigma_{jj}}\]

を共通性（Communality）と呼ぶ（$\sigma_{jj} = \Sigma_{jj}$）。$h_j^2 \in [0,1]$ であり、$h_j^2$ が高いほど共通因子で説明される分散の割合が大きい。

PCA との本質的な違い

因子分析モデルと PCA の構造的差異を整理する。

モデルの対象：因子分析は共分散行列の対角外（変数間の共変動）のみを共通因子で説明し、対角成分（固有分散）は独自因子 $\psi_j$ に帰属させる。PCA は全分散（対角外＋対角）を最大化する方向を求める。すなわち因子分析は $\Sigma = \Lambda\Lambda^\top + \Psi$、PCA は $\Sigma \approx W_q \Lambda_q W_q^\top$（全分散の低ランク近似）。
確率モデル：因子分析は明示的な確率モデルであり、尤度に基づく推定・検定・情報量基準が適用できる。古典的 PCA は決定論的手法であるが、確率的 PCA（PPCA）は $\Psi = \sigma^2 I_p$ と制約した因子分析モデルとして解釈できる。
回転の不変性：任意の直交行列 $R \in \mathcal{O}(q)$ に対して$(\Lambda R)(R^\top \boldsymbol{f}) = \Lambda \boldsymbol{f}$ が成立するため、因子負荷行列は直交回転で不変であり、解釈のための因子回転が理論的に正当化される。

識別可能性

直交回転の不変性から、$\Lambda$ は直交変換 $\Lambda \to \Lambda R$（$R \in \mathcal{O}(q)$）に対して識別不可能である。共分散構造方程式 $\Sigma = \Lambda\Lambda^\top + \Psi$ において$\Lambda$ と $\Lambda R$ は同一の $\Sigma$ を与えるため、一意な $\Lambda$ の推定には追加制約が必要である。標準的な制約として以下が用いられる。

下三角制約：$\Lambda$ の上三角部分（$j < k$ の成分）をゼロに固定する。これにより自由パラメータ数は $pq - q(q-1)/2$ となる。ベイズ因子分析での識別可能性確保に広く用いられる。
固有値降順制約：$\Lambda^\top \Psi^{-1} \Lambda$ が対角かつ降順固有値を持つよう制約する（最尤推定の標準的な識別制約）。

パラメータの総数は $pq - q(q-1)/2$（$\Lambda$ の自由度）$+ p$（$\Psi$ の対角成分）$= pq + p - q(q-1)/2$ であり、観測可能な共分散行列の独立成分数 $p(p+1)/2$ を超えないための条件

\[q \leq \frac{2p + 1 - \sqrt{8p + 1}}{2}\]

が識別可能性の必要条件として知られる。

正規因子分析モデルと最尤推定

正規モデルの定義

$\boldsymbol{f} \sim \mathcal{N}(\boldsymbol{0}, I_q)$、$\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \Psi)$（互いに独立）のとき、観測変数の周辺分布は

\[\boldsymbol{x} \sim \mathcal{N}(\boldsymbol{0},\, \Sigma),\quad \Sigma = \Lambda\Lambda^\top + \Psi\]

となる。対数尤度は

\[\ell(\Lambda, \Psi)= -\frac{n}{2}\left[p\log(2\pi)+ \log|\Sigma|+ \mathrm{tr}(\Sigma^{-1}S)\right]\]

と表される（$S$ は標本共分散行列）。最尤推定量 $(\hat{\Lambda}, \hat{\Psi})$ はこの対数尤度を最大化することで得られる。

MLE の最適性条件

対数尤度の $\Lambda$ と $\Psi$ に関するスコア方程式は

\[\frac{\partial \ell}{\partial \Lambda}= n\Sigma^{-1}(S - \Sigma)\Sigma^{-1}\Lambda = 0\]\[\frac{\partial \ell}{\partial \psi_j}= \frac{n}{2}\left[(\Sigma^{-1})_{jj} - (\Sigma^{-1}S\Sigma^{-1})_{jj}\right] = 0\]

と書ける。第一式より $S\Sigma^{-1}\Lambda = \Lambda$（スコア方程式の行列形式）、第二式より $[\Sigma^{-1}S\Sigma^{-1}]_{jj} = [\Sigma^{-1}]_{jj}$が MLE の必要条件である。これらは非線形連立方程式であり一般に閉形式解を持たないため、数値的最適化が必要となる。

因子分析の MLE は一般に凸最適化問題ではなく、局所最適解が複数存在する場合がある（Heywood 問題：$\hat{\psi}_j \leq 0$ となる不当解、後述）。

推定アルゴリズム

EM アルゴリズム

完全データ $\{(\boldsymbol{x}_i, \boldsymbol{f}_i)\}_{i=1}^n$（潜在因子を観測できると仮定）の対数尤度は

\[\ell_{\mathrm{comp}}(\Lambda, \Psi)= -\frac{n}{2}\sum_{i=1}^n\left[\log|\Psi|+ (\boldsymbol{x}_i - \Lambda\boldsymbol{f}_i)^\top \Psi^{-1}(\boldsymbol{x}_i - \Lambda\boldsymbol{f}_i)+ \boldsymbol{f}_i^\top \boldsymbol{f}_i\right] + \text{const.}\]

E ステップ：現在のパラメータ $(\Lambda^{(t)}, \Psi^{(t)})$ のもとで因子スコアの事後分布を計算する。正規モデルでは $\boldsymbol{f}_i \mid \boldsymbol{x}_i$ の事後分布が正規分布となり、

\[\mathbb{E}[\boldsymbol{f}_i \mid \boldsymbol{x}_i]= \underbrace{(\Lambda^{(t)\top}\Psi^{(t)-1}\Lambda^{(t)} + I_q)^{-1}\Lambda^{(t)\top}\Psi^{(t)-1}}_{\text{Thompson 推定量}}\boldsymbol{x}_i\equiv \beta^{(t)} \boldsymbol{x}_i\]\[\mathrm{Cov}(\boldsymbol{f}_i \mid \boldsymbol{x}_i)= (\Lambda^{(t)\top}\Psi^{(t)-1}\Lambda^{(t)} + I_q)^{-1}\equiv \Omega^{(t)}\]

と閉形式で得られる。$\beta^{(t)}$ は回帰法による因子スコア推定量（Bartlett 推定量との違いは後述）に相当する。

M ステップ：期待完全対数尤度 $Q(\Lambda, \Psi \mid \Lambda^{(t)}, \Psi^{(t)})$ を最大化する：

\[\Lambda^{(t+1)}= \left[\sum_i \boldsymbol{x}_i \mathbb{E}[\boldsymbol{f}_i \mid \boldsymbol{x}_i]^\top\right]\left[\sum_i \mathbb{E}[\boldsymbol{f}_i\boldsymbol{f}_i^\top \mid \boldsymbol{x}_i]\right]^{-1}= S\beta^{(t)\top}\left(\Omega^{(t)} + \beta^{(t)} S \beta^{(t)\top}\right)^{-1}\]\[\Psi^{(t+1)}= \mathrm{diag}\!\left(S - \Lambda^{(t+1)}\beta^{(t)}S\right)\]

ここで $\mathbb{E}[\boldsymbol{f}_i\boldsymbol{f}_i^\top \mid \boldsymbol{x}_i]= \Omega^{(t)} + \mathbb{E}[\boldsymbol{f}_i\mid\boldsymbol{x}_i]\mathbb{E}[\boldsymbol{f}_i\mid\boldsymbol{x}_i]^\top$を用いた。EM 各ステップの計算量は $O(npq + pq^2 + q^3)$ であり、$q \ll p$ のとき直接法（$O(p^3)$）より効率的である。EM は単調に対数尤度を増加させるが収束速度は線形であり、加速法（準 Newton 加速・ECME）との組み合わせが実用上推奨される。

主因子法（Principal Factor Method）

MLE の計算コストを避ける近似手法として主因子法が用いられる。共通性の初期推定値 $\hat{h}_j^{2(0)}$（例：変数 $j$ と他変数との重相関係数の二乗）から出発し、縮小相関行列

\[R^* = R - \hat{\Psi}^{(0)}= R - \mathrm{diag}(1 - \hat{h}_1^{2(0)}, \ldots, 1 - \hat{h}_p^{2(0)})\]

の上位 $q$ 個の固有ベクトルを用いて $\hat{\Lambda}$ を構成する。得られた $\hat{\Lambda}$ から共通性を更新し収束するまで反復する。主因子法は MLE より計算量が少ないが統計的効率性の保証がなく、Heywood 問題が生じやすいという欠点がある。主因子法と PCA の違いは、主因子法が縮小相関行列（対角を共通性に置換）に固有値分解を適用する点にある。

最小残差法（MinRes）

Harman（1976）の最小残差法は残差行列 $S - \hat{\Lambda}\hat{\Lambda}^\top - \hat{\Psi}$ の非対角成分の平方和を最小化する：

\[\min_{\Lambda}\sum_{j \neq k}\left(S_{jk} - [\Lambda\Lambda^\top]_{jk}\right)^2\]

$\Psi$ を陽に推定せず、対角外の共分散構造のみから $\Lambda$ を求める。数値的安定性が高く、Heywood 問題が生じにくい。

因子回転

識別可能性の問題から、推定された $\hat{\Lambda}$ は直交変換の任意性を持つ。因子回転（Factor Rotation）は直交変換 $\hat{\Lambda} \to \hat{\Lambda}R$（$R \in \mathcal{O}(q)$）または斜交変換によりローディングの解釈可能性を向上させる手続きである。

直交回転

バリマックス回転（Varimax；Kaiser, 1958）は各変数の因子負荷量の分散の合計を最大化する直交回転であり、最も広く用いられる自動回転法である：

\[\max_{R \in \mathcal{O}(q)}\sum_{k=1}^q \left[\frac{1}{p}\sum_{j=1}^p (\tilde{\lambda}_{jk}^2)^2- \left(\frac{1}{p}\sum_{j=1}^p \tilde{\lambda}_{jk}^2\right)^{\!2}\right]\]

ここで $\tilde{\lambda}_{jk} = \lambda_{jk}/h_j$（共通性で正規化した負荷量）。バリマックスは各因子が一部の変数に大きな負荷量を持ち残りにはゼロに近い負荷量を持つという単純構造（Simple Structure）を目指す。最適化は $q \times q$ 行列の Jacobi 回転アルゴリズムで $O(q^3)$ の計算量で解かれる。

その他の直交回転として、バリマックスの代替にクォーティマックス（各変数の因子数最小化）・エカマックス（等分散化）・オブリマックス（斜交を許容した一般化）がある。

斜交回転

因子間の相関を許容する斜交回転では、因子ローディング行列 $\Lambda$ と因子パターン行列・因子構造行列が区別される。代表的な斜交回転としてプロマックス回転（Promax）とオブリミン回転（Oblimin）があり、因子間相関行列 $\Phi = \mathrm{Cov}(\boldsymbol{f})$（$\Phi \neq I_q$）が推定される。斜交回転モデルでは共分散構造が$\Sigma = \Lambda\Phi\Lambda^\top + \Psi$ となる。因子間に相関が期待される場面（例：心理特性の下位因子）では斜交回転が理論的に適切であり、直交回転は情報を捨てている可能性がある。

因子スコアの推定

因子分析モデルでは $\boldsymbol{f}_i$ は潜在変数であり直接観測されないため、推定が必要である。推定された因子スコアは「真の」因子スコアの代理として後続分析（回帰・クラスタリング等）に用いられる。

回帰法（Thomson 法）

条件付き期待値 $\mathbb{E}[\boldsymbol{f} \mid \boldsymbol{x}]$ に基づく推定量で、正規モデルでは EM の E ステップと一致する：

\[\hat{\boldsymbol{f}}_i^{\mathrm{Reg}}= \Lambda^\top \Sigma^{-1} \boldsymbol{x}_i= (\Lambda^\top\Psi^{-1}\Lambda + I_q)^{-1}\Lambda^\top\Psi^{-1}\boldsymbol{x}_i\]

（木を利用して $\Sigma^{-1}$ を回避する第二式は Woodbury 恒等式による）。回帰法は二乗誤差を最小化するが一般に因子スコアが有偏であり、$\mathrm{Cov}(\hat{\boldsymbol{f}}^{\mathrm{Reg}}) \neq I_q$（推定された因子スコア間に相関が生じる）。

Bartlett 法（加重最小二乗法）

因子スコアを固定パラメータとして加重最小二乗で推定する：

\[\hat{\boldsymbol{f}}_i^{\mathrm{Bartlett}}= (\Lambda^\top\Psi^{-1}\Lambda)^{-1}\Lambda^\top\Psi^{-1}\boldsymbol{x}_i\]

Bartlett 法は不偏性 $\mathbb{E}[\hat{\boldsymbol{f}}^{\mathrm{Bartlett}}] = \boldsymbol{f}$を満たし、推定された因子スコア間の相関が真の因子間相関（直交モデルでは零）を保持する。一方で二乗誤差は回帰法より大きくなる。

二手法の比較を整理する。

性質	回帰法（Thomson）	Bartlett 法
不偏性	有偏	不偏
二乗誤差	最小（MMSE 推定量）	回帰法より大きい
因子スコア間の相関	$\hat{\boldsymbol{f}}$ 間に相関が生じる	真の因子相関構造を保持
正規モデルとの対応	事後平均（EM の E ステップ）	加重最小二乗 MLE

モデル選択と適合度検定

因子数の選択

因子数 $q$ の選択は理論的・統計的・実用的基準の組み合わせで行われる。

固有値基準（Kaiser 基準）：相関行列の固有値が $1$ 以上の因子を採用する。標準化された変数では固有値 $1$ が「平均的な変数一個分の分散」に対応するという直観に基づく。簡便だが因子数を過大推定する傾向がある。
スクリープロット：固有値を降順にプロットし肘点を因子数とする（PCA と同様）。
尤度比検定：因子数 $q$ と $q+1$ のモデルを比較する尤度比統計量\[T = -n\log\frac{|\hat{\Sigma}_q|}{|\hat{\Sigma}_{q+1}|}\xrightarrow{d} \chi^2\!\left(\frac{(p-q)^2 - (p+q)}{2} - 1\right)\]が漸近的に $\chi^2$ 分布に従うことを利用する（Bartlett 補正付き）。自由度は $[(p-q)^2 - (p+q)]/2$ であり、因子数の差に対応する制約の数を表す。大標本ではほぼ常に帰無仮説が棄却される傾向があり、補助的基準として用いるのが望ましい。
情報量基準：AIC・BIC による因子数の選択：\[\mathrm{AIC}(q) = -2\ell(\hat{\Lambda}_q, \hat{\Psi}_q) + 2d_q,\quad\mathrm{BIC}(q) = -2\ell(\hat{\Lambda}_q, \hat{\Psi}_q) + d_q\log n\]ここで $d_q = pq - q(q-1)/2 + p$ はパラメータ数。BIC は一致性を持ち大標本で真の因子数を回復する傾向があり、AIC は予測精度を優先して因子数を過大評価することが多い。
並行分析（Parallel Analysis）：ランダム行列の固有値との比較によりノイズを超えた因子を識別する客観的基準（PCA と同様）。

モデル適合度の評価

因子分析モデル $\Sigma = \Lambda\Lambda^\top + \Psi$ の適合度は標本共分散行列 $S$ とモデル予測共分散 $\hat{\Sigma}$ の差で評価される。

残差行列：$S - \hat{\Sigma}$（対角外の残差が小さいほど良い当てはまり）。

RMSEA（Root Mean Square Error of Approximation）：モデルの誤特定を測る指標として

\[\mathrm{RMSEA}= \sqrt{\frac{T/(n-1) - \mathrm{df}}{\mathrm{df} \cdot p(p+1)/2}}\]

が用いられる（$T$：尤度比統計量、$\mathrm{df}$：モデルの自由度）。$\mathrm{RMSEA} \leq 0.05$ で良好な適合、$\leq 0.08$ で許容範囲とされる。

CFI（Comparative Fit Index）、TLI（Tucker–Lewis Index）：独立モデル（因子なし）と比較した相対的な適合度指標であり、$0.95$ 以上で良好な適合とされる。構造方程式モデリング（SEM）との接続においてこれらの指標が標準的に報告される。

Heywood 問題

因子分析の推定において $\hat{\psi}_j \leq 0$（負または零の独自性）となるHeywood 解（不当解）が生じることがある。$\hat{\psi}_j = 0$ は「超 Heywood 解」とも呼ばれ、変数 $j$ が共通因子のみで完全に説明されることを意味し、統計的には識別不可能な状況を示している。発生原因として以下が挙げられる：

因子数 $q$ の過大推定
標本サイズ $n$ が小さい（$n/p$ が小さい）
共通性 $h_j^2$ が真に $1$ に近い（多重共線性の存在）
誤ったモデル設定（真のモデルが仮定と異なる）

対処法として、因子数の削減・ベイズ推定による事前分布の導入（$\psi_j$ の事前分布を逆ガンマ分布として正値性を保証）・最小残差法の採用が用いられる。

ベイズ因子分析

パラメータの不確実性を確率的に扱うベイズ因子分析では、事前分布を明示的に設定し事後分布からのサンプリングにより推論を行う。識別可能性のための下三角制約のもとで、標準的な事前分布の設定は以下の通りである：

\[\lambda_{jk} \sim \mathcal{N}(0, \tau_{jk}^2)\quad (j > k:\text{ 自由パラメータ}),\quad\psi_j \sim \mathrm{InvGamma}(a_0, b_0)\]

ハイパーパラメータ $\tau_{jk}^2$ に縮小事前分布（horseshoe 事前分布・Dirichlet–Laplace 事前分布）を用いることでスパース因子負荷行列の自動推定が可能となる。ギブスサンプリングの各ステップでは$\boldsymbol{f}_i \mid \boldsymbol{x}_i, \Lambda, \Psi$ のサンプリング（正規分布から）と$\Lambda, \Psi \mid \{\boldsymbol{x}_i, \boldsymbol{f}_i\}$ のサンプリング（共役更新）が交互に行われる。因子数 $q$ の不確実性はIndian Buffet Process（IBP）などのノンパラメトリックベイズ事前分布により自動的に決定できる。

確認的因子分析（CFA）と探索的因子分析（EFA）

因子分析の実施形態は目的に応じて二種類に大別される。

探索的因子分析（Exploratory FA, EFA）：因子構造に関する事前仮説なしに、データから因子を探索する。本節で述べてきた推定・回転の手続きが対応する。因子回転（バリマックス等）により解釈可能な構造を事後的に求める。仮説生成・尺度開発の初期段階に適する。
確認的因子分析（Confirmatory FA, CFA）：理論的仮説に基づき因子負荷行列の構造（ゼロ制約・等値制約等）を事前に指定し、データとの適合度を評価する。$\Lambda$ の特定成分をゼロに固定することでモデルの自由度が増加し、より強い識別可能性が得られる。構造方程式モデリング（SEM）の特殊ケースとして$\hat{\Sigma}(\theta) = \Lambda(\theta)\Phi(\theta)\Lambda(\theta)^\top + \Psi(\theta)$を最小化する重み付き最小二乗法（WLS）・対角重み付き最小二乗法（DWLS）・MLE により推定される。RMSEA・CFI・TLI などの適合度指標による仮説の検証が中心的な関心となる。

因子分析と関連モデルの体系

モデル	$\Psi$ の構造	特徴
因子分析（FA）	$\Psi = \mathrm{diag}(\psi_1,\ldots,\psi_p)$（異なる対角成分）	各変数固有の誤差分散を推定
確率的 PCA（PPCA）	$\Psi = \sigma^2 I_p$（等方ノイズ）	MLE が古典的 PCA と一致
独立成分分析（ICA）	$\Psi = 0$（ノイズなし）	因子の非ガウス性・独立性を仮定
確認的因子分析（CFA）	$\Psi$：対角（制約付き $\Lambda$）	$\Lambda$ に事前のゼロ制約を課す
構造方程式モデル（SEM）	一般の構造	CFA と回帰モデルを統合
混合因子分析	クラスター依存の $\Lambda_k, \Psi_k$	潜在クラスと因子構造を同時推定

まとめ

因子分析は共分散構造 $\Sigma = \Lambda\Lambda^\top + \Psi$ による観測変数の変動を共通因子と独自因子に分解する確率的潜在変数モデルであり、直交回転の不変性・識別可能性・共通性の概念がその理論的核心をなす。MLE は EM アルゴリズムにより効率的に計算され、E ステップが因子スコアの事後計算（Thompson 推定量）、M ステップが $\Lambda$ と $\Psi$ の閉形式更新に対応する。バリマックス等の因子回転は単純構造という解釈可能性の基準のもとでJacobi アルゴリズムにより最適化される。因子数の選択には固有値基準・尤度比検定・AIC・BIC・並行分析が用いられ、モデル適合度は RMSEA・CFI・TLI で評価される。Heywood 問題はモデルの過特定や小標本での推定不安定性を示す警告であり、ベイズ推定による対処が有効である。EFA は仮説生成・尺度開発に、CFA は理論仮説の検証に用いられ、SEM へと自然に拡張される。PPCA との対比では $\Psi$ の構造的制約（等方 vs. 一般対角）が両モデルの本質的な差異であり、指数型分布族・最尤推定・EM アルゴリズム・情報量基準・ベイズ推定の理論が統合された潜在変数モデル推論の中核的な枠組みを提供する。

Mathematics is the language with which God has written the universe.

判別分析（LDA/QDA）正準相関分析（CCA）主成分分析（PCA）指数型分布族ロジスティック回帰