順位相関

順位相関は、二変数間の単調な関連の強さを順位に基づいて測る指標である。ピアソンの積率相関係数が線形関係を前提とするのに対し、順位相関は分布に関する仮定を必要とせず、外れ値や非線形な単調関係にも適用できる。

設定

$n$ 個の対データ

\[(X_1, Y_1), (X_2, Y_2), \dots, (X_n, Y_n)\]

を考える。各変数に対して順位を割り当て、$R_i$、$Q_i$ をそれぞれ $X_i$、$Y_i$ の順位とする。

スピアマンの順位相関係数

定義

スピアマンの順位相関係数 $\rho_s$ は、順位 $R_i$ と $Q_i$ に対するピアソンの積率相関係数として定義される:

\[\rho_s = \frac{\sum_{i=1}^n (R_i - \bar{R})(Q_i - \bar{Q})}{\sqrt{\sum_{i=1}^n (R_i - \bar{R})^2 \sum_{i=1}^n (Q_i - \bar{Q})^2}}\]

タイがない場合、$\bar{R} = \bar{Q} = (n+1)/2$ であり、簡便式

\[\rho_s = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)}\]

が成立する。ここで $d_i = R_i - Q_i$ は順位差である。

簡便式の導出

タイがないとき $\sum(R_i - \bar{R})^2 = \sum(Q_i - \bar{Q})^2 = n(n^2-1)/12$ が成立する。また

\[\sum_{i=1}^n d_i^2 = \sum_{i=1}^n (R_i - Q_i)^2 = \sum R_i^2 - 2\sum R_i Q_i + \sum Q_i^2\]

を展開・整理することで、簡便式がピアソンの定義式と一致することが確認できる。

タイの処理

同順位が存在する場合、タイに対して平均順位を割り当てる。このとき簡便式は厳密には成立しないため、定義式に基づいて計算する。あるいは修正項を加えた

\[\rho_s = \frac{n(n^2-1)/6 - \sum d_i^2 - T_X - T_Y}{2\sqrt{\left(\frac{n(n^2-1)}{12} - T_X\right)\left(\frac{n(n^2-1)}{12} - T_Y\right)}}\]

を用いる。ここで $T_X = \sum_g t_g(t_g^2-1)/12$($t_g$ はグループ $g$ 内のタイの個数)はタイ修正項である。

ケンドールの順位相関係数

一致ペアと不一致ペア

すべての対 $(i, j)$($i < j$)について、

\[(X_i - X_j)(Y_i - Y_j) > 0 \iff \text{一致ペア(concordant)}\]

\[(X_i - X_j)(Y_i - Y_j) < 0 \iff \text{不一致ペア(discordant)}\]

と定義する。一致ペアの個数を $C$、不一致ペアの個数を $D$ とおく。全ペア数は $\binom{n}{2} = n(n-1)/2$ である。

定義

ケンドールの $\tau$ は一致ペアと不一致ペアの差に基づいて

\[\tau = \frac{C - D}{\binom{n}{2}} = \frac{C - D}{n(n-1)/2}\]

と定義される。$-1 \leq \tau \leq 1$ であり、$\tau = 1$ はすべてのペアが一致、$\tau = -1$ はすべてが不一致に対応する。

タイの修正($\tau_b$)

タイが存在する場合、分母を修正した

\[\tau_b = \frac{C - D}{\sqrt{(C + D + T_X)(C + D + T_Y)}}\]

を用いる。ここで $T_X$、$T_Y$ はそれぞれ $X$、$Y$ のタイペア数である。タイがないとき $\tau_b = \tau$ に一致する。

帰無仮説の検定

スピアマンの $\rho_s$ の検定

帰無仮説 $H_0 : \rho_s = 0$ のもとで、$n$ が大きいとき

\[T = \rho_s\sqrt{\frac{n-2}{1-\rho_s^2}} \sim t(n-2)\]

が近似的に成立する。$|T| > t_{\alpha/2,\, n-2}$ のとき帰無仮説を棄却する。

ケンドールの $\tau$ の検定

帰無仮説 $H_0 : \tau = 0$ のもとで、$n$ が大きいとき $C - D$ は漸近正規性を持ち、

\[E[C - D] = 0, \quad \text{Var}(C - D) = \frac{n(n-1)(2n+5)}{18}\]

が成立する。したがって

\[Z = \frac{C - D}{\sqrt{n(n-1)(2n+5)/18}} \sim \mathcal{N}(0,1)\]

により検定を行う。小標本では $\tau$ の厳密分布を用いる。

スピアマンとケンドールの比較

ピアソンの積率相関係数との比較

まとめ

順位相関は分布仮定を要さず単調関係を定量化する指標であり、スピアマンの $\rho_s$ は順位に対するピアソン相関として、ケンドールの $\tau$ は一致・不一致ペアの差の比率として定義される。いずれも $H_0 : \text{無相関}$ の検定が可能であり、正規母集団においてもピアソンの $r$ に対して高い漸近相対効率を持つ。外れ値や非正規分布が懸念される場面での相関分析において有効な手法である。

Mathematics is the language with which God has written the universe.





















コルモゴロフ・スミルノフ検定 カーネル密度推定 多変量正規分布 主成分分析 判別分析