コルモゴロフ・スミルノフ検定は、経験分布関数と理論分布関数の乖離、または二つの経験分布関数間の乖離を検定統計量として用いるノンパラメトリック検定である。分布の形状全体を評価対象とし、特定のパラメータではなく分布関数そのものに関する仮説を検定する。
標本 $X_1, \dots, X_n$ に対して、経験分布関数を
\[F_n(x) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}(X_i \leq x)\]
と定義する。$F_n(x)$ は $x$ 以下の観測値の割合を表す右連続な階段関数であり、真の分布関数 $F$ の自然な推定量である。グリヴェンコ・カンテリの定理により、
\[\sup_x |F_n(x) - F(x)| \xrightarrow{a.s.} 0 \quad (n \to \infty)\]
が成立する。
連続分布 $F_0$ を指定した帰無仮説
\[H_0 : F = F_0\]
を検定する。
経験分布関数 $F_n$ と理論分布関数 $F_0$ の最大乖離を
\[D_n = \sup_x |F_n(x) - F_0(x)|\]
と定義する。$H_0$ のもとで $F_0$ が連続であれば、$D_n$ の分布は $F_0$ の具体的な形によらない(分布無依存性)。これは確率積分変換 $U_i = F_0(X_i) \sim \text{Uniform}(0,1)$ により、問題が一様分布の経験分布関数の問題に帰着されることによる。
$\sqrt{n}D_n$ の漸近分布はコルモゴロフ分布に従い、その分布関数は
\[P(\sqrt{n}D_n \leq t) \to K(t) = \sum_{k=-\infty}^{\infty} (-1)^k e^{-2k^2t^2}\]
で与えられる。有意水準 $\alpha$ のもとで、臨界値 $c_\alpha$ を
\[P(\sqrt{n}D_n > c_\alpha) = \alpha\]
から定め、$D_n > c_\alpha / \sqrt{n}$ のとき帰無仮説を棄却する。小標本では厳密分布表を用いる。
上側・下側の乖離をそれぞれ
\[D_n^+ = \sup_x (F_n(x) - F_0(x)), \quad D_n^- = \sup_x (F_0(x) - F_n(x))\]
と定義すると、$D_n = \max(D_n^+, D_n^-)$ が成立する。片側統計量は分布の上側または下側への偏りを検出する際に用いられる。
二つの独立な標本
\[X_1, \dots, X_m \sim F_X, \quad Y_1, \dots, Y_n \sim F_Y\]
に対して、
\[H_0 : F_X = F_Y\]
を検定する。
それぞれの経験分布関数 $F_m$、$G_n$ の最大乖離を
\[D_{m,n} = \sup_x |F_m(x) - G_n(x)|\]
と定義する。帰無仮説のもとで $D_{m,n}$ の分布は両分布の具体的な形によらない。
$m, n \to \infty$ で $m/(m+n) \to \lambda \in (0,1)$ のとき、
\[\sqrt{\frac{mn}{m+n}} D_{m,n} \xrightarrow{d} K\]
が成立する。ここで $K$ は一標本の場合と同じコルモゴロフ分布に従う。実効標本サイズ $n_e = mn/(m+n)$ を用いて一標本の場合と同様に検定できる。
連続分布において $D_n$ は順序統計量を用いて有限個の点での比較に帰着される。順序統計量 $X_{(1)} \leq \cdots \leq X_{(n)}$ に対して、
\[D_n = \max_{1 \leq i \leq n} \max\!\left(\left|\frac{i}{n} - F_0(X_{(i)})\right|,\, \left|\frac{i-1}{n} - F_0(X_{(i)})\right|\right)\]
と計算できる。これは $F_n$ が階段関数であり、跳躍点のみで乖離の最大値が達成されることによる。
コルモゴロフ・スミルノフ検定は、経験分布関数と理論分布関数(または二つの経験分布関数)の最大乖離を統計量として用いるノンパラメトリック検定である。帰無仮説のもとで検定統計量の分布が分布無依存となる理論的な優雅さを持ち、漸近分布はコルモゴロフ分布に従う。分布全体を評価する汎用性を持つ一方、裾への感度やパラメータ推定後の適用には注意が必要であり、目的に応じてアンダーソン・ダーリング検定やシャピロ・ウィルク検定と使い分けることが望ましい。
Mathematics is the language with which God has written the universe.