Definition:
自由度 $ k > 0 $ のカイ二乗分布は,互いに独立な標準正規分布に従う確率変数\[Z_1, Z_2, \dots, Z_k \sim \mathrm{i.i.d.} \ N(0,1)\]の二乗和\[X = \sum_{i=1}^k Z_i^2\]の分布である.この確率変数 $ X $ の確率密度関数は\[f_X(x) = \frac{1}{2^{k/2} \Gamma\left(\frac{k}{2}\right)} x^{\frac{k}{2} - 1} e^{-\frac{x}{2}}, \quad x > 0\]である.
カイ二乗分布は,多変量正規分布の基礎的な関数であり,分散の推定や統計検定に広く用いられる.
1次元の場合,標準正規変数 $ Z \sim N(0,1) $ の2乗 $ X = Z^2 $ の分布を考える.密度関数 $f_Z(z)$ は\[f_Z(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}, \quad z \in \mathbb{R}\]変数変換 $ X = z^2 $ により,- $ z = \sqrt{x} $ または $ z = -\sqrt{x} $($x > 0$)ヤコビアンの絶対値は\[\left| \frac{dz}{dx} \right| = \frac{1}{2\sqrt{x}}\]$X$ の密度関数は合成確率密度の和として\[f_X(x) = f_Z(\sqrt{x}) \cdot \frac{1}{2\sqrt{x}} + f_Z(-\sqrt{x}) \cdot \frac{1}{2\sqrt{x}} = \frac{1}{\sqrt{2\pi}} e^{-\frac{x}{2}} \frac{1}{\sqrt{x}}\]したがって\[f_X(x) = \frac{1}{\sqrt{2\pi}} x^{-1/2} e^{-\frac{x}{2}}, \quad x > 0\]これは自由度1のカイ二乗分布の密度関数と一致する.独立な $k$ 個の標準正規変数 $Z_i$ の二乗和\[X = \sum_{i=1}^k Z_i^2\]の分布を求める.実は,カイ二乗分布はパラメータ $\alpha = \frac{k}{2}$, $\beta = \frac{1}{2}$ のガンマ分布に他ならない.ガンマ分布の密度関数は\[g(x; \alpha, \beta) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x}, \quad x > 0\]ここに\[\alpha = \frac{k}{2}, \quad \beta = \frac{1}{2}\]を代入すれば,カイ二乗分布の密度関数と一致する.
カイ2乗分布は,19世紀末から20世紀初頭にかけて統計学が急速に発展する中で,特に分散の推定や適合度検定の分野で重要性を増していった.この分布の理論的基礎は,カール・ピアソンが1900年に発表した適合度検定に関する論文「On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling」において初めて体系的に導入された.
ピアソンは,観測度数と期待度数の差を二乗して期待度数で割った値の和が,特定の確率分布に従うことを発見し,これを適合度の判定に用いる方法を提案した.この統計量が従う分布こそが,後にカイ2乗分布と呼ばれるものであった.
分布の名称「カイ二乗」は,ギリシャ文字$\chi^2$[カイの二乗]に由来するが,この記号の使用を定着させたのはロナルド・A・フィッシャーである.フィッシャーは1920年代以降,母分散の推定問題や分散分析[ANOVA]の理論構築において,カイ2乗分布の役割を体系的に整理し,現代的な統計理論の基盤を築いた.
数学的には,カイ2乗分布は\textbf{自由度$\nu$のガンマ分布$\Gamma[\nu/2, 2]$}として表現される.すなわち,形状パラメータが$\nu/2$,尺度パラメータが2のガンマ分布である.より基本的には,$k$個の独立な標準正規分布$N[0,1]$に従う確率変数$Z_1, Z_2, \ldots, Z_k$の二乗和 \[Z_1^2 + Z_2^2 + \cdots + Z_k^2\]が自由度$k$のカイ2乗分布$\chi^2[k]$に従うという性質により定義される.
この分布の重要性は,正規母集団からの標本分散 \[s^2 = \frac{\sum_{i=1}^n [X_i - \bar{X}]^2}{n-1}\]に対して,\[\frac{[n-1]s^2}{\sigma^2}\]が自由度$[n-1]$のカイ2乗分布に従うという事実にある.これにより,母分散$\sigma^2$の信頼区間の構築や仮説検定が可能となった.
カイ2乗分布はまた,以下の統計的検定手法の基礎となっている:
20世紀を通じて,ウィリアム・G・コクランやフランク・ウィルコクソンらの統計学者により理論的発展が進められ,カイ2乗分布は確固たる地位を築いた.現在では,統計的推測,実験計画,品質管理など幅広い分野で活用される,現代統計学の基盤を支える重要な確率分布として定着している.
Mathematics is the language with which God has written the universe.