中心極限定理

Theorem:Central Limit Theorem

中心極限定理は,独立同一分布(i.i.d.)に従い,平均 $\mu$,分散 $\sigma^2 < \infty$ をもつ確率変数列 $X_1, X_2, \dots, X_n$ を考えるとき,標本平均の確率分布がサンプル数の増加に伴って正規分布に近づくことを保証する定理である.

標本平均を\[\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i\]と定義し,これを母平均 $\mu$ との差で標準化した\[S_n = \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} = \frac{1}{\sqrt{n}\,\sigma} \sum_{i=1}^{n} (X_i - \mu)\]を考えると,サンプル数 $n$ が大きくなるにつれて $S_n$ の分布は標準正規分布 $N(0,1)$ に収束する. すなわち任意の実数 $x$ に対して\[\lim_{n \to \infty} \Pr(S_n \le x) = \Phi(x)\]が成立する.ここで $\Phi(x)$ は標準正規分布の累積分布関数である.

この定理により, 確率変数の分布の形にかかわらず, 独立同一分布かつ分散が有限であれば, 標本平均はサンプル数を増やすほど正規分布で近似できることが保証される.

この性質は統計学における推測や区間推定, 検定の基盤をなすものである.

中心極限定理を最初に数学的に主張したのは, 18世紀のド・モアブル[Abraham de Moivre, 1667–1754]である.彼は1733年に出版した著書 The Doctrine of Chances において, 二項分布が正規分布で近似できることを示した.これが中心極限定理の最初の形とされる.その後, ピエール=シモン・ラプラス[Pierre-Simon Laplace, 1749–1827]がド・モアブルの結果を一般化し, より広い場合において二項分布正規分布に近づくことを定式化した.さらに19世紀から20世紀にかけて, リヤプノフ[Aleksandr Lyapunov, 1857/1918]やリンドベルク[Jarl Waldemar Lindeberg, 1876/1932]らが独立同一分布の確率変数の和に関する一般的な形を与え, 今日知られる厳密な定理の形に発展させた.したがって, 最初にこの定理を主張したのはド・モアブルであり, その後ラプラス, リヤプノフ, リンドベルクらの研究によって現在の中心極限定理へと展開されたのである.

証明

和と平均の導入

まず, 和を\[S_n = \sum_{i=1}^n X_i\]とおく.このとき期待値と分散は\[\mathbb{E}[S_n] = n\mu, \qquad \mathrm{Var}(S_n) = n\sigma^2\]となる.したがって $S_n$ をそのまま極限で扱うと分散が無限大に発散するため, 適切な標準化が必要になる.

標本平均とその分散

標本平均を\[\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\]と定義すると\[\mathbb{E}[\overline{X}_n] = \mu, \qquad \mathrm{Var}(\overline{X}_n) = \frac{\sigma^2}{n}.\]すなわち, 標本平均は母平均 $\mu$ に一致するが, その分散は $n$ が大きくなるほど $1/n$ のオーダーで小さくなる.

標準化と $\sqrt{n}$ の必然性

標本平均を正規化するために, 次の変数を定義する.\[Z_n = \frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}}.\]これはすなわち\[Z_n = \frac{1}{\sigma\sqrt{n}}\sum_{i=1}^n (X_i - \mu).\]ここで\[Y_i = \frac{X_i - \mu}{\sigma}\]とおけば\[\mathbb{E}[Y_i]=0, \quad \mathrm{Var}(Y_i)=1\]を満たす.したがって\[Z_n = \frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i.\]このとき\[\mathrm{Var}(Z_n) = \mathrm{Var}\left(\frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i\right) = \frac{1}{n}\sum_{i=1}^n \mathrm{Var}(Y_i) = 1.\]ここで \textbf{$\sqrt{n}$ を分母に置く理由}は, 標本平均の分散 $\sigma^2/n$ を標準化して分散 1 の形に揃えるためである.もし $\sqrt{n}$ を使わなければ, 分散は 0 に縮退したり無限に発散してしまい, 極限として安定した分布を得ることができない.

標準化変数の特性関数

$Z_n$ の特性関数を考える.\[\varphi_{Z_n}(t) = \mathbb{E}[e^{itZ_n}].\]定義より\[Z_n = \frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i\]なので\[\varphi_{Z_n}(t) = \mathbb{E}\left[\exp\!\left(\frac{it}{\sqrt{n}}\sum_{i=1}^n Y_i\right)\right].\]$Y_i$ は独立なので\[\varphi_{Z_n}(t) = \prod_{i=1}^n \mathbb{E}\left[\exp\!\left(\frac{it}{\sqrt{n}} Y_i\right)\right].\]同一分布に従うので, $\varphi_Y(u) = \mathbb{E}[e^{iuY_1}]$ を $Y$ の特性関数とすれば\[\varphi_{Z_n}(t) = \left(\varphi_Y\!\left(\tfrac{t}{\sqrt{n}}\right)\right)^n.\]

特性関数のテイラー展開

ここで $\varphi_Y(u)$ を $u=0$ のまわりでテイラー展開する.定義より\[\varphi_Y(u) = \mathbb{E}[e^{iuY}]= \mathbb{E}\!\left[1 + iuY - \frac{u^2}{2}Y^2 - i\frac{u^3}{6}Y^3 + \frac{u^4}{24}Y^4 + \cdots \right].\]各項の期待値をとると\[\varphi_Y(u) = 1 + iu\mathbb{E}[Y] - \frac{u^2}{2}\mathbb{E}[Y^2] - i\frac{u^3}{6}\mathbb{E}[Y^3] + \frac{u^4}{24}\mathbb{E}[Y^4] + \cdots.\]ここで $\mathbb{E}[Y]=0$, $\mathbb{E}[Y^2]=1$ なので\[\varphi_Y(u) = 1 - \frac{u^2}{2} - i\frac{u^3}{6}\mathbb{E}[Y^3] + \frac{u^4}{24}\mathbb{E}[Y^4] + \cdots.\]したがって $u\to 0$ のとき\[\varphi_Y(u) = 1 - \frac{u^2}{2} + o(u^2).\]

標準化和の特性関数の極限

この展開を代入すると\[\varphi_{Z_n}(t) = \left(1 - \frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2 + o\!\left(\frac{1}{n}\right)\right)^n.\]すなわち\[\varphi_{Z_n}(t) = \left(1 - \frac{t^2}{2n} + o\!\left(\frac{1}{n}\right)\right)^n.\]対数をとって整理すると\[\log \varphi_{Z_n}(t) = n \log\left(1 - \frac{t^2}{2n} + o\!\left(\frac{1}{n}\right)\right).\]ここで $\log(1+z) = z - \tfrac{z^2}{2} + o(z^2)$ を用いれば, $z = -\tfrac{t^2}{2n} + o(1/n)$ として\[\log \varphi_{Z_n}(t) = n\left(-\frac{t^2}{2n} + o\!\left(\frac{1}{n}\right)\right) = -\frac{t^2}{2} + o(1).\]したがって\[\lim_{n\to\infty} \varphi_{Z_n}(t) = e^{-t^2/2}.\]

特性関数の一意性定理

$e^{-t^2/2}$ は標準正規分布 $\mathcal{N}(0,1)$ の特性関数である.特性関数の一意性定理により, 分布収束\[Z_n \xrightarrow{d} \mathcal{N}(0,1)\quad (n\to\infty)\]が成り立つ.

結論(中心極限定理)

以上により, 有限の平均 $\mu$ と分散 $\sigma^2$ を持つ独立同一分布の確率変数列に対して, 標準化された和\[Z_n = \frac{1}{\sigma\sqrt{n}}\sum_{i=1}^n (X_i - \mu)\]は $n \to \infty$ のとき標準正規分布 $\mathcal{N}(0,1)$ に弱収束する.これが中心極限定理である.

Mathematics is the language with which God has written the universe.





















自然対数の底 二項係数 二項分布 一様分布 指数分布 標本分散と母分散の関係