二項分布から正規分布の導出

Summary:

二項分布は試行回数 $n$ が大きくなると,中心極限定理によりその形状が正規分布に近づく.

具体的には,平均 $np$, 分散 $npq$ をもつ正規分布で近似でき, 標準化すれば標準正規分布収束する.

確率 $p \in (0, 1)$ のベルヌーイ試行を $n$ 回行うとき, 成功回数 $X$ は二項分布 $B(n, p)$ に従い,確率質量関数は\[P_n(k) = \mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n-k}\]で与えられる.但し, $k \in \{0, 1, \dots, n\}$, $q := 1 - p$ とする.二項分布の平均と分散は\[\mathbb{E}[X] = np, \quad \text{Var}(X) = npq\]である.

正規分布との比較のため,変数の標準化を行う.すなわち,\[Z_n = \frac{X - np}{\sqrt{npq}}\]とする.$Z_n$ の分布を考察する.

次に,以下の条件を設定する.

また,$k = np + z\sqrt{npq}$ とおく.但し, $z$ は固定された実数とする.$n \to \infty$ のとき,$k$ は整数に最も近い値をとるものとする.

スターリングの公式より,\[n! = \sqrt{2\pi n} \left( \frac{n}{e} \right)^n e^{\lambda_n}\]ここで, $\lambda_n \to 0$ as $n \to \infty$.より精密には,\[n! = \sqrt{2\pi n} \left( \frac{n}{e} \right)^n \left(1 + O\left(\frac{1}{n}\right)\right)\]

$k = np + z\sqrt{npq}$ のとき,\[\begin{align}\binom{n}{k} &= \frac{n!}{k!(n-k)!} \\&= \frac{\sqrt{2\pi n} \left(\frac{n}{e}\right)^n}{\sqrt{2\pi k} \left(\frac{k}{e}\right)^k \sqrt{2\pi(n-k)} \left(\frac{n-k}{e}\right)^{n-k}} \left(1 + O\left(\frac{1}{\sqrt{n}}\right)\right)\end{align}\]

$\log \binom{n}{k} p^k q^{n-k}$ を考える.\[\begin{align}&\log \binom{n}{k} p^k q^{n-k} \\&= \log \binom{n}{k} + k \log p + (n-k) \log q \\&= n \log n - k \log k - (n-k) \log (n-k) \\&\quad + k \log p + (n-k) \log q + O(\log n)\end{align}\]

$k = np + z\sqrt{npq}$ を代入し,$n \to \infty$ での主要項を計算すると,\[\begin{align}&\log \binom{n}{k} p^k q^{n-k} \\&= -\frac{1}{2}\log(2\pi npq) - \frac{z^2}{2} + O\left(\frac{z^3}{\sqrt{n}}\right)\end{align}\]

従って,\[P_n(k) = \binom{n}{k} p^k q^{n-k} = \frac{1}{\sqrt{2\pi npq}} \exp\left(-\frac{z^2}{2}\right) \left(1 + O\left(\frac{1}{\sqrt{n}}\right)\right)\]

ここで $z = \frac{k - np}{\sqrt{npq}}$ である.

離散分布から連続分布への移行において,連続性補正を考慮する.\[\mathbb{P}(a \leq X \leq b) = \sum_{k=a}^{b} P_n(k)\]

$X$ を標準化した変数 $Z_n = \frac{X - np}{\sqrt{npq}}$ について,\[\begin{align}\mathbb{P}\left(\frac{a - np}{\sqrt{npq}} \leq Z_n \leq \frac{b - np}{\sqrt{npq}}\right) &= \sum_{k=a}^{b} \frac{1}{\sqrt{2\pi npq}} \exp\left(-\frac{(k-np)^2}{2npq}\right) \left(1 + O\left(\frac{1}{\sqrt{n}}\right)\right)\end{align}\]

$\Delta z = \frac{1}{\sqrt{npq}}$ として,Riemann和の極限,\[\lim_{n \to \infty} \sum_{k=a}^{b} \frac{1}{\sqrt{npq}} \cdot \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{(k-np)^2}{2npq}\right) = \int_{\frac{a-np}{\sqrt{npq}}}^{\frac{b-np}{\sqrt{npq}}} \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz\]が得られる.

以上の解析により,ド・モアブル=ラプラスの定理が導かれる.

$X \sim B(n, p)$ とし,$0 < p < 1$ を固定とする.このとき,任意の実数 $a < b$ に対して\[\lim_{n \to \infty} \mathbb{P} \left( a \leq \frac{X - np}{\sqrt{npq}} \leq b \right) = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz = \Phi(b) - \Phi(a)\]が成り立つ.ここで, $\Phi(z)$ は標準正規分布の累積分布関数である.

すなわち,標準化された二項分布標準正規分布分布収束する.\[\frac{X - np}{\sqrt{npq}} \xrightarrow{d} \mathcal{N}(0, 1) \quad \text{as } n \to \infty\]

ベリー=エッセーンの定理により,収束の速度は,\[\left|\mathbb{P} \left( \frac{X - np}{\sqrt{npq}} \leq z \right) - \Phi(z)\right| \leq \frac{C}{\sqrt{npq}}\]

で評価される.ここで $C$ は絶対定数($C < 0.8$ 程度)である.

実用上は,連続性補正\[\mathbb{P}(X = k) \approx \mathbb{P}\left(k - \frac{1}{2} \leq Y \leq k + \frac{1}{2}\right)\]

を用いることにより,より良い近似が得られる.ここで $Y \sim \mathcal{N}(np, npq)$ である.

Mathematics is the language with which God has written the universe.





















自然対数の底 σ-代数 ELMo コンテキストベクトル RDBMSのレイヤー構造 Datalog