比率の区間推定

比率の区間推定は、ベルヌーイ試行や二項分布に基づく母比率 $p$ を推定するための手法である。標本比率の分布を利用して、母比率に対する信頼区間を構成する。

設定

独立なベルヌーイ試行

\[X_1, X_2, \dots, X_n \sim \mathrm{Bernoulli}(p)\]

を考える。

成功回数を

\[S = \sum_{i=1}^{n} X_i\]

とすると、

\[S \sim \mathrm{Binomial}(n, p)\]

である。

標本比率（成功割合）を

\[\hat{p} = \frac{S}{n}\]

と定義する。

このとき、

\[\mathbb{E}[\hat{p}] = p, \quad \mathrm{Var}(\hat{p}) = \frac{p(1-p)}{n}\]

が成立する。

標本サイズ $n$ が十分大きいとき、中心極限定理により

\[\hat{p} \approx \mathcal{N}\left(p, \frac{p(1-p)}{n}\right)\]

と近似できる。

したがって、

\[Z = \frac{\hat{p} - p}{\sqrt{p(1-p)/n}} \approx \mathcal{N}(0,1)\]

より、信頼区間は

\[\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

で与えられる（ワルド区間）。

ワルド区間は精度が低い場合があるため、より安定な推定としてウィルソン区間が用いられる：

\[\frac{\hat{p} + \frac{z^2}{2n} \pm z \sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1 + \frac{z^2}{n}}\]

二項分布に基づく正確な区間であり、ベータ分布を用いて表される。

事前分布としてベータ分布を仮定すると、事後分布は

\[p \mid X \sim \mathrm{Beta}(k+1, n-k+1)\]

となり、この分布に基づいて信用区間（credible interval）を構成できる。

正規近似が有効であるためには、

\[np \geq 5, \quad n(1-p) \geq 5\]

などの条件が必要である。

比率の区間推定は、標本比率の分布に基づいて母比率を推定する手法である。正規近似による方法が広く用いられるが、状況に応じてウィルソン区間や正確区間を用いることが重要である。

Mathematics is the language with which God has written the universe.