信頼区間の概念

信頼区間は、未知の母数を一定の確率的保証のもとで区間として推定する方法であり、推測統計における基本的概念である。点推定が単一の値を与えるのに対し、信頼区間は推定の不確実性を明示的に表現する。

定義

母数 $\theta$ に対して、標本 $X_1, \dots, X_n$ に基づく区間推定量

\[[C_1(X_1,\dots,X_n),\; C_2(X_1,\dots,X_n)]\]

が、ある $1-\alpha$ に対して

\[P\bigl( C_1 \leq \theta \leq C_2 \bigr) = 1 - \alpha\]

を満たすとき、この区間を信頼係数 $1-\alpha$ の信頼区間という。

信頼区間の確率は、母数が区間に含まれる確率ではなく、「同じ方法で標本抽出と区間構成を繰り返したとき、そのうち $1-\alpha$ の割合で真の母数を含む」という意味である。

適切な統計量 $T(X_1,\dots,X_n)$ を用い、その分布を利用して母数を含む確率が既知の区間を構成する。

例えば、標準正規分布に従う統計量 $Z \sim \mathcal{N}(0,1)$ に対して、

\[P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1 - \alpha\]

を用いて区間を導出する。

$X_i \sim \mathcal{N}(\mu,\sigma^2)$（$\sigma^2$ は既知）とすると、

\[Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim \mathcal{N}(0,1)\]

より、

\[\bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\]

が信頼係数 $1-\alpha$ の信頼区間となる。

分散が未知の場合には、

\[T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\]

を用いて、

\[\bar{X} \pm t_{\alpha/2,\,n-1} \frac{S}{\sqrt{n}}\]

が信頼区間となる。

信頼区間の幅は標本サイズ $n$ に依存し、

\[\text{幅} \propto \frac{1}{\sqrt{n}}\]

となる。したがって、大きな標本ほど精度の高い推定が可能となる。

信頼区間は、母数の不確実性を定量的に表現するための基本手法であり、標本分布を利用して構成される。信頼係数は手続きの長期的な成功率を意味し、統計的推論において重要な役割を果たす。

Mathematics is the language with which God has written the universe.