統計量と標本分布

統計量と標本分布は、標本から母集団の性質を推定するための中核概念である。標本に基づく関数としての統計量は確率変数であり、その分布（標本分布）を解析することで推測統計が成立する。

統計量（statistic）

標本 $X_1, X_2, \dots, X_n$ に対して、母数に依存しない関数

\[T = T(X_1, X_2, \dots, X_n)\]

を統計量という。

統計量は観測データのみに依存し、未知の母数を含まないことが重要である。

統計量 $T$ は確率変数であるため、その確率分布を標本分布という。

すなわち、母集団分布 $F$ のもとで標本を繰り返し抽出したときの $T$ の分布である。

標本分布を知ることにより、統計量のばらつきや偏りを評価することができ、推定や検定の理論が構築される。

独立同分布な確率変数 $X_1, \dots, X_n$ に対して、

\[\mathbb{E}[\bar{X}] = \mu, \quad \mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n}\]

が成立する。

さらに、中心極限定理により、

\[\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \Rightarrow \mathcal{N}(0,1)\]

が成立する。

母集団が正規分布 $\mathcal{N}(\mu,\sigma^2)$ に従うとき、

統計量 $T$ が母数 $\theta$ に対して

\[\mathbb{E}[T] = \theta\]

を満たすとき、不偏であるという。

\[T_n \xrightarrow{P} \theta\]

が成立するとき、一致性を持つという。

分散が最小となる統計量は効率的（有効）であるという。

統計量 $T$ が母数 $\theta$ に関する情報をすべて保持する場合、$T$ は十分統計量という。ネイマン・フィッシャーの因子分解定理により特徴付けられる。

標本分布は以下の統計的手法の基盤となる。

統計量は標本から得られる関数であり、その分布である標本分布を解析することで、母集団の未知の性質を推定することが可能となる。統計的推論の理論は、この標本分布の理解に基づいて構築される。

Mathematics is the language with which God has written the universe.