統計量と標本分布は、標本から母集団の性質を推定するための中核概念である。標本に基づく関数としての統計量は確率変数であり、その分布(標本分布)を解析することで推測統計が成立する。
標本 $X_1, X_2, \dots, X_n$ に対して、母数に依存しない関数
\[T = T(X_1, X_2, \dots, X_n)\]
を統計量という。
統計量は観測データのみに依存し、未知の母数を含まないことが重要である。
統計量 $T$ は確率変数であるため、その確率分布を標本分布という。
すなわち、母集団分布 $F$ のもとで標本を繰り返し抽出したときの $T$ の分布である。
標本分布を知ることにより、統計量のばらつきや偏りを評価することができ、推定や検定の理論が構築される。
独立同分布な確率変数 $X_1, \dots, X_n$ に対して、
\[\mathbb{E}[\bar{X}] = \mu, \quad \mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n}\]
が成立する。
さらに、中心極限定理により、
\[\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \Rightarrow \mathcal{N}(0,1)\]
が成立する。
母集団が正規分布 $\mathcal{N}(\mu,\sigma^2)$ に従うとき、
統計量 $T$ が母数 $\theta$ に対して
\[\mathbb{E}[T] = \theta\]
を満たすとき、不偏であるという。
\[T_n \xrightarrow{P} \theta\]
が成立するとき、一致性を持つという。
分散が最小となる統計量は効率的(有効)であるという。
統計量 $T$ が母数 $\theta$ に関する情報をすべて保持する場合、$T$ は十分統計量という。ネイマン・フィッシャーの因子分解定理により特徴付けられる。
標本分布は以下の統計的手法の基盤となる。
統計量は標本から得られる関数であり、その分布である標本分布を解析することで、母集団の未知の性質を推定することが可能となる。統計的推論の理論は、この標本分布の理解に基づいて構築される。
Mathematics is the language with which God has written the universe.