統計学において、母集団と標本はデータ解析および推測統計の出発点となる基本概念である。母集団は研究対象となる全体を指し、標本はその一部として観測されたデータを意味する。
母集団とは、関心の対象となるすべての個体または観測単位の集合である。確率論的には、母集団は確率空間上の確率分布としてモデル化される。
すなわち、確率変数 $X$ の分布 $F$ が母集団分布を表す。
母集団の性質を特徴付ける量を母数という。代表的なものとして、
\[\mu = \mathbb{E}[X], \quad \sigma^2 = \mathrm{Var}(X)\]
がある。これらは通常未知であり、標本から推定される。
標本とは、母集団から抽出された有限個の観測値の集合である。一般に、
\[X_1, X_2, \dots, X_n\]
を標本とする。
標本が母集団から独立かつ同一の分布に従って抽出される場合、これを無作為標本(i.i.d. 標本)という。
\[X_1, \dots, X_n \sim \text{i.i.d. } F\]
標本から計算される関数を統計量という。代表例として、
\[\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\]
\[S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\]
がある。
統計量も確率変数であり、その分布を標本分布という。例えば、標本平均の分布は中心極限定理により近似的に正規分布となる。
母集団の母数は直接観測できないため、標本を用いて推定や検定を行う。すなわち、
といった手法が用いられる。
標本の取り方は推定の妥当性に大きく影響する。代表的な方法として、
などがある。
母集団は対象全体の確率的構造を表し、標本はその一部として観測されたデータである。統計学は標本から母集団の性質を推測する枠組みであり、この関係の理解が統計的推論の基礎となる。
Mathematics is the language with which God has written the universe.