Def:Bessel’s correction
母集団\[X_1, X_2, \dots, X_n \overset{iid}{\sim} (\mu, \sigma^2)\]を考える.母分散は $\sigma^2$ である.
標本平均は,\[\overline X = \frac{1}{n}\sum_{i=1}^n X_i\]である.
自然な分散の推定量は\[\hat\sigma^2_{\text{naive}} = \frac{1}{n}\sum_{i=1}^n (X_i - \overline X)^2\]だが,これはバイアスを持つ.
そこで分母を $n$ ではなく $n-1$ に置き換えた\[S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline X)^2\]を標本分散[ベッセル補正付き]と定義する。これが,ベッセル補正である.
任意の $\mu$ に対して次が成り立つ.\[\sum_{i=1}^n (X_i - \overline X)^2= \sum_{i=1}^n (X_i - \mu)^2 - n(\overline X - \mu)^2.\]両辺の期待値をとると,\[\mathbb{E}\!\left[\sum_{i=1}^n (X_i - \mu)^2\right] = n\sigma^2,\]\[\mathbb{E}\!\left[(\overline X - \mu)^2\right] = \mathrm{Var}(\overline X) = \frac{\sigma^2}{n}.\]従って,\[\mathbb{E}\!\left[\sum_{i=1}^n (X_i - \overline X)^2\right] = n\sigma^2 - n\cdot\frac{\sigma^2}{n} = (n-1)\sigma^2.\]よって,\[\mathbb{E}[S^2] = \sigma^2.\]すなわち, $S^2$ は母分散の不偏推定量である.
一方で補正なしの推定量は\[\mathbb{E}\!\left[\hat\sigma^2_{\text{naive}}\right] = \frac{n-1}{n}\sigma^2 < \sigma^2.\]
標準化変数 $Z_i = (X_i - \mu)/\sigma$ を考えると,\[\frac{1}{\sigma^2}\sum_{i=1}^n (X_i - \overline X)^2 = \sum_{i=1}^n (Z_i - \overline Z)^2.\]これは標準正規ベクトル $Z = (Z_1,\dots,Z_n)^\top$ を「平均ゼロの超平面」(次元 $n-1$)に直交射影した残差ベクトルのノルムに等しい.
平均推定のために1自由度を失うため、残差の自由度は $n-1$ となる.これが分母に $n-1$ を置く幾何的な理由である.
ベッセル補正は、有限の標本から母分散を推定するときに標本分散の分母を標本数 $n$ ではなく $n−1$ とする操作を指し,母分散の不偏推定量を与える.この補正が歴史的に重視されたのは,19世紀の天文学や測地学において極めて精密な観測値を少数のデータから扱わざるを得なかったことに由来する.とりわけドイツの天文学者フリードリヒ・ベッセル[Friedrich Wilhelm Bessel, 1784-07-22/1846-03-17]は,恒星視差の測定などにおいて観測値の誤差を評価する際,平均値を推定したうえで残差の分散を計算する場合には単に標本数で割ると過小評価になることを指摘し,自由度を一つ減じて割ることを体系的に用いた.後に統計学が理論的に整備されるなかで,この操作が不偏推定を保証する方法として一般化され,ベッセルの名にちなんでベッセル補正と呼ばれるようになったのである.
Mathematics is the language with which God has written the universe.