分散および標準偏差は、確率変数のばらつきの程度を測る基本的な統計量である。期待値が分布の中心を表すのに対し、分散はその周囲への散らばりを定量化する役割を持つ。
確率空間 $(\Omega, \mathcal{F}, P)$ 上の確率変数 $X$ に対して、期待値を $\mu = \mathbb{E}[X]$ とすると、分散は
\[\mathrm{Var}(X) = \mathbb{E}[(X - \mu)^2]\]
によって定義される。
これは、確率変数の値が平均からどれだけ離れているかの二乗平均を意味する。
分散は次の形にも書き換えられる。
\[\mathrm{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2\]
この形は計算上しばしば有用である。
確率質量関数 $p(x)$ に対して、
\[\mathrm{Var}(X) = \sum_{x} (x - \mu)^2 p(x)\]
確率密度関数 $f(x)$ に対して、
\[\mathrm{Var}(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\,dx\]
標準偏差は分散の平方根として定義される。
\[\sigma = \sqrt{\mathrm{Var}(X)}\]
標準偏差は元のデータと同じ次元を持つため、解釈が容易である。
\[\mathrm{Var}(X) \geq 0\]
であり、$\mathrm{Var}(X) = 0$ は $X$ が定数であることと同値である。
任意の定数 $c$ に対して、
\[\mathrm{Var}(X + c) = \mathrm{Var}(X)\]
任意の定数 $a$ に対して、
\[\mathrm{Var}(aX) = a^2 \mathrm{Var}(X)\]
一般に、
\[\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\mathrm{Cov}(X,Y)\]
が成立する。
特に $X, Y$ が独立であれば、
\[\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)\]
となる。
共分散は
\[\mathrm{Cov}(X,Y) = \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]\]
で定義され、分散はその特別な場合として
\[\mathrm{Var}(X) = \mathrm{Cov}(X,X)\]
と表される。
条件付き期待値を用いると、
\[\mathrm{Var}(X) = \mathbb{E}[\mathrm{Var}(X \mid Y)] + \mathrm{Var}(\mathbb{E}[X \mid Y])\]
が成立する。これは分散の分解公式である。
標準偏差は分散の平方根であるため、スケールの変換に対して
\[\mathrm{SD}(aX) = |a|\,\mathrm{SD}(X)\]
が成立する。
分散は確率変数のばらつきを定量化する基本量であり、期待値からの偏差の二乗平均として定義される。標準偏差はその平方根として、より直観的な尺度を提供する。これらの概念は、確率分布の形状の理解や統計的推論において中心的役割を果たす。
Mathematics is the language with which God has written the universe.