共分散および相関係数は、複数の確率変数間の依存関係を定量化するための基本的な統計量である。共分散は線形的な関係の方向と大きさを表し、相関係数はそれを標準化した無次元量として解釈される。
確率空間 $(\Omega, \mathcal{F}, P)$ 上の確率変数 $X, Y$ に対して、期待値を
\[\mu_X = \mathbb{E}[X], \quad \mu_Y = \mathbb{E}[Y]\]
とすると、共分散は
\[\mathrm{Cov}(X,Y) = \mathbb{E}\big[(X - \mu_X)(Y - \mu_Y)\big]\]
によって定義される。
共分散は次の形にも書き換えられる。
\[\mathrm{Cov}(X,Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]\]
確率質量関数 $p(x,y)$ に対して、
\[\mathrm{Cov}(X,Y) = \sum_{x}\sum_{y} (x - \mu_X)(y - \mu_Y)\,p(x,y)\]
同時確率密度関数 $f(x,y)$ に対して、
\[\mathrm{Cov}(X,Y) = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x - \mu_X)(y - \mu_Y)\,f(x,y)\,dx\,dy\]
\[\mathrm{Cov}(X,Y) = \mathrm{Cov}(Y,X)\]
任意の定数 $a, b$ に対して、
\[\mathrm{Cov}(aX + b, Y) = a\,\mathrm{Cov}(X,Y)\]
\[\mathrm{Var}(X) = \mathrm{Cov}(X,X)\]
$X, Y$ が独立ならば、
\[\mathrm{Cov}(X,Y) = 0\]
が成立する。ただし逆は一般には成り立たない。
相関係数(ピアソンの相関係数)は、共分散を標準化したものであり、
\[\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}\]
によって定義される。ただし、
\[\sigma_X = \sqrt{\mathrm{Var}(X)}, \quad \sigma_Y = \sqrt{\mathrm{Var}(Y)}\]
である。
\[-1 \leq \rho_{XY} \leq 1\]
が常に成立する。
このとき、ほとんど確実に
\[Y = aX + b\]
が成立する($a \neq 0$)。
\[\rho_{XY} = 0\]
のとき、$X$ と $Y$ は無相関であるが、必ずしも独立ではない。
相関係数の範囲は、コーシー・シュワルツの不等式
\[|\mathbb{E}[XY]| \leq \sqrt{\mathbb{E}[X^2]\mathbb{E}[Y^2]}\]
に基づいて導かれる。
多次元確率変数 $X = (X_1, \dots, X_n)$ に対して、共分散行列は
\[\Sigma = (\mathrm{Cov}(X_i, X_j))_{i,j}\]
によって定義される。この行列は対称かつ半正定値である。
共分散は確率変数間の線形依存の度合いを表す基本量であり、相関係数はそれを標準化した指標である。これらは多変量解析や回帰分析において中心的な役割を果たし、確率変数間の関係性を理解するための重要な道具である。
Mathematics is the language with which God has written the universe.