共分散と相関係数

共分散および相関係数は、複数の確率変数間の依存関係を定量化するための基本的な統計量である。共分散は線形的な関係の方向と大きさを表し、相関係数はそれを標準化した無次元量として解釈される。

共分散の定義

確率空間 $(\Omega, \mathcal{F}, P)$ 上の確率変数 $X, Y$ に対して、期待値を

\[\mu_X = \mathbb{E}[X], \quad \mu_Y = \mathbb{E}[Y]\]

とすると、共分散は

\[\mathrm{Cov}(X,Y) = \mathbb{E}\big[(X - \mu_X)(Y - \mu_Y)\big]\]

によって定義される。

別表現

共分散は次の形にも書き換えられる。

\[\mathrm{Cov}(X,Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]\]

離散型の場合

確率質量関数 $p(x,y)$ に対して、

\[\mathrm{Cov}(X,Y) = \sum_{x}\sum_{y} (x - \mu_X)(y - \mu_Y)\,p(x,y)\]

連続型の場合

同時確率密度関数 $f(x,y)$ に対して、

\[\mathrm{Cov}(X,Y) = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x - \mu_X)(y - \mu_Y)\,f(x,y)\,dx\,dy\]

基本性質

対称性

\[\mathrm{Cov}(X,Y) = \mathrm{Cov}(Y,X)\]

線形性

任意の定数 $a, b$ に対して、

\[\mathrm{Cov}(aX + b, Y) = a\,\mathrm{Cov}(X,Y)\]

分散との関係

\[\mathrm{Var}(X) = \mathrm{Cov}(X,X)\]

独立性との関係

$X, Y$ が独立ならば、

\[\mathrm{Cov}(X,Y) = 0\]

が成立する。ただし逆は一般には成り立たない。

相関係数の定義

相関係数(ピアソンの相関係数)は、共分散を標準化したものであり、

\[\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}\]

によって定義される。ただし、

\[\sigma_X = \sqrt{\mathrm{Var}(X)}, \quad \sigma_Y = \sqrt{\mathrm{Var}(Y)}\]

である。

相関係数の性質

範囲

\[-1 \leq \rho_{XY} \leq 1\]

が常に成立する。

完全相関

このとき、ほとんど確実に

\[Y = aX + b\]

が成立する($a \neq 0$)。

無相関

\[\rho_{XY} = 0\]

のとき、$X$ と $Y$ は無相関であるが、必ずしも独立ではない。

コーシー・シュワルツの不等式

相関係数の範囲は、コーシー・シュワルツの不等式

\[|\mathbb{E}[XY]| \leq \sqrt{\mathbb{E}[X^2]\mathbb{E}[Y^2]}\]

に基づいて導かれる。

共分散行列

多次元確率変数 $X = (X_1, \dots, X_n)$ に対して、共分散行列は

\[\Sigma = (\mathrm{Cov}(X_i, X_j))_{i,j}\]

によって定義される。この行列は対称かつ半正定値である。

まとめ

共分散は確率変数間の線形依存の度合いを表す基本量であり、相関係数はそれを標準化した指標である。これらは多変量解析や回帰分析において中心的な役割を果たし、確率変数間の関係性を理解するための重要な道具である。

Mathematics is the language with which God has written the universe.





















モーメント母関数と特性関数 チェビシェフの不等式 期待値とモーメント ベルヌーイ分布・二項分布 ポアソン分布