Def:Pearson correlation coefficient
確率変数 $X, Y$ のピアソンの積率相関係数は次のように定義される.\[\rho(X,Y) = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}\]ここで,共分散 $\mathrm{Cov}(X,Y)$ は,\[\mathrm{Cov}(X,Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)]= \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]\]分散は,\[\sigma_X^2 = \mathrm{Var}(X) = \mathbb{E}[(X - \mu_X)^2], \quad\sigma_Y^2 = \mathrm{Var}(Y) = \mathbb{E}[(Y - \mu_Y)^2]\]である.
ピアソンの積率相関係数は, 二つの確率変数間の線形的な依存関係の強さを数値として表す指標である.具体的には, 二つの変数の偏差の積の期待値を, それぞれの標準偏差で正規化することにより, 変数のスケールに依存せずに関係の強弱を測定できる.値は −1 から 1 の範囲を取り, 1 に近いほど正の線形関係が強く, -1 に近いほど負の線形関係が強いことを示す.0 に近い場合は, 線形関係がほとんどないことを意味するが, 非線形な依存関係までは捉えられない.
カール・ピアソン[1857/1936]が19世紀末から20世紀初頭にかけて統計学の基礎を築く過程で導入したものである.彼はフランシス・ゴルトンの回帰と相関の概念を発展させ, 個体間の遺伝的および環境的影響の相関を数量的に評価する方法を求めた.ゴルトンは既に相関係数を表す「r」という記号を導入し, 回帰直線の概念を考案していたが, ピアソンがこれを数学的に厳密に定式化した.その過程で, 偏差積の期待値を標準偏差で割る形式が自然に生まれ, 今日広く用いられるピアソンの積率相関係数として体系化された.
相関係数が ±1 の値をとるのは, データ点が完全に一直線上に並ぶ場合のみであり, これは完全線形関係を意味する.相関係数が 0 であることは「無相関」を意味するが, これは必ずしも独立性を意味しない.非線形な関係[例:放物線的関係]が存在する場合でも, 相関係数は 0 に近い値を示すことがある.
相関関係は因果関係を意味しない.高い相関があっても, それが直接的な因果関係を示すとは限らず, 第三の変数による見かけ上の相関[疑似相関]の可能性もある.また, 外れ値に対して敏感であり, 少数の極端な値が相関係数を大きく歪める場合がある.データが正規分布から大きく逸脱する場合や, 関係が非線形である場合には, スピアマンの順位相関係数やケンドールの順位相関係数などの代替手法を考慮すべきである.
この指標は, 心理学, 生物学, 経済学, 医学, 工学など多くの分野で, 変数間の線形関係を定量的に評価する標準的手段として定着し, 現代統計学における最も基本的かつ重要な概念の一つとなっている.ピアソンはこの他にも, カイ二乗検定, ピアソン分布系列, 記述統計学の諸概念など, 現代統計学の礎石となる多くの理論を確立した偉大な統計学者として知られている.
Mathematics is the language with which God has written the universe.