周辺分布

Definition:marginal distribution

確率変数 $(X_1, X_2, \dots, X_d)$ の結合分布関数を\[F(x_1, x_2, \dots, x_d) = \mathbb{P}(X_1 \leq x_1, X_2 \leq x_2, \dots, X_d \leq x_d)\]とする.このとき,第 $i$ 成分 $X_i$ の周辺分布関数 $F_i(x_i)$ は\[F_i(x_i) = \mathbb{P}(X_i \leq x_i)\]と定義される.

結合分布関数を用いて書き直すと,\[F_i(x_i) = \lim_{x_j \to +\infty,\, j \neq i} F(x_1, x_2, \dots, x_d),\]

すなわち,他の変数を $+\infty$ に飛ばすことによって結合分布から抽出される.

もともと marginal はラテン語 margo[縁・境界・余白]に由来する.中世ラテン語を経て,英語では余白に書かれた周辺にあるといった意味を持つようになった.印刷や帳簿の世界では欄外に記された数字や注記を marginal figures と呼んだ.

19世紀末から20世紀初頭にかけて,統計学ではクロス集計表[contingency table]が盛んに用いられるようになった.例えば二次元の度数分布表では,行や列の合計が表の余白[margin]に書かれる.この行和・列和に対応する分布を marginal distribution と呼ぶようになったのである.つまり,joint distribution[結合分布]を表にしたとき,その余白に現れる分布=marginal distribution というのが語源的な発想である.

この表の余白に現れる合計=marginalから転じて,より抽象的な確率分布においても他の変数を消去して残った一変数の分布を marginal distribution と呼ぶようになった.日本語訳周辺分布は,この marginal の本来の意味[余白・端・周縁]を忠実に反映したものである.

確率密度関数[pdf]が存在する場合

確率変数 $(X_1, X_2, \dots, X_d)$ が結合確率密度関数\[f(x_1, x_2, \dots, x_d)\]をもつとする.このとき, 第 $i$ 成分 $X_i$ の周辺確率密度関数 $f_i(x_i)$ は,他の変数について積分することで得られる.\[f_i(x_i) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1, x_2, \dots, x_d)\, dx_1 \cdots dx_{i-1}\, dx_{i+1} \cdots dx_d.\]例えば2次元の場合,$(X,Y)$ の結合密度を $f_{X,Y}(x,y)$ とすると,$X$ の周辺分布は\[f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dy,\]

$Y$ の周辺分布は\[f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dx\]で与えられる.

つまり,周辺分布とは「結合分布から,関心のない変数を積分して消す」ことで得られる分布であるといえる.

この定義を離散型の場合に書き換えると,積分ではなく和で表現される.すなわち,離散型確率変数 $(X,Y)$ に対して,$X$ の周辺分布は $Y$ の全ての値について和を取ることで得られる.\[\mathbb{P}(X=i) = \sum_j \mathbb{P}(X=i, Y=j),\]同様に $Y$ の周辺分布は $X$ の全ての値について和を取ることで得られる.\[\mathbb{P}(Y=j) = \sum_i \mathbb{P}(X=i, Y=j).\]

従って,離散型の場合も概念は連続型と同じであり,「結合分布から,関心のない変数を合計して消す」ことで周辺分布が得られるの.

クロス集計表における例

例えば,2つの離散型の確率変数 $X$(男女)と $Y$(喫煙習慣)を考える.次のようなクロス集計表[度数表]が得られたとする.\[\begin{array}{l|c|c|c} & Y=\text{Yes} & Y=\text{No} & \text{合計(周辺分布)} \\\hline X=\text{Male} & n_{11} & n_{12} & n_{1\cdot} \\X=\text{Female} & n_{21} & n_{22} & n_{2\cdot} \\\hline\text{合計(周辺分布)} & n_{\cdot 1} & n_{\cdot 2} & n\end{array}\]

ここで,$n_{ij}$ は「$X$ が $i$ のカテゴリで,かつ $Y$ が $j$ のカテゴリである」人数,すなわち結合度数である.$n_{1\cdot} = n_{11}+n_{12}$ は「$X=\text{Male}$ の合計」であり,$X$ の周辺分布に対応する.同様に,$n_{2\cdot} = n_{21}+n_{22}$ は「$X=\text{Female}$ の合計」を表す.また,$n_{\cdot 1} = n_{11}+n_{21}$ は「$Y=\text{Yes}$ の合計」であり,$Y$ の周辺分布に対応し,$n_{\cdot 2} = n_{12}+n_{22}$ は「$Y=\text{No}$ の合計」を示す.最後に,$n = n_{11}+n_{12}+n_{21}+n_{22}$ は全体の合計である.

確率分布に直すと,結合分布[joint distribution]は\[\mathbb{P}(X=i, Y=j) = \frac{n_{ij}}{n},\]$X$ の周辺分布[marginal distribution of $X$]は\[\mathbb{P}(X=i) = \frac{n_{i\cdot}}{n},\]$Y$ の周辺分布[marginal distribution of $Y$]は\[\mathbb{P}(Y=j) = \frac{n_{\cdot j}}{n}.\]となる.\[\begin{array}{l|c|c|c} & Y=\text{Yes} & Y=\text{No} & \text{合計(周辺分布)} \\\hline X=\text{Male} & n_{11}/n & n_{12}/n & \mathbf{n_{1\cdot}/n} \\X=\text{Female} & n_{21}/n & n_{22}/n & \mathbf{n_{2\cdot}/n} \\\hline\text{合計(周辺分布)} & \mathbf{n_{\cdot 1}/n} & \mathbf{n_{\cdot 2}/n} & 1\end{array}\]

Mathematics is the language with which God has written the universe.





















自然対数の底 コピュラ カイ二乗分布 t分布 独立 同時確率分布