幾何分布

Def:Geometric Distribution

確率空間 $(\Omega, \mathcal{F}, \mathbb{P})$ を与える.ここで独立同分布のベルヌーイ試行列 $(Z_n)_{n \in \mathbb{N}}$ を考える.ただし各試行は確率\[\mathbb{P}(Z_n = 1) = p, \qquad \mathbb{P}(Z_n = 0) = 1-p, \qquad 0 < p < 1\]で与えられるとする.ここで $Z_n=1$ は「第 $n$ 回目の試行が成功」, $Z_n=0$ は「失敗」を意味する. このとき, 最初に成功が現れる試行回数を表す確率変数 $X$ を\[X(\omega) = \inf\{n \in \mathbb{N} : Z_n(\omega) = 1\}\]と定義する[但し, $\inf \emptyset := \infty$ と約束する].

確率変数 $X$ は自然数全体 $\mathbb{N} = \{1,2,3,\dots\}$ を値域として持ち, その分布は次のように表される.任意の $k \in \mathbb{N}$ に対して\[\mathbb{P}(X = k) = (1-p)^{k-1} p.\]この分布を 幾何分布 と呼び, しばしば $X \sim \mathrm{Geom}(p)$ と記す.

幾何分布は, 確率論の体系において最も古典的かつ基本的な離散分布の一つである.ベルヌーイ試行を無限に繰り返すという思考実験を基盤に, 最初に成功が現れるまでに要する試行回数(あるいは失敗回数)を確率変数として捉えることにより, この分布は自然に導かれる.

幾何分布には二つの標準的な定義が存在する.第一の定義では, 成功確率を $p$ としたとき, 最初の成功が第 $k$ 回目に生じる確率は\[\mathbb{P}(X=k) = (1-p)^{k-1}p, \qquad k \in \{1,2,3,\dots\},\]で表され, 値域は正の整数全体 $\{1,2,3,\dots\}$ である.第二の定義では, 最初の成功までに $k$ 回失敗する確率を\[\mathbb{P}(Y=k) = p(1-p)^k, \qquad k \in \{0,1,2,\dots\},\]とし, 値域を非負整数全体とする.以下では第一の定義を基準として説明を進める.

このとき累積分布関数は\[F(k) = \mathbb{P}(X \leq k) = 1-(1-p)^k,\]期待値は $\mathbb{E}[X] = 1/p$, 分散は $\operatorname{Var}(X) = (1-p)/p^2$ である.またモーメント母関数は\[M_X(t) = \frac{pe^t}{1-(1-p)e^t}, \qquad \text{ただし } t < -\ln(1-p),\]で与えられる.第二の定義の場合, すなわち失敗回数を表す場合には期待値 $\mathbb{E}[Y] = (1-p)/p$, 分散 $\operatorname{Var}(Y) = (1-p)/p^2$ となる.成功確率 $p$ が大きいほど平均試行回数は短くなり, 分散も小さくなる.

幾何分布の最も重要な特徴は, その「無記憶性」にある.すでに $m$ 回連続して失敗したことがわかっていても, その後に成功が現れるまでに必要な試行回数の分布は, 最初から試行をやり直した場合と同一である.すなわち, 任意の自然数 $m,n$ に対して\[\mathbb{P}(X > m+n \mid X > m) = \mathbb{P}(X > n)\]が成り立つ.これは「過去にどれだけ失敗したか」という情報が未来の分布に影響しないことを意味し, 連続分布における指数分布の離散的対応物として幾何分布を位置づける根拠となる.

幾何分布は確率過程論や統計的推測の場面でも基盤的な役割を果たす.幾何分布に従う確率変数を $r$ 個独立に加えると負の二項分布が得られる.この事実は「最初の成功」から「$r$ 回目の成功」への一般化を与え, 負の二項分布の自然な導出へとつながる.また, 待ち時間分布としての観点からは, ポアソン過程における事象間隔が指数分布に従うのと並行的に, 離散時間のベルヌーイ過程における事象間隔が幾何分布に従うことが理解される.さらに, 試行間隔を $\Delta t$ とし $p=\lambda \Delta t$ ($\lambda$ は定数)として $\Delta t \to 0$ の極限をとると, 幾何分布は指数分布に収束する.

統計的推測においては, 成功確率 $p$ の最尤推定量は標本 $X_1,\dots,X_n$ に対して\[\hat{p} = \frac{1}{\bar{X}} = \frac{n}{\sum_{i=1}^n X_i}\]で与えられ, これは標本平均の逆数である.

幾何分布は品質管理における初回不良品の出現までの製品数, ネットワーク通信におけるパケット送信の初回成功までの試行回数, 生物学における遺伝子実験での初回突然変異の発生までの世代数, マーケティングにおける広告キャンペーンの初回顧客獲得までの接触回数, 医療における治療効果が現れるまでの投薬回数など, 様々な実践的場面で現れる.

歴史的に見ると, 幾何分布はベルヌーイ家による反復試行の研究の中で暗黙的に現れていた.17世紀から18世紀にかけての確率論の形成期, パスカルやフェルマーの賭けの問題, そしてヤコブ・ベルヌーイの『推測術』(\textit{Ars Conjectandi}, 1713年)における大数の法則の証明に至る研究群の中で, 「試行を繰り返して初めて成功するまで」という考え方が頻繁に現れている.これを明確に分布として扱う視点は19世紀以降の形式的確率論の発展により整備され, 今日では指数分布との対応関係とあわせて教科書的に定式化されている.

このように幾何分布は, 単なる数式上の定義にとどまらず, 確率論の歴史的発展, 確率過程との関係, そして統計的推測や応用数学における基本的な役割を通じて, 理論と応用の双方において重要な位置を占める分布である.その無記憶性という独特な性質は, 離散確率論における中心的概念の一つとして, より高度な確率過程論への橋渡しとしても機能している.

期待値と分散

期待値

期待値の定義より\[\mathbb{E}[X] = \sum_{k=1}^{\infty} k \, \mathbb{P}(X=k)= \sum_{k=1}^{\infty} k (1-p)^{k-1} p.\]$q := 1-p$ とおくと\[\mathbb{E}[X] = p \sum_{k=1}^{\infty} k q^{\,k-1}.\]ここで幾何級数\[S(q) = \sum_{k=0}^{\infty} q^k = \frac{1}{1-q} \quad (|q|<1)\]を考える。項別微分により\[S'(q) = \sum_{k=1}^{\infty} k q^{\,k-1} = \frac{1}{(1-q)^2}.\]したがって\[\mathbb{E}[X] = p \cdot \frac{1}{(1-q)^2}.\]$1-q=p$ を代入して\[\mathbb{E}[X] = p \cdot \frac{1}{p^2} = \frac{1}{p}.\]

分散

二次モーメントは\[\mathbb{E}[X^2] = \sum_{k=1}^{\infty} k^2 \mathbb{P}(X=k)= p \sum_{k=1}^{\infty} k^2 q^{\,k-1}.\]恒等式 $k^2 = k(k-1) + k$ を用いると\[\sum_{k=1}^{\infty} k^2 q^{\,k-1}= \sum_{k=1}^{\infty} k(k-1) q^{\,k-1} + \sum_{k=1}^{\infty} k q^{\,k-1}.\]第一項については\[\sum_{k=1}^{\infty} k(k-1) q^{\,k-1}= q \sum_{k=2}^{\infty} k(k-1) q^{\,k-2}= q S''(q),\]ここで\[S''(q) = \frac{2}{(1-q)^3}.\]したがって\[\sum_{k=1}^{\infty} k^2 q^{\,k-1}= \frac{2q}{(1-q)^3} + \frac{1}{(1-q)^2}.\]分母をそろえて整理すると\[\sum_{k=1}^{\infty} k^2 q^{\,k-1}= \frac{1+q}{(1-q)^3}.\]よって\[\mathbb{E}[X^2] = p \cdot \frac{1+q}{(1-q)^3}.\]$q=1-p$ および $1-q=p$ を代入すると\[\mathbb{E}[X^2] = p \cdot \frac{2-p}{p^3}= \frac{2-p}{p^2}.\]最後に分散は\[\operatorname{Var}(X) = \mathbb{E}[X^2] - \bigl(\mathbb{E}[X]\bigr)^2= \frac{2-p}{p^2} - \left(\frac{1}{p}\right)^2= \frac{1-p}{p^2}.\]

Mathematics is the language with which God has written the universe.





















自然対数の底 中心極限定理 二項係数 二項分布 一様分布 指数分布