離散分布

Difinition:

離散分布[discrete distribution]とは,可測空間 $(\Omega, \mathcal{F})$ 上の確率測度 $\mathbb{P}$ であって,以下の条件を満たすものである.

高々可算な点集合 $A = \{a_1, a_2, \dots\} \subset \Omega$ が存在
非負実数列 $\{p_i\}_{i=1}^\infty$ が存在し,\[ \sum_{i=1}^\infty p_i = 1 \]を満たす
任意の可測集合 $E \in \mathcal{F}$ に対して,確率測度 $\mathbb{P}$ は次のように与えられる.\[\mathbb{P}(E) = \sum_{i=1}^\infty p_i \cdot \mathbf{1}_E(a_i)\]

すなわち,離散分布とは,基本的な集合[高々可算な点集合]に対して直接確率を定め,それ以外の任意の可測集合に対しては,それらの点に関する確率の和によって測度を定義できるような確率分布である.

このような測度 $\mathbb{P}$ は,Dirac測度 $\delta_{a_i}$ を用いて次のように表すことができる.\[\mathbb{P} = \sum_{i=1}^\infty p_i \cdot \delta_{a_i}\]

離散分布とは,確率変数がとりうる値が有限個または可算無限個の集合に限られる確率分布である.離散分布の特徴は,確率質量関数[PMF: probability mass function]によってその確率が点ごとに具体的に定義される点にある.この分布は,値が離散的で個別の点に集中しているため,積分による連続的な確率密度関数とは対照的である.

離散分布には多様な種類が存在し,それぞれが異なる現象や試行をモデル化するために用いられる.代表的な離散分布には以下のようなものがある.

まず,ベルヌーイ分布は最も単純な離散分布の一つであり,成功確率 $p$ に基づいて結果が「成功[1]」または「失敗[0]」の二つの値のいずれかをとる.この分布は,試行が一回だけ行われる二項試行のモデルである.

次に,二項分布はベルヌーイ試行を $n$ 回繰り返したときの成功回数の分布であり,成功確率 $p$ の独立な試行を複数回行う場合に適用される.これは離散的な成功回数をとり,試行回数や成功確率のパラメータによって形が変わる.

ポアソン分布は,一定の時間や空間における希少事象の発生回数を表す分布として知られている.平均発生率 $\lambda$ のみをパラメータに持ち,単位区間あたりの平均発生数が一定で独立な場合に適用される.この分布は試行回数が無限大に近づき,成功確率が非常に小さい二項分布の極限としても理解される.

幾何分布は,独立なベルヌーイ試行で初めて成功が得られるまでの試行回数を表す分布であり,成功までの待ち時間の離散版ともいえる.これは「初回成功までに失敗が続く回数」をモデル化している.

負の二項分布は,幾何分布の一般化であり,成功回数が $r$ 回に達するまでの試行回数の分布である.成功回数が複数回に設定された場合の成功待ちモデルとして用いられる.

多項分布は,複数のカテゴリが存在する試行において,各カテゴリの発生回数の同時分布を表すものである.ベルヌーイ分布の多カテゴリ版といえ,カテゴリ数とそれぞれの発生確率をパラメータに持つ.

これらの分布は,それぞれ異なる状況や実験・観察のモデル化に適しており,統計学や確率論における基礎的な構成要素となっている.離散分布の知識は,データ解析や機械学習,信頼性工学,情報理論など幅広い分野で応用されている.

離散分布の理解は,確率変数の取りうる値とその確率の関係を具体的に把握し,実際の問題に適した確率モデルを構築する上で不可欠である.

Mathematics is the language with which God has written the universe.

MindsDB 確率測度カタログスターリングの公式ガウス積分オイラー=マクローリン公式