指数型分布族(Exponential Family)は正規分布・ベルヌーイ分布・ポアソン分布・ガンマ分布など統計学において中心的な役割を果たす分布族を統一的な数学的枠組みで記述するクラスである。最尤推定・十分統計量・共役事前分布・一般化線形モデル・情報幾何学の理論的基盤を提供し、統計的学習理論全体を貫く構造的な概念である。
可測空間 $(\mathcal{X}, \mathcal{B}(\mathcal{X}))$ 上の$\sigma$-有限基準測度 $\nu$(ルベーグ測度または計数測度)を固定する。パラメータ空間を $\Theta \subseteq \mathbb{R}^k$ とし、確率密度(または確率質量)関数の族 $\{p(\cdot\,;\boldsymbol{\theta}) : \boldsymbol{\theta} \in \Theta\}$を考える。
分布族 $\{P_{\boldsymbol{\eta}}\}$ が$k$ 次元指数型分布族であるとは、Radon–Nikodym 密度が
\[p(\boldsymbol{x}; \boldsymbol{\eta})= h(\boldsymbol{x})\exp\!\left(\boldsymbol{\eta}^\top T(\boldsymbol{x}) - A(\boldsymbol{\eta})\right)\]の形に書けることをいう。各要素の定義と役割を以下に示す。
自然パラメータ空間 $\mathcal{H}$ は
\[\mathcal{H}= \left\{\boldsymbol{\eta} \in \mathbb{R}^k :\int_{\mathcal{X}} h(\boldsymbol{x})\exp(\boldsymbol{\eta}^\top T(\boldsymbol{x}))\,d\nu(\boldsymbol{x})< \infty \right\}\]と定義され、$\mathcal{H}$ は凸集合である。$\mathcal{H}$ が開集合のとき正則指数型分布族(Regular Exponential Family)と呼ぶ。本節では特に断らない限り正則な場合を扱う。
十分統計量 $T(\boldsymbol{x}) \in \mathbb{R}^k$ のうちいずれかが他のアフィン結合で表せる場合、表現は過剰(Overcomplete)であるという。過剰表現では自然パラメータが一意に定まらないため、識別可能性が失われる。どの成分も他のアフィン結合で表せない場合を最小表現(Minimal Representation)と呼び、この条件のもとで $\boldsymbol{\eta}$ と分布の対応が一意(単射)になる。多項分布の確率パラメータ $\boldsymbol{p} = (p_1,\ldots,p_K)$ に対して$\sum_k p_k = 1$ の制約があるため、$K-1$ 次元の最小表現を用いることが標準的である。
十分統計量の期待値
\[\boldsymbol{\mu}= \mathbb{E}_{\boldsymbol{\eta}}[T(\boldsymbol{X})]= \nabla A(\boldsymbol{\eta})\]を平均パラメータ(Mean Parameter)と呼ぶ(後述の対数分配関数の微分との関係から直ちに導かれる)。写像 $\boldsymbol{\eta} \mapsto \boldsymbol{\mu} = \nabla A(\boldsymbol{\eta})$ は$A$ の凸性(後述)から単調であり、正則指数型分布族では $\boldsymbol{\eta}$ と $\boldsymbol{\mu}$ の間に一対一対応が成立する(Legendre 変換の全射性)。平均パラメータを用いた分布族の再パラメータ化はGLM における期待値パラメータ($\mu_i = \mathbb{E}[Y_i \mid \boldsymbol{x}_i]$)の表現と整合する。
定理:$A(\boldsymbol{\eta})$ は自然パラメータ空間 $\mathcal{H}$(凸集合)上で凸かつ解析的(実解析的)である。
証明の概略(凸性):任意の $\boldsymbol{\eta}_1, \boldsymbol{\eta}_2 \in \mathcal{H}$ と$\lambda \in [0,1]$ に対して
\[\exp(A(\lambda\boldsymbol{\eta}_1 + (1-\lambda)\boldsymbol{\eta}_2))= \int h(\boldsymbol{x})\exp((\lambda\boldsymbol{\eta}_1 + (1-\lambda)\boldsymbol{\eta}_2)^\top T(\boldsymbol{x}))\,d\nu\]\[\leq \left(\int h(\boldsymbol{x})e^{\boldsymbol{\eta}_1^\top T(\boldsymbol{x})}\,d\nu\right)^{\!\lambda}\!\left(\int h(\boldsymbol{x})e^{\boldsymbol{\eta}_2^\top T(\boldsymbol{x})}\,d\nu\right)^{\!1-\lambda}= e^{\lambda A(\boldsymbol{\eta}_1) + (1-\lambda)A(\boldsymbol{\eta}_2)}\]第一の不等式は Hölder の不等式による。両辺の対数を取ると$A(\lambda\boldsymbol{\eta}_1 + (1-\lambda)\boldsymbol{\eta}_2)\leq \lambda A(\boldsymbol{\eta}_1) + (1-\lambda)A(\boldsymbol{\eta}_2)$ が得られ、$A$ の凸性が示される。$\square$
$A$ が狭義凸となるのは最小表現の場合であり、このとき $\nabla^2 A(\boldsymbol{\eta}) \succ 0$ が成立する。
$A(\boldsymbol{\eta})$ の $\boldsymbol{\eta}$ に関する微分は十分統計量のキュムラントを与える。微分と積分の交換(優収束定理により正当化)を用いると:
\[\nabla_{\boldsymbol{\eta}} A(\boldsymbol{\eta})= \mathbb{E}_{\boldsymbol{\eta}}[T(\boldsymbol{X})]= \boldsymbol{\mu}\]\[\nabla_{\boldsymbol{\eta}}^2 A(\boldsymbol{\eta})= \mathrm{Cov}_{\boldsymbol{\eta}}(T(\boldsymbol{X}))= \mathbb{E}_{\boldsymbol{\eta}}[T(\boldsymbol{X})T(\boldsymbol{X})^\top]- \boldsymbol{\mu}\boldsymbol{\mu}^\top\]すなわち $A$ の勾配が平均、ヘッセ行列が共分散行列を与える。この関係はスコア関数の期待値がゼロ$(\mathbb{E}[\nabla_{\boldsymbol{\eta}}\log p] = \boldsymbol{0})$という事実と整合する。さらに高次の微分は高次キュムラントを与え、$A$ が十分統計量のキュムラント母関数(Cumulant Generating Function)として機能することが分かる。
共分散行列 $\nabla^2 A(\boldsymbol{\eta}) \succeq 0$ の正半定値性は$A$ の凸性と等価であり、最小表現では $\nabla^2 A(\boldsymbol{\eta}) \succ 0$ となる。この正定値性はフィッシャー情報行列との関係に直結する(後述)。
スコア関数(対数尤度の勾配)は
\[\nabla_{\boldsymbol{\eta}} \log p(\boldsymbol{x}; \boldsymbol{\eta})= T(\boldsymbol{x}) - \nabla A(\boldsymbol{\eta})= T(\boldsymbol{x}) - \boldsymbol{\mu}\]と表される。スコアの期待値がゼロ($\mathbb{E}[\nabla\log p] = \boldsymbol{0}$)は$\mathbb{E}[T(\boldsymbol{X})] = \nabla A(\boldsymbol{\eta}) = \boldsymbol{\mu}$ から自明に成立する。フィッシャー情報行列は
\[\mathcal{I}(\boldsymbol{\eta})= \mathrm{Cov}_{\boldsymbol{\eta}}\!\bigl(\nabla_{\boldsymbol{\eta}}\log p(\boldsymbol{X};\boldsymbol{\eta})\bigr)= \mathrm{Cov}_{\boldsymbol{\eta}}(T(\boldsymbol{X}))= \nabla^2 A(\boldsymbol{\eta})\]となり、対数分配関数のヘッセ行列に一致する。これは指数型分布族の最も深い構造的性質の一つであり、クラメール・ラオ下界 $\mathrm{Cov}(\hat{\boldsymbol{\eta}}) \succeq \mathcal{I}(\boldsymbol{\eta})^{-1}= [\nabla^2 A(\boldsymbol{\eta})]^{-1}$ を対数分配関数の曲率から直接計算できることを意味する。情報幾何学では $\mathcal{I}(\boldsymbol{\eta})$ が分布空間上のリーマン計量(フィッシャー計量)を定義し、統計多様体の幾何学的構造を記述する。
統計量 $T(\boldsymbol{X})$ が $\boldsymbol{\theta}$ に関して十分(Sufficient)であるとは、$T(\boldsymbol{X}) = t$ を与えたときの $\boldsymbol{X}$ の条件付き分布が$\boldsymbol{\theta}$ に依存しないことをいう(測度論的確率の条件付き分布の意味で)。
Neyman–Fisher の因子分解定理:$T(\boldsymbol{X})$ が $\boldsymbol{\theta}$ について十分であることと、密度関数が
\[p(\boldsymbol{x}; \boldsymbol{\theta})= g(T(\boldsymbol{x}), \boldsymbol{\theta}) \cdot h(\boldsymbol{x})\]と分解できることは同値である。指数型分布族では $g(T(\boldsymbol{x}), \boldsymbol{\eta}) = \exp(\boldsymbol{\eta}^\top T(\boldsymbol{x}) - A(\boldsymbol{\eta}))$と明示的に書けるから、$T(\boldsymbol{X})$ は常に十分統計量である。
十分統計量の中で最も情報を圧縮したものを最小十分統計量(Minimal Sufficient Statistic)と呼ぶ。正則指数型分布族(最小表現)において、自然十分統計量 $T(\boldsymbol{X})$ は最小十分統計量である。
統計量 $T(\boldsymbol{X})$ が完備(Complete)であるとは、
\[\mathbb{E}_{\boldsymbol{\theta}}[g(T(\boldsymbol{X}))] = 0\quad \forall \boldsymbol{\theta}\implies g \equiv 0 \quad \text{(a.e.)}\]が成立することをいう。正則指数型分布族の最小十分統計量は完備である(Bahadur の定理)。完備性と十分性を組み合わせると Rao–Blackwell 定理と Lehmann–Scheffé 定理により、完備十分統計量の関数として表される不偏推定量が一様最小分散不偏推定量(UMVUE)となる。
i.i.d. 標本 $\boldsymbol{x}_1, \ldots, \boldsymbol{x}_n$ に基づく対数尤度は
\[\ell(\boldsymbol{\eta})= \sum_{i=1}^n \log p(\boldsymbol{x}_i; \boldsymbol{\eta})= \boldsymbol{\eta}^\top \sum_{i=1}^n T(\boldsymbol{x}_i)- n A(\boldsymbol{\eta})+ \sum_{i=1}^n \log h(\boldsymbol{x}_i)\]と書ける。$A(\boldsymbol{\eta})$ の凸性より $-\ell(\boldsymbol{\eta})$ は凸であり(狭義凸とは限らない)、最小表現では狭義凸であるから MLE は存在すれば一意である。
MLE のスコア方程式は
\[\nabla_{\boldsymbol{\eta}} \ell(\boldsymbol{\eta}) = \boldsymbol{0}\iff \sum_{i=1}^n T(\boldsymbol{x}_i) = n\nabla A(\boldsymbol{\eta})\iff \bar{T}_n = \nabla A(\hat{\boldsymbol{\eta}})\iff \hat{\boldsymbol{\mu}} = \bar{T}_n\]すなわち十分統計量の標本平均が平均パラメータの MLE に一致するという極めて簡潔な条件が得られる($\bar{T}_n = \frac{1}{n}\sum_{i=1}^n T(\boldsymbol{x}_i)$)。これは「モーメント条件」と呼ばれ、指数型分布族における MLE の本質的な特徴である。$\nabla A$ の逆写像 $(\nabla A)^{-1}$ が存在するとき$\hat{\boldsymbol{\eta}} = (\nabla A)^{-1}(\bar{T}_n)$ として明示的に表される。
正則指数型分布族において MLE は以下の性質を持つ:
指数型分布族の尤度 $p(\boldsymbol{x};\boldsymbol{\eta})$ に対して、共役事前分布(Conjugate Prior)は
\[\pi(\boldsymbol{\eta}; \boldsymbol{\chi}, \nu)\propto \exp\!\left(\boldsymbol{\eta}^\top \boldsymbol{\chi} - \nu A(\boldsymbol{\eta})\right)\]の形で定義される($\boldsymbol{\chi} \in \mathbb{R}^k$、$\nu > 0$ は超パラメータ)。$n$ 個の i.i.d. 観測 $\boldsymbol{x}_1,\ldots,\boldsymbol{x}_n$ が与えられたとき、事後分布は
\[\pi(\boldsymbol{\eta} \mid \boldsymbol{x}_1, \ldots, \boldsymbol{x}_n)\propto \exp\!\left(\boldsymbol{\eta}^\top\!\left(\boldsymbol{\chi} + \sum_{i=1}^n T(\boldsymbol{x}_i)\right)- (\nu + n)A(\boldsymbol{\eta})\right)\]となり、超パラメータが $(\boldsymbol{\chi}, \nu) \to (\boldsymbol{\chi} + \sum_i T(\boldsymbol{x}_i),\, \nu + n)$と更新されるだけで事後分布が同一の関数形に属する。これが指数型分布族の共役事前分布が常に存在し、逐次ベイズ更新が閉形式で実行できる理由である。
超パラメータ $\boldsymbol{\chi}$ と $\nu$ の解釈は、$\nu$ 個の疑似観測(仮想データ)から十分統計量の和として $\boldsymbol{\chi}$ が得られた事前情報と対応する。$\nu \to 0$($\boldsymbol{\chi} \to \boldsymbol{0}$)は無情報事前分布(Jeffreys 事前分布の近似)に対応し、$\nu \to \infty$ は事前分布が支配的な強情報事前分布に対応する。
共役事前分布のもとでの事後平均は
\[\mathbb{E}[\boldsymbol{\mu} \mid \boldsymbol{x}_1,\ldots,\boldsymbol{x}_n]= \nabla A\!\left(\frac{\boldsymbol{\chi} + \sum_i T(\boldsymbol{x}_i)}{\nu + n}\right)\]と書けるが、一般には閉形式にならない。しかし平均パラメータ $\boldsymbol{\mu} = \nabla A(\boldsymbol{\eta})$ について見ると、事後平均は事前の「平均的観測」$\boldsymbol{\chi}/\nu$ と標本平均 $\bar{T}_n = \sum_i T(\boldsymbol{x}_i)/n$ の加重平均として
\[\hat{\boldsymbol{\mu}}_{\mathrm{Bayes}}= \frac{\nu}{\nu + n}\cdot\frac{\boldsymbol{\chi}}{\nu}+ \frac{n}{\nu + n}\cdot\bar{T}_n\]と表される場合がある(正規分布等の特殊ケース)。$n \to \infty$ で $\hat{\boldsymbol{\mu}}_{\mathrm{Bayes}} \to \bar{T}_n$(MLE)に収束し、Bernstein–von Mises 定理の具体例となる。MAP 推定量は共役事前分布の場合、$\ell_2$ 正則化(ガウス事前分布)や $\ell_1$ 正則化(ラプラス事前分布)との対応を通じて正則化付き MLE として解釈できる。
| 分布 | 自然パラメータ $\boldsymbol{\eta}$ | 十分統計量 $T(\boldsymbol{x})$ | 対数分配関数 $A(\boldsymbol{\eta})$ | 基底測度 $h(\boldsymbol{x})$ | 共役事前分布 |
|---|---|---|---|---|---|
| 正規分布 $\mathcal{N}(\mu,\sigma^2)$($\sigma^2$ 既知) | $\mu/\sigma^2$ | $x$ | $\eta^2\sigma^2/2$ | $(2\pi\sigma^2)^{-1/2}e^{-x^2/(2\sigma^2)}$ | 正規分布 |
| 正規分布 $\mathcal{N}(\mu,\sigma^2)$(両パラメータ未知) | $(\mu/\sigma^2,\,-1/(2\sigma^2))^\top$ | $(x,\,x^2)^\top$ | $-\eta_1^2/(4\eta_2) - \frac{1}{2}\log(-2\eta_2)$ | $(2\pi)^{-1/2}$ | 正規逆ガンマ分布 |
| ベルヌーイ分布 $\mathrm{Ber}(p)$ | $\log\frac{p}{1-p}$(ロジット) | $x$ | $\log(1+e^\eta)$ | $1$ | ベータ分布 |
| ポアソン分布 $\mathrm{Poi}(\lambda)$ | $\log\lambda$ | $x$ | $e^\eta$ | $1/x!$ | ガンマ分布 |
| 指数分布 $\mathrm{Exp}(\lambda)$ | $-\lambda$ | $x$ | $-\log(-\eta)$ | $1$ | ガンマ分布 |
| ガンマ分布 $\mathrm{Gamma}(\alpha,\beta)$($\alpha$ 既知) | $-\beta$ | $x$ | $-\alpha\log(-\eta)$ | $x^{\alpha-1}/\Gamma(\alpha)$ | ガンマ分布 |
| ベータ分布 $\mathrm{Beta}(\alpha,\beta)$ | $(\alpha-1,\,\beta-1)^\top$ | $(\log x,\,\log(1-x))^\top$ | $\log B(\eta_1\!+\!1, \eta_2\!+\!1)$ | $1$ | — |
| 多項分布 $\mathrm{Mult}(n,\boldsymbol{p})$ | $(\log(p_k/p_K))_{k=1}^{K-1}$ | $(x_1,\ldots,x_{K-1})^\top$ | $n\log(1+\sum_{k=1}^{K-1}e^{\eta_k})$ | $\binom{n}{x_1\cdots x_K}$ | ディリクレ分布 |
| 多変量正規分布 $\mathcal{N}(\boldsymbol{\mu},\Sigma)$ | $(\Sigma^{-1}\boldsymbol{\mu},\,-\frac{1}{2}\Sigma^{-1})$ | $(\boldsymbol{x},\,\boldsymbol{x}\boldsymbol{x}^\top)$ | $\frac{1}{2}\boldsymbol{\mu}^\top\Sigma^{-1}\boldsymbol{\mu} + \frac{1}{2}\log|\Sigma|$ | $(2\pi)^{-p/2}$ | 正規逆ウィシャート分布 |
同一の指数型分布族に属する二つの分布$P_{\boldsymbol{\eta}}$ と $P_{\boldsymbol{\eta}'}$ の間のKL ダイバージェンスは
\[\mathrm{KL}(P_{\boldsymbol{\eta}} \| P_{\boldsymbol{\eta}'})= A(\boldsymbol{\eta}') - A(\boldsymbol{\eta})- \langle \nabla A(\boldsymbol{\eta}),\, \boldsymbol{\eta}' - \boldsymbol{\eta} \rangle\]と表される。右辺は凸関数 $A$ のBregman ダイバージェンス$B_A(\boldsymbol{\eta}' \| \boldsymbol{\eta})$ に他ならず、KL ダイバージェンスが対数分配関数による Bregman ダイバージェンスと一致するという指数型分布族の深い構造を示している。
Bregman ダイバージェンス $B_A(\boldsymbol{\eta}' \| \boldsymbol{\eta})$ は凸関数 $A$ の接超平面と関数値の差であり、$A$ の凸性から $B_A \geq 0$(等号は $\boldsymbol{\eta} = \boldsymbol{\eta}'$ のとき)が保証される。これは KL ダイバージェンスの非負性(情報不等式)の指数型分布族での証明を与える。また KL ダイバージェンスの平均パラメータ表現として
\[\mathrm{KL}(P_{\boldsymbol{\eta}} \| P_{\boldsymbol{\eta}'})= B_{A^*}(\boldsymbol{\mu}' \| \boldsymbol{\mu})\]が成立する($A^*$ は $A$ の凸共役、$\boldsymbol{\mu} = \nabla A(\boldsymbol{\eta})$)。これは MLE(KL 最小化)が平均パラメータ空間での Bregman 射影として解釈できることを示す。
指数型分布族は最大エントロピー原理(Maximum Entropy Principle)の自然な帰結として導出できる。十分統計量の期待値に対するモーメント制約$\mathbb{E}[T(\boldsymbol{X})] = \boldsymbol{\mu}_0$(固定値)のもとで微分エントロピー $H(P) = -\int p\log p\,d\nu$ を最大化する分布は、ラグランジュ乗数法により
\[p^*(\boldsymbol{x}) \propto h(\boldsymbol{x})\exp(\boldsymbol{\lambda}^\top T(\boldsymbol{x}))\]の形(すなわち指数型分布族)になることが示される。たとえば平均 $\mu$ と分散 $\sigma^2$ を固定したもとでエントロピーを最大化する分布は正規分布 $\mathcal{N}(\mu, \sigma^2)$ であり、平均 $\lambda$ を固定したもとで非負整数値分布のエントロピーを最大化するとポアソン分布 $\mathrm{Poi}(\lambda)$ が得られる。この意味で指数型分布族は「制約条件のもとで最も無情報な分布族」として特徴づけられる。
GLM(前節)は指数型分布族の正準形を確率成分として用いており、本節の理論が直接基礎を与える。具体的な接続を整理すると以下の通りである。
指数型分布族は情報幾何学(Amari, 1985)において中心的な対象である。自然パラメータ空間 $\mathcal{H}$ 上にフィッシャー計量$g_{ij}(\boldsymbol{\eta}) = \partial^2 A(\boldsymbol{\eta})/\partial\eta_i\partial\eta_j$を定義することで、分布族が統計多様体(Statistical Manifold)の構造を持つ。
指数型分布族上には二種類の双対な平坦接続($e$-接続と $m$-接続)が定義され、自然パラメータ $\boldsymbol{\eta}$ が $e$-平坦座標系、平均パラメータ $\boldsymbol{\mu}$ が $m$-平坦座標系を与える。この双対平坦構造のもとで、MLE は $m$-測地線に沿った射影として、EM アルゴリズムは $e$-射影と $m$-射影の交互適用として解釈される。また KL ダイバージェンスの非対称性は双対接続の非対称性に対応し、$\mathrm{KL}(P\|Q) \neq \mathrm{KL}(Q\|P)$ は$e$-射影と $m$-射影が一般に異なることを反映している。
指数型分布族は自然パラメータ・十分統計量・対数分配関数・基底測度の四要素で定義される分布のクラスであり、その構造は統計学・機械学習・情報理論の広範な理論を統合する。対数分配関数 $A(\boldsymbol{\eta})$ の凸性はキュムラント母関数としての役割を通じて平均・分散・フィッシャー情報行列をすべて統一的に記述し、MLE のスコア方程式が「十分統計量の標本平均 $=$ 平均パラメータ」という簡潔な形になることを保証する。十分統計量の完備性は UMVUE の構成を可能にし、共役事前分布との組み合わせは閉形式のベイズ更新を実現する。KL ダイバージェンスと Bregman ダイバージェンスの一致はMLE の情報幾何学的解釈を与え、最大エントロピー原理は指数型分布族が制約のもとで最も無情報な分布族として自然に現れることを示す。GLM・EM アルゴリズム・変分推論・確率的最適化など現代の統計的機械学習の中核的アルゴリズムはすべて指数型分布族の構造を本質的に利用しており、本節の理論はその統一的な理解の基礎を提供する。
Mathematics is the language with which God has written the universe.