t分布

Definition:

自由度 $ \nu > 0 $ のt分布は,確率変数 $ T $ が以下のように定義されたときの分布である.\[T = \frac{Z}{\sqrt{W/\nu}}\]ここで,

  • $ Z \sim N(0,1) $ は標準正規分布に従う確率変数
  • $ W \sim \chi^2_\nu $ は自由度 $ \nu $ のカイ二乗分布に従う確率変数
  • $ Z $ と $ W $ は独立
このときの確率密度関数[pdf]は,\[f_T(t) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu \pi}\,\Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu + 1}{2}}, \quad t \in \mathbb{R}\]である.

導出

t分布は,母分散が未知の場合に正規母集団の平均の標本平均の分布の標準化に用いられる.

確率変数\[T = \frac{Z}{\sqrt{W/\nu}}\]を考える.ここで\[Z \sim N(0,1), \quad W \sim \chi^2_\nu, \quad Z \perp W\]である.

$Z$ と $W$ の密度関数は次のようになる.\[f_Z(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}, \quad z \in \mathbb{R}\]\[f_W(w) = \frac{1}{2^{\nu/2} \Gamma(\nu/2)} w^{\frac{\nu}{2} - 1} e^{-\frac{w}{2}}, \quad w > 0\]次に変数変換を行う.$ T = \frac{Z}{\sqrt{W/\nu}} $ と置く.また,$ V = W $ とおく.

このとき,\[Z = T \sqrt{\frac{V}{\nu}}, \quad W = V\]であり,ヤコビアンは,\[\left| \frac{\partial(z,w)}{\partial(t,v)} \right| = \sqrt{\frac{v}{\nu}}\]となる.

$Z$ と $W$ は独立なので,\[f_{Z,W}(z,w) = f_Z(z) f_W(w)\]よって,\[f_{T,V}(t,v) = f_{Z,W}\left( t \sqrt{\frac{v}{\nu}}, v \right) \times \left| \frac{\partial(z,w)}{\partial(t,v)} \right| = f_Z\left(t \sqrt{\frac{v}{\nu}}\right) f_W(v) \sqrt{\frac{v}{\nu}}\]続いて,$T$ の周辺密度関数を求める.$v > 0$ で積分して\[f_T(t) = \int_0^\infty f_{T,V}(t,v) \, dv = \int_0^\infty f_Z\left(t \sqrt{\frac{v}{\nu}}\right) f_W(v) \sqrt{\frac{v}{\nu}} \, dv\]具体的に書くと,\[f_T(t) = \int_0^\infty \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{t^2 v}{2\nu}\right) \cdot \frac{1}{2^{\nu/2} \Gamma(\nu/2)} v^{\frac{\nu}{2} - 1} e^{-v/2} \cdot \sqrt{\frac{v}{\nu}} \, dv\]これを整理すると,\[f_T(t) = \frac{1}{\sqrt{2\pi} 2^{\nu/2} \Gamma(\nu/2) \sqrt{\nu}} \int_0^\infty v^{\frac{\nu}{2} - 1 + \frac{1}{2}} \exp\left(-v \left(\frac{1}{2} + \frac{t^2}{2\nu}\right)\right) dv\]つまり,\[f_T(t) = \frac{1}{\sqrt{2\pi} 2^{\nu/2} \Gamma(\nu/2) \sqrt{\nu}} \int_0^\infty v^{\frac{\nu + 1}{2} - 1} \exp\left(-v \cdot \frac{1}{2}\left(1 + \frac{t^2}{\nu}\right)\right) dv\]ガンマ関数の積分形を用いると,\[\int_0^\infty x^{\alpha - 1} e^{-\beta x} dx = \frac{\Gamma(\alpha)}{\beta^\alpha} \quad (\alpha > 0, \beta > 0)\]ここで,\[\alpha = \frac{\nu + 1}{2}, \quad \beta = \frac{1}{2} \left(1 + \frac{t^2}{\nu}\right)\]よって,\[f_T(t) = \frac{1}{\sqrt{2\pi} 2^{\nu/2} \Gamma(\nu/2) \sqrt{\nu}} \cdot \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\left(\frac{1}{2}\left(1 + \frac{t^2}{\nu}\right)\right)^{\frac{\nu + 1}{2}}}\]以上を整理すると,\[\int_0^\infty x^{\alpha - 1} e^{-\beta x} dx = \frac{\Gamma(\alpha)}{\beta^\alpha} \quad (\alpha > 0, \beta > 0)\]ここで,\[\alpha = \frac{\nu + 1}{2}, \quad \beta = \frac{1}{2} \left(1 + \frac{t^2}{\nu}\right)\]よって\[f_T(t) = \frac{1}{\sqrt{2\pi} 2^{\nu/2} \Gamma(\nu/2) \sqrt{\nu}} \cdot \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\left(\frac{1}{2}\left(1 + \frac{t^2}{\nu}\right)\right)^{\frac{\nu + 1}{2}}}\]以上より,自由度 $\nu$ のt分布確率密度関数は,\[f_T(t) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu \pi} \, \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu + 1}{2}}, \quad t \in \mathbb{R}\]となる.

小史

19世紀末から20世紀初頭にかけて,統計学は実験データの解析に不可欠な学問として発展しつつあった.しかし当時の統計理論は,母分散が未知の正規母集団からの標本に基づく推定や検定に十分対応できていなかった.特に,標本数が少ない場合の推定理論は未成熟であり,実務上の問題において大きな課題であった.

この問題に最も早く取り組んだのが,アイルランド出身の統計学者ウィリアム・シーリー・ゴセット[William Sealy Gosset]である.彼は1899年にギネス醸造会社[Guinness Brewery]に入社し,品質管理の業務を通じて小標本に関する統計的推測法の必要性を強く認識していた.当時のギネス社の社内規定により,従業員が学術論文を発表する際は匿名またはペンネームを用いることが義務付けられており,ゴセットは「Student[学生]」という名義で論文を公表した.

彼の代表論文「The Probable Error of a Mean」[1908年,Biometrika誌に掲載]では,母分散が未知で標本サイズが小さい場合に,標本平均の標準化統計量が従う分布を初めて導出した.この分布は,標準正規分布とは異なり,自由度[標本サイズから1を引いた値]をパラメータとする分布で,現在「Student's t分布」と呼ばれている.

ゴセットのt分布の発見により,母分散が未知の正規母集団からの小標本に対して,母平均の信頼区間の構築や仮説検定が理論的に正当化された.これは,それまで正規分布の理論だけでは適切に対応できなかった問題に対し,統計学的推定と検定の確固たる理論的基盤を提供した.特に農学,醸造学,医学など,実験で得られる標本数が限られた分野でのデータ解析に革命的な進歩をもたらした.

後にロナルド・A・フィッシャーが1925年の著書「研究者のための統計的方法」でt分布の理論と応用を体系化し,母平均の推定にとどまらず,t検定として単一母平均の検定や二標本t検定として平均値の差の検定へと応用範囲を拡張した.さらにt分布は分散分析や回帰分析における検定統計量の分布としても基盤的な役割を果たし,現代統計学の中核的な位置を占めるに至った.

このように,t分布は20世紀初頭のギネス社における品質管理という実務的課題から生まれ,その後の理論的発展を経て,未知の母分散のもとでの標本平均に関する統計的推測の基礎となる重要な確率分布として確立されたのである.

Mathematics is the language with which God has written the universe.





















自然対数の底 独立 同時確率分布 自由エネルギー 尤度 学習