p値と多重検定

統計的仮説検定において、p値は観測データと帰無仮説の整合性を定量化する指標である。また、複数の検定を同時に行う多重検定では、第一種過誤の累積に対する適切な補正が必要となる。

p値の定義

帰無仮説 $H_0$ のもとで、観測された検定統計量 $T_{\text{obs}}$ と同等以上に極端な値が得られる確率を p値という。両側検定の場合、

\[p = P(|T| \geq |T_{\text{obs}}| \mid H_0)\]

片側検定（上側）の場合、

\[p = P(T \geq T_{\text{obs}} \mid H_0)\]

と定義される。

p値と棄却域の関係

有意水準を $\alpha$ とするとき、

\[p < \alpha \iff T_{\text{obs}} \in \text{棄却域}\]

が成立する。すなわち、p値による判断と棄却域による判断は等価である。p値は棄却できる有意水準の下限とも解釈できる。

p値の注意点

p値は $H_0$ が正しい確率ではない
p値は効果量や実質的有意性を示すものではない
標本サイズが大きいほど、小さな差でも $p < \alpha$ となりやすい

多重検定の問題

第一種過誤の累積

有意水準 $\alpha$ のもとで $m$ 個の独立な検定を行うとき、少なくとも一つで誤って帰無仮説を棄却する確率（ファミリーワイズ誤り率）は

\[\text{FWER} = 1 - (1 - \alpha)^m\]

となり、$m$ の増加とともに急速に大きくなる。たとえば $\alpha = 0.05$、$m = 20$ のとき、

\[\text{FWER} = 1 - 0.95^{20} \approx 0.64\]

となり、無補正では第一種過誤が著しく膨らむ。

補正法：FWER の制御

Bonferroni 補正

各検定の有意水準を

\[\alpha' = \frac{\alpha}{m}\]

に設定する。Union bound により、

\[\text{FWER} \leq m \cdot \frac{\alpha}{m} = \alpha\]

が保証される。保守的であるが、検定間の依存関係を問わず適用できる。

Holm 法

p値を昇順に並べ $p_{(1)} \leq p_{(2)} \leq \cdots \leq p_{(m)}$ とし、

\[p_{(k)} < \frac{\alpha}{m - k + 1}\]

を満たす最大の $k$ まで棄却する逐次手続きである。Bonferroni 補正より検出力が高く、同様に FWER を制御する。

補正法：FDR の制御

偽発見率（FDR）

多数の検定を行う場面では、FWER の制御は過度に保守的となることがある。そこで偽発見率

\[\text{FDR} = E\!\left[\frac{V}{R}\right]\]

を制御する枠組みが用いられる。ここで $V$ は誤って棄却した帰無仮説の数、$R$ は棄却した仮説の総数である（$R = 0$ のとき $V/R = 0$ と定義する）。

Benjamini–Hochberg 法

p値を昇順に並べ $p_{(1)} \leq \cdots \leq p_{(m)}$ とし、

\[p_{(k)} \leq \frac{k}{m} \cdot \alpha\]

を満たす最大の $k$ を $k^*$ として、$p_{(1)}, \dots, p_{(k^*)}$ に対応する仮説をすべて棄却する。独立な検定のもとで $\text{FDR} \leq \alpha$ が保証される。

FWER と FDR の比較

FWER 制御は一つの誤棄却も避けたい場面（臨床試験など）に適する
FDR 制御は多数の仮説を探索的に検定する場面（ゲノム解析など）に適する
FDR 制御は FWER 制御より検出力が高いが、誤棄却をある割合で許容する

まとめ

p値は帰無仮説のもとで観測データの極端さを定量化する指標であり、有意水準との比較により意思決定を行う。複数の検定を同時に行う多重検定では第一種過誤が累積するため、目的に応じて FWER（Bonferroni 補正・Holm 法）または FDR（Benjamini–Hochberg 法）を制御する補正手続きを適用することが重要である。

Mathematics is the language with which God has written the universe.

単純線形回帰最小二乗法重回帰モデルと行列表現ガウス・マルコフの定理回帰係数の検定と信頼区間