統計的仮説検定において、p値は観測データと帰無仮説の整合性を定量化する指標である。また、複数の検定を同時に行う多重検定では、第一種過誤の累積に対する適切な補正が必要となる。
帰無仮説 $H_0$ のもとで、観測された検定統計量 $T_{\text{obs}}$ と同等以上に極端な値が得られる確率を p値という。両側検定の場合、
\[p = P(|T| \geq |T_{\text{obs}}| \mid H_0)\]
片側検定(上側)の場合、
\[p = P(T \geq T_{\text{obs}} \mid H_0)\]
と定義される。
有意水準を $\alpha$ とするとき、
\[p < \alpha \iff T_{\text{obs}} \in \text{棄却域}\]
が成立する。すなわち、p値による判断と棄却域による判断は等価である。p値は棄却できる有意水準の下限とも解釈できる。
有意水準 $\alpha$ のもとで $m$ 個の独立な検定を行うとき、少なくとも一つで誤って帰無仮説を棄却する確率(ファミリーワイズ誤り率)は
\[\text{FWER} = 1 - (1 - \alpha)^m\]
となり、$m$ の増加とともに急速に大きくなる。たとえば $\alpha = 0.05$、$m = 20$ のとき、
\[\text{FWER} = 1 - 0.95^{20} \approx 0.64\]
となり、無補正では第一種過誤が著しく膨らむ。
各検定の有意水準を
\[\alpha' = \frac{\alpha}{m}\]
に設定する。Union bound により、
\[\text{FWER} \leq m \cdot \frac{\alpha}{m} = \alpha\]
が保証される。保守的であるが、検定間の依存関係を問わず適用できる。
p値を昇順に並べ $p_{(1)} \leq p_{(2)} \leq \cdots \leq p_{(m)}$ とし、
\[p_{(k)} < \frac{\alpha}{m - k + 1}\]
を満たす最大の $k$ まで棄却する逐次手続きである。Bonferroni 補正より検出力が高く、同様に FWER を制御する。
多数の検定を行う場面では、FWER の制御は過度に保守的となることがある。そこで偽発見率
\[\text{FDR} = E\!\left[\frac{V}{R}\right]\]
を制御する枠組みが用いられる。ここで $V$ は誤って棄却した帰無仮説の数、$R$ は棄却した仮説の総数である($R = 0$ のとき $V/R = 0$ と定義する)。
p値を昇順に並べ $p_{(1)} \leq \cdots \leq p_{(m)}$ とし、
\[p_{(k)} \leq \frac{k}{m} \cdot \alpha\]
を満たす最大の $k$ を $k^*$ として、$p_{(1)}, \dots, p_{(k^*)}$ に対応する仮説をすべて棄却する。独立な検定のもとで $\text{FDR} \leq \alpha$ が保証される。
p値は帰無仮説のもとで観測データの極端さを定量化する指標であり、有意水準との比較により意思決定を行う。複数の検定を同時に行う多重検定では第一種過誤が累積するため、目的に応じて FWER(Bonferroni 補正・Holm 法)または FDR(Benjamini–Hochberg 法)を制御する補正手続きを適用することが重要である。
Mathematics is the language with which God has written the universe.