単純線形回帰

単純線形回帰は、一つの説明変数と一つの目的変数の間の線形関係をモデル化する手法である。最小二乗法により回帰係数を推定し、その性質や推測を正規誤差の仮定のもとで展開する。

モデルの設定

観測値 $(x_i, Y_i)$，$i = 1, \dots, n$ に対して

\[Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\]

を仮定する。ここで $\beta_0$ は切片、$\beta_1$ は傾き、誤差項は

\[\varepsilon_i \sim \mathcal{N}(0, \sigma^2) \quad \text{i.i.d.}\]

とする。説明変数 $x_i$ は確定的な定数とみなす。

最小二乗推定量

導出

残差二乗和

\[S(\beta_0, \beta_1) = \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 x_i)^2\]

を最小化することで、回帰係数の推定量を得る。偏微分をゼロとおいた正規方程式を解くと、

\[\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x}\]

となる。ここで

\[S_{xx} = \sum_{i=1}^n (x_i - \bar{x})^2, \quad S_{xy} = \sum_{i=1}^n (x_i - \bar{x})(Y_i - \bar{Y})\]

である。

推定量の性質

Gauss–Markov の定理より、$\hat{\beta}_0$、$\hat{\beta}_1$ は線形不偏推定量のクラスの中で分散最小（BLUE）である。また正規誤差の仮定のもとで、

\[\hat{\beta}_1 \sim \mathcal{N}\!\left(\beta_1,\ \frac{\sigma^2}{S_{xx}}\right), \quad \hat{\beta}_0 \sim \mathcal{N}\!\left(\beta_0,\ \sigma^2\left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)\right)\]

が成立する。

誤差分散の推定

残差を $\hat{\varepsilon}_i = Y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i$ とおくと、残差二乗和

\[RSS = \sum_{i=1}^n \hat{\varepsilon}_i^2\]

に基づく不偏推定量は

\[\hat{\sigma}^2 = \frac{RSS}{n-2}\]

であり、

\[\frac{RSS}{\sigma^2} \sim \chi^2(n-2)\]

が成立する。自由度が $n-2$ となるのは、推定したパラメータが $\beta_0$、$\beta_1$ の二つであるためである。

回帰係数の検定と信頼区間

検定統計量

$\beta_1$ に関する帰無仮説 $H_0 : \beta_1 = 0$ の検定統計量は

\[T = \frac{\hat{\beta}_1}{\hat{\sigma}/\sqrt{S_{xx}}} \sim t(n-2)\]

であり、$|T| > t_{\alpha/2,\, n-2}$ のとき帰無仮説を棄却する。$H_0 : \beta_1 = 0$ の棄却は、説明変数が目的変数に対して線形の影響を持つことを意味する。

信頼区間

$\beta_1$ の $100(1-\alpha)\%$ 信頼区間は

\[\hat{\beta}_1 \pm t_{\alpha/2,\, n-2} \cdot \frac{\hat{\sigma}}{\sqrt{S_{xx}}}\]

で与えられる。

分散分析表と決定係数

変動の分解

目的変数の全変動は回帰による変動と残差変動に直交分解される：

\[\underbrace{\sum_{i=1}^n (Y_i - \bar{Y})^2}_{SST} = \underbrace{\sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2}_{SSR} + \underbrace{\sum_{i=1}^n \hat{\varepsilon}_i^2}_{RSS}\]

決定係数

回帰モデルの当てはまりの良さを示す指標として、

\[R^2 = \frac{SSR}{SST} = 1 - \frac{RSS}{SST}\]

が用いられる。$0 \leq R^2 \leq 1$ であり、単純線形回帰では $R^2$ は説明変数と目的変数のピアソン相関係数の二乗に一致する。

F検定による回帰の有意性

回帰全体の有意性は

\[F = \frac{SSR/1}{RSS/(n-2)} \sim F(1,\, n-2)\]

によって検定される。単純線形回帰では、このF検定は $\beta_1$ に関するt検定と等価であり、$F = T^2$ が成立する。

予測と予測区間

新たな点 $x^*$ における目的変数の予測値は $\hat{Y}^* = \hat{\beta}_0 + \hat{\beta}_1 x^*$ であり、その $100(1-\alpha)\%$ 予測区間は

\[\hat{Y}^* \pm t_{\alpha/2,\, n-2} \cdot \hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{S_{xx}}}\]

で与えられる。根号内の $1$ は個々の観測のばらつきに、残りの項は $\hat{Y}^*$ の推定誤差に対応する。

まとめ

単純線形回帰では、最小二乗法により回帰係数を推定し、正規誤差の仮定のもとでt検定・F検定による有意性の評価と信頼・予測区間の構成が可能となる。決定係数 $R^2$ はモデルの当てはまりを要約する指標であり、回帰分析の結果を総合的に解釈する上で重要な役割を担う。

Mathematics is the language with which God has written the universe.

最小二乗法重回帰モデルと行列表現ガウス・マルコフの定理回帰係数の検定と信頼区間モデル選択（AIC・BIC）