単純線形回帰は、一つの説明変数と一つの目的変数の間の線形関係をモデル化する手法である。最小二乗法により回帰係数を推定し、その性質や推測を正規誤差の仮定のもとで展開する。
観測値 $(x_i, Y_i)$,$i = 1, \dots, n$ に対して
\[Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\]
を仮定する。ここで $\beta_0$ は切片、$\beta_1$ は傾き、誤差項は
\[\varepsilon_i \sim \mathcal{N}(0, \sigma^2) \quad \text{i.i.d.}\]
とする。説明変数 $x_i$ は確定的な定数とみなす。
残差二乗和
\[S(\beta_0, \beta_1) = \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 x_i)^2\]
を最小化することで、回帰係数の推定量を得る。偏微分をゼロとおいた正規方程式を解くと、
\[\hat{\beta}_1 = \frac{S_{xy}}{S_{xx}}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x}\]
となる。ここで
\[S_{xx} = \sum_{i=1}^n (x_i - \bar{x})^2, \quad S_{xy} = \sum_{i=1}^n (x_i - \bar{x})(Y_i - \bar{Y})\]
である。
Gauss–Markov の定理より、$\hat{\beta}_0$、$\hat{\beta}_1$ は線形不偏推定量のクラスの中で分散最小(BLUE)である。また正規誤差の仮定のもとで、
\[\hat{\beta}_1 \sim \mathcal{N}\!\left(\beta_1,\ \frac{\sigma^2}{S_{xx}}\right), \quad \hat{\beta}_0 \sim \mathcal{N}\!\left(\beta_0,\ \sigma^2\left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)\right)\]
が成立する。
残差を $\hat{\varepsilon}_i = Y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i$ とおくと、残差二乗和
\[RSS = \sum_{i=1}^n \hat{\varepsilon}_i^2\]
に基づく不偏推定量は
\[\hat{\sigma}^2 = \frac{RSS}{n-2}\]
であり、
\[\frac{RSS}{\sigma^2} \sim \chi^2(n-2)\]
が成立する。自由度が $n-2$ となるのは、推定したパラメータが $\beta_0$、$\beta_1$ の二つであるためである。
$\beta_1$ に関する帰無仮説 $H_0 : \beta_1 = 0$ の検定統計量は
\[T = \frac{\hat{\beta}_1}{\hat{\sigma}/\sqrt{S_{xx}}} \sim t(n-2)\]
であり、$|T| > t_{\alpha/2,\, n-2}$ のとき帰無仮説を棄却する。$H_0 : \beta_1 = 0$ の棄却は、説明変数が目的変数に対して線形の影響を持つことを意味する。
$\beta_1$ の $100(1-\alpha)\%$ 信頼区間は
\[\hat{\beta}_1 \pm t_{\alpha/2,\, n-2} \cdot \frac{\hat{\sigma}}{\sqrt{S_{xx}}}\]
で与えられる。
目的変数の全変動は回帰による変動と残差変動に直交分解される:
\[\underbrace{\sum_{i=1}^n (Y_i - \bar{Y})^2}_{SST} = \underbrace{\sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2}_{SSR} + \underbrace{\sum_{i=1}^n \hat{\varepsilon}_i^2}_{RSS}\]
回帰モデルの当てはまりの良さを示す指標として、
\[R^2 = \frac{SSR}{SST} = 1 - \frac{RSS}{SST}\]
が用いられる。$0 \leq R^2 \leq 1$ であり、単純線形回帰では $R^2$ は説明変数と目的変数のピアソン相関係数の二乗に一致する。
回帰全体の有意性は
\[F = \frac{SSR/1}{RSS/(n-2)} \sim F(1,\, n-2)\]
によって検定される。単純線形回帰では、このF検定は $\beta_1$ に関するt検定と等価であり、$F = T^2$ が成立する。
新たな点 $x^*$ における目的変数の予測値は $\hat{Y}^* = \hat{\beta}_0 + \hat{\beta}_1 x^*$ であり、その $100(1-\alpha)\%$ 予測区間は
\[\hat{Y}^* \pm t_{\alpha/2,\, n-2} \cdot \hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{S_{xx}}}\]
で与えられる。根号内の $1$ は個々の観測のばらつきに、残りの項は $\hat{Y}^*$ の推定誤差に対応する。
単純線形回帰では、最小二乗法により回帰係数を推定し、正規誤差の仮定のもとでt検定・F検定による有意性の評価と信頼・予測区間の構成が可能となる。決定係数 $R^2$ はモデルの当てはまりを要約する指標であり、回帰分析の結果を総合的に解釈する上で重要な役割を担う。
Mathematics is the language with which God has written the universe.