重回帰モデルは、複数の説明変数を用いて目的変数を線形モデルで記述する枠組みである。行列表現を用いることで、推定・検定・予測に関する理論を簡潔かつ統一的に展開できる。
$n$ 個の観測に対して $p-1$ 個の説明変数を持つ重回帰モデルを
\[Y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_{p-1} x_{i,p-1} + \varepsilon_i, \quad i = 1, \dots, n\]
と定義する。誤差項は
\[\varepsilon_i \sim \mathcal{N}(0, \sigma^2) \quad \text{i.i.d.}\]
を仮定する。
上記のモデルを行列・ベクトルの形式でまとめると、
\[\boldsymbol{Y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}\]
となる。各要素は以下のように定義される:
\[\boldsymbol{Y} = \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix}, \quad X = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1,p-1} \\ 1 & x_{21} & \cdots & x_{2,p-1} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{n,p-1} \end{pmatrix}, \quad \boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_{p-1} \end{pmatrix}, \quad \boldsymbol{\varepsilon} = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}\]
計画行列 $X \in \mathbb{R}^{n \times p}$ の第一列はすべて $1$ であり、切片 $\beta_0$ に対応する。誤差ベクトルの分布は
\[\boldsymbol{\varepsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 I_n)\]
と表される。
残差二乗和 $S(\boldsymbol{\beta}) = \|\boldsymbol{Y} - X\boldsymbol{\beta}\|^2$ を最小化する正規方程式
\[X^\top X \boldsymbol{\beta} = X^\top \boldsymbol{Y}\]
を解くと、$X$ が列フルランクのとき
\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{Y}\]
が一意に定まる。fitted values および残差ベクトルはそれぞれ
\[\hat{\boldsymbol{Y}} = X\hat{\boldsymbol{\beta}} = H\boldsymbol{Y}, \quad \hat{\boldsymbol{\varepsilon}} = \boldsymbol{Y} - \hat{\boldsymbol{Y}} = (I - H)\boldsymbol{Y}\]
と表される。ここで $H = X(X^\top X)^{-1}X^\top$ はハット行列である。
正規誤差の仮定のもとで、
\[\hat{\boldsymbol{\beta}} \sim \mathcal{N}\!\left(\boldsymbol{\beta},\ \sigma^2 (X^\top X)^{-1}\right)\]
が成立する。また誤差分散の不偏推定量は
\[\hat{\sigma}^2 = \frac{\|\hat{\boldsymbol{\varepsilon}}\|^2}{n - p}\]
であり、$\hat{\boldsymbol{\beta}}$ と独立に
\[\frac{(n-p)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-p)\]
が成立する。
$(X^\top X)^{-1}$ の $(j,j)$ 成分を $c_{jj}$ とおくと、$\hat{\beta}_j$ の標準誤差は $\hat{\sigma}\sqrt{c_{jj}}$ であり、帰無仮説 $H_0 : \beta_j = 0$ の検定統計量は
\[T_j = \frac{\hat{\beta}_j}{\hat{\sigma}\sqrt{c_{jj}}} \sim t(n-p)\]
となる。$|T_j| > t_{\alpha/2,\, n-p}$ のとき帰無仮説を棄却する。
$\beta_j$ の $100(1-\alpha)\%$ 信頼区間は
\[\hat{\beta}_j \pm t_{\alpha/2,\,n-p} \cdot \hat{\sigma}\sqrt{c_{jj}}\]
で与えられる。
$q$ 本の線形制約からなる帰無仮説
\[H_0 : C\boldsymbol{\beta} = \boldsymbol{d}\]
を検定する。ここで $C \in \mathbb{R}^{q \times p}$ は制約行列、$\boldsymbol{d} \in \mathbb{R}^q$ は定数ベクトルである。
帰無仮説のもとでの制約付き最小二乗推定量を $\tilde{\boldsymbol{\beta}}$ とおくと、
\[F = \frac{(\|\boldsymbol{Y} - X\tilde{\boldsymbol{\beta}}\|^2 - \|\boldsymbol{Y} - X\hat{\boldsymbol{\beta}}\|^2)/q}{\hat{\sigma}^2} \sim F(q,\, n-p)\]
が成立する。$C\boldsymbol{\beta} = \boldsymbol{0}$ の特殊な場合には、
\[F = \frac{(C\hat{\boldsymbol{\beta}})^\top \left[C(X^\top X)^{-1}C^\top\right]^{-1} (C\hat{\boldsymbol{\beta}})}{q\hat{\sigma}^2}\]
と表すこともできる。
切片を含むモデルでは全変動が直交分解される:
\[\underbrace{\|\boldsymbol{Y} - \bar{Y}\boldsymbol{1}\|^2}_{SST} = \underbrace{\|\hat{\boldsymbol{Y}} - \bar{Y}\boldsymbol{1}\|^2}_{SSR} + \underbrace{\|\hat{\boldsymbol{\varepsilon}}\|^2}_{RSS}\]
モデルの当てはまりを示す決定係数は
\[R^2 = \frac{SSR}{SST} = 1 - \frac{RSS}{SST}\]
であるが、説明変数を追加するだけで $R^2$ は単調非減少となる。自由度を考慮した
\[\bar{R}^2 = 1 - \frac{RSS/(n-p)}{SST/(n-1)}\]
は変数選択の基準として有用である。
$H_0 : \beta_1 = \cdots = \beta_{p-1} = 0$(切片のみのモデル)に対するF統計量は
\[F = \frac{SSR/(p-1)}{RSS/(n-p)} \sim F(p-1,\, n-p)\]
であり、回帰モデル全体の有意性を評価する。
説明変数間に強い線形関係が存在する場合、$X^\top X$ の条件数が大きくなり $(X^\top X)^{-1}$ の各成分が不安定となる。これを多重共線性という。このとき $\hat{\boldsymbol{\beta}}$ の分散 $\sigma^2(X^\top X)^{-1}$ が膨らみ、個々の係数推定が不安定になる。分散拡大因子
\[\text{VIF}_j = \frac{1}{1 - R_j^2}\]
は多重共線性の程度を診断する指標であり、$R_j^2$ は $x_j$ を他の説明変数に回帰したときの決定係数である。
重回帰モデルを行列表現で定式化することで、最小二乗推定・分布の導出・線形仮説の検定を統一的に扱うことができる。ハット行列による幾何学的構造、F統計量による線形仮説の検定、自由度修正済み決定係数による変数評価は、重回帰分析の中核をなす概念である。多重共線性への診断と対処も、実践上の重要な課題となる。
Mathematics is the language with which God has written the universe.