回归分析

在前面的章节中，我们讨论了单个变量或者多个变量分布的性质，以及如何通过样本推断总体的均值和方差。然而在现实世界里，变量往往不是孤立存在的。例如，一个人的身高与体重、农作物的产量与施肥量、某种商品的售价与销量。这些变量之间存在着某种联系，但这种联系又不像物理学定律那样具有确定性。回归分析提供了一套严密的数学框架，让我们能量化这些变量之间的依赖关系，并利用已知的自变量信息去预测未知的因变量数值。

1. 回归分析的基本概念

变量之间的关系可以分为两类。第一类是确定性关系（Deterministic Relationship），例如圆的面积 $S$ 与半径 $r$ 的关系 $S = \pi r^2$ ，只要半径确定，面积就唯一确定。第二类是统计关系（Statistical Relationship），当自变量取值确定时，因变量的取值并不唯一，而是在一定范围内波动。

定义 回归分析 (Regression Analysis) 是一类研究因变量与自变量之间统计相关关系的统计学方法。它的核心目标是建立一个数学模型，描述因变量如何随自变量的变化而变化，并评估这种预测的可靠性。

定义 因变量 (Dependent Variable / Response) 通常记作 $Y$ ，是我们感兴趣的、试图通过模型进行解释或预测的结果变量。

定义 自变量 (Independent Variable / Predictor) 通常记作 $x$ （或 $X$ ），是用来解释因变量变化的变量。

在进行回归分析之前，通常会先绘制散点图（Scatter Plot）。通过观察数据点在坐标系中的分布，我们可以直观地判断变量间是否存在线性趋势、非线性趋势或完全没有关系。如果散点大致分布在一条直线附近，我们便可以尝试使用线性回归模型进行拟合。

2. 一元线性回归模型

一元线性回归是最简单的形式，它只涉及一个自变量。

定义 一元线性回归模型 (Simple Linear Regression Model) 描述了因变量 $Y$ 与自变量 $x$ 之间的线性关系，其数学表达式为：

Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i = 1, 2, \dots, n

其中， $\beta_0$ 和 $\beta_1$ 是待估计的参数， $\varepsilon_i$ 是随机误差项。

为了使推断有效，我们通常假设随机误差项满足以下条件：

线性： $Y$ 的期望值是 $x$ 的线性函数。
正态性： $\varepsilon_i \sim N(0, \sigma^2)$ 。
等方差：对于所有的 $x_i$ ，误差项的方差 $\sigma^2$ 都是常数。
独立性： $\varepsilon_i$ 与 $\varepsilon_j$ 相互独立。

定义 回归系数 (Regression Coefficients) 包括两个部分： $\beta_0$ 称为截距（Intercept），代表当 $x=0$ 时 $Y$ 的期望值； $\beta_1$ 称为斜率（Slope），代表自变量 $x$ 每增加一个单位时， $Y$ 的期望改变量。

2.1 最小二乘估计

为了从样本数据中求得回归系数的估计值，我们最常使用的方法是最小二乘法。

定义 最小二乘法 (Ordinary Least Squares, OLS) 的基本思想是寻找一组估计量 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ ，使得观测值 $y_i$ 与拟合值 $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ 之间的残差平方和达到最小。

定义目标函数为：

Q(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2

正规方程组推导

为了求 $Q$ 的极小值，分别对 $\beta_0$ 和 $\beta_1$ 求偏导并令其为 0：

\begin{cases} \frac{\partial Q}{\partial \beta_0} = -2 \sum (y_i - \beta_0 - \beta_1 x_i) = 0 \\ \frac{\partial Q}{\partial \beta_1} = -2 \sum x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \end{cases}

整理得正规方程组：

\begin{cases} n \beta_0 + (\sum x_i) \beta_1 = \sum y_i \\ (\sum x_i) \beta_0 + (\sum x_i^2) \beta_1 = \sum x_i y_i \end{cases}

解此方程组即可得到估计值。

定义 最小二乘估计量 (Least Squares Estimators) 是正规方程组的解，常用符号 $\hat{\beta}_1$ 和 $\hat{\beta}_0$ 表示：

\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}

\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

其中， $\bar{x}$ 和 $\bar{y}$ 分别是 $x$ 和 $y$ 的样本均值。由此可见，回归直线必然经过样本中心点 $(\bar{x}, \bar{y})$ 。

例题 1：某研究考察了广告支出 $x$ （万元）与销售额 $y$ （万元）的关系，收集到 5 组数据：(1, 2), (2, 4), (3, 5), (4, 7), (5, 8)。计算过程如下： $\bar{x} = 3, \bar{y} = 5.2$ 。 $S_{xx} = (1-3)^2 + (2-3)^2 + \dots + (5-3)^2 = 10$ 。 $S_{xy} = (1-3)(2-5.2) + (2-3)(4-5.2) + \dots + (5-3)(8-5.2) = 6.4 + 1.2 + 0 + 1.8 + 5.6 = 15$ 。 $\hat{\beta}_1 = 15/10 = 1.5$ 。 $\hat{\beta}_0 = 5.2 - 1.5 \cdot 3 = 0.7$ 。回归方程为： $\hat{y} = 0.7 + 1.5x$ 。

2.2 估计量的性质

在模型假设成立的前提下，最小二乘估计量具有优良的统计性质。

定义 Gauss-Markov 定理 (Gauss-Markov Theorem) 指出，在所有线性无偏估计量中，最小二乘估计量具有最小方差。因此它们被称为最佳线性无偏估计量（Best Linear Unbiased Estimator, BLUE）。

我们可以推导出 $\hat{\beta}_1$ 的抽样分布。如果误差项服从正态分布，那么：

\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{S_{xx}}\right)

定义残差 (Residual) $e_i$ 定义为观测值与拟合值之差： $e_i = y_i - \hat{y}_i$ 。残差的和始终为 0。

定义 残差平方和 (Residual Sum of Squares, SSE) 是残差平方的累计和： $SSE = \sum e_i^2 = \sum (y_i - \hat{y}_i)^2$ 。

为了进行统计推断，我们需要估计误差方差 $\sigma^2$ 。其无偏估计量为：

\hat{\sigma}^2 = \frac{SSE}{n - 2}

这里分母为 $n-2$ ，是因为在估计回归直线时损失了两个自由度。

3. 回归方程的显著性检验

建立回归模型后，我们需要检验自变量 $x$ 是否真的对因变量 $Y$ 有显著影响。即检验原假设 $H_0: \beta_1 = 0$ 。

3.1 回归的平方和分解

因变量的总体波动可以分解为两个部分：回归方程解释的部分和无法解释的部分。

定义 总平方和、回归平方和与残差平方和 (SST, SSR, SSE) 的定义及关系如下：

$SST = \sum (y_i - \bar{y})^2$ ：反映 $y$ 的总变异。
$SSR = \sum (\hat{y}_i - \bar{y})^2$ ：反映由 $x$ 的线性变化引起的 $y$ 的变异。
$SSE = \sum (y_i - \hat{y}_i)^2$ ：反映除 $x$ 之外的随机因素引起的变异。

数学上可以证明： $SST = SSR + SSE$ 。

证明过程

\sum (y_i - \bar{y})^2 = \sum (y_i - \hat{y}_i + \hat{y}_i - \bar{y})^2 = \sum (y_i - \hat{y}_i)^2 + \sum (\hat{y}_i - \bar{y})^2 + 2 \sum (y_i - \hat{y}_i)(\hat{y}_i - \bar{y})

利用正规方程的性质，可以证明交叉项 $2 \sum e_i (\hat{y}_i - \bar{y}) = 0$ 。因此 $SST = SSE + SSR$ 。

3.2 F 检验

F 检验通过比较回归贡献与残差波动来判断模型的有效性。

F = \frac{MSR}{MSE} = \frac{SSR / 1}{SSE / (n-2)}

在 $H_0: \beta_1 = 0$ 成立时，该统计量服从自由度为 $(1, n-2)$ 的 $F$ 分布。如果 $F > F_{\alpha}(1, n-2)$ ，我们拒绝原假设，认为回归关系显著。

3.3 t 检验

我们也可以直接对系数 $\hat{\beta}_1$ 进行检验：

T = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{\hat{\beta}_1}{\sqrt{\hat{\sigma}^2 / S_{xx}}}

在原假设下， $T$ 服从自由度为 $n-2$ 的 $t$ 分布。在线性回归中， $T^2 = F$ ，因此 $t$ 检验与 $F$ 检验是完全等价的。

3.4 决定系数

定义 决定系数 (Coefficient of Determination) 记作 $R^2$ ，定义为：

R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

$R^2$ 取值在 0 到 1 之间。它代表了因变量的变异中能被回归模型解释的比例。 $R^2$ 越接近 1，说明模型拟合效果越好。在一元线性回归中， $R^2$ 等于样本相关系数 $r$ 的平方。

4. 预测与置信带

回归模型最实用的功能之一就是预测。

定义 点预测 (Point Prediction) 是指在给定 $x = x_0$ 时，利用回归方程计算出 $y$ 的预测值： $\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0$ 。

我们需要区分两种不同的区间估计：

定义 预测区间 (Prediction Interval) 是针对单个观测值 $Y_0$ 的可能范围。由于单个值包含随机误差，它的区间通常较宽：

\hat{y}_0 \pm t_{\alpha/2}(n-2) \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}

定义 置信区间 (Confidence Interval for Mean Response) 是针对在 $x_0$ 处 $Y$ 的平均值（期望值）的估计：

\hat{y}_0 \pm t_{\alpha/2}(n-2) \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}

例题 2：接例题 1，若广告支出为 6 万元，预测销售额。 $\hat{y}_0 = 0.7 + 1.5 \cdot 6 = 9.7$ 万元。计算区间时，由于 $x_0$ 离均值 $\bar{x} = 3$ 越远，不确定性越大，区间也会变得越宽。

5. 残差分析与模型诊断

模型建立后，必须通过残差分析来检查假设是否成立。通常使用残差图（残差 $e_i$ 对拟合值 $\hat{y}_i$ 的散点图）。

线性性：如果残差图呈现明显的曲线形状，说明线性假设不成立，可能需要添加二次项或进行变量转换。
等方差性：如果残差的散布随拟合值增大而扩大（呈现漏斗状或喇叭口状），说明存在异方差。此时最小二乘估计虽然仍然是无偏的，但不再是方差最小的。
独立性：如果残差随时间序列呈现出某种趋势或周期性，说明观测值不独立（存在自相关）。在计量经济学中，这常通过 Durbin-Watson 检验来发现。
正态性：可以通过残差的正态概率图（Q-Q 图）或直方图来检查。如果残差不符合正态分布，那么基于 $t$ 分布和 $F$ 分布的推断结果可能不再可靠。

此外，还需要注意异常点（Outliers）和高杠杆点（High Leverage Points）。这些特殊的观测值可能会对回归系数的估计产生巨大的影响，导致模型失真。例如，某个数据点的 $x$ 值极大且偏离主体数据，即使其 $y$ 值与拟合线接近，也会对斜率产生“拉扯”作用，这种点被称为有影响的观测点（Influential Observation）。

6. 多元线性回归简介

当因变量受多个自变量影响时，我们需要扩展到多元模型。

定义 多元线性回归模型 (Multiple Linear Regression Model) 的矩阵形式为：

\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 $\mathbf{X}$ 是设计矩阵，第一列通常为全 1 向量（对应截距项），随后的每一列对应一个自变量。

其最小二乘估计量可以通过正规方程组的矩阵形式求得：

\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

前提是矩阵 $(\mathbf{X}'\mathbf{X})$ 是非奇异的，即自变量之间不存在完全的多重共线性。

在多元回归中，增加自变量总是会使 $R^2$ 增大或保持不变，即使这些变量并不重要。因此我们使用调整后的决定系数。

定义 调整决定系数 (Adjusted $R^2$ ) 考虑了模型中自变量的数量，从而对模型复杂度进行惩罚：

R^2_{adj} = 1 - (1 - R^2) \frac{n - 1}{n - p - 1}

其中 $p$ 是自变量的个数（不含截距项）。如果模型增加一个自变量但 $R^2_{adj}$ 下降了，这通常预示着新变量带来的信息不足以抵消损失的自由度。

例题 3：分析房屋价格 $Y$ （万元）与面积 $x_1$ （平方米）、房龄 $x_2$ （年）的关系。假设某城市的 10 组历史交易数据拟合出的模型如下：

\hat{y} = 50 + 2.5 x_1 - 1.2 x_2

结果显示面积系数为正，房龄系数为负，这符合现实逻辑：每增加一平方米，平均房价上涨 2.5 万元；房龄每增加一年，房屋价值平均贬值 1.2 万元。通过观察调整后的决定系数 $R^2_{adj}$ ，我们可以判断引入房龄这一变量是否显著提升了模型的解释能力。

例题 4：考虑一个极端情况，如果我们在模型中随机加入一个完全不相关的干扰变量（如当天的气温）。在普通线性回归中，由于自由度降低但残差平方和 $SSE$ 即使微小地减少也会导致 $R^2$ 上升，这被称为过拟合（Overfitting）。调整后的决定系数 $R^2_{adj}$ 计算公式为：

R^2_{adj} = 1 - \frac{SSE / (n - p - 1)}{SST / (n - 1)}

如果新加入的变量不能显著减少单位自由度的残差平方和， $R^2_{adj}$ 反而会下降。这有助于我们在复杂的模型中选择更简洁且具有解释力的变量组合。变量选择的方法包括逐步回归（Stepwise Regression）、全子集回归以及基于准则（如 AIC 或 BIC）的选择方法。

在实际应用中，变量选择不仅关注统计显著性，还涉及业务理解和计算成本。我们不仅要找到拟合最好的模型，还要确保模型具有稳健性和泛化能力。

参考文献

Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Applied Linear Regression Models. McGraw-Hill Irwin.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. John Wiley & Sons.
Anderson, D. R., Sweeney, D. J., Williams, T. A., Camm, J. D., & Cochran, J. J. (2018). Statistics for Business & Economics. Cengage Learning.

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

回归分析

1. 回归分析的基本概念

2. 一元线性回归模型

2.1 最小二乘估计

2.2 估计量的性质

3. 回归方程的显著性检验

3.1 回归的平方和分解

3.2 F 检验

3.3 t 检验

3.4 决定系数

4. 预测与置信带

5. 残差分析与模型诊断

6. 多元线性回归简介

参考文献

回归分析 ​

1. 回归分析的基本概念 ​

2. 一元线性回归模型 ​

2.1 最小二乘估计 ​

2.2 估计量的性质 ​

3. 回归方程的显著性检验 ​

3.1 回归的平方和分解 ​

3.2 F 检验 ​

3.3 t 检验 ​

3.4 决定系数 ​

4. 预测与置信带 ​

5. 残差分析与模型诊断 ​

6. 多元线性回归简介 ​

参考文献 ​

回归分析

1. 回归分析的基本概念

2. 一元线性回归模型

2.1 最小二乘估计

2.2 估计量的性质

3. 回归方程的显著性检验

3.1 回归的平方和分解

3.2 F 检验

3.3 t 检验

3.4 决定系数

4. 预测与置信带

5. 残差分析与模型诊断

6. 多元线性回归简介

参考文献