Skip to content

回归分析

在前面的章节中,我们讨论了单个变量或者多个变量分布的性质,以及如何通过样本推断总体的均值和方差。然而在现实世界里,变量往往不是孤立存在的。例如,一个人的身高与体重、农作物的产量与施肥量、某种商品的售价与销量。这些变量之间存在着某种联系,但这种联系又不像物理学定律那样具有确定性。回归分析提供了一套严密的数学框架,让我们能量化这些变量之间的依赖关系,并利用已知的自变量信息去预测未知的因变量数值。

1. 回归分析的基本概念

变量之间的关系可以分为两类。第一类是确定性关系(Deterministic Relationship),例如圆的面积 SS 与半径 rr 的关系 S=πr2S = \pi r^2,只要半径确定,面积就唯一确定。第二类是统计关系(Statistical Relationship),当自变量取值确定时,因变量的取值并不唯一,而是在一定范围内波动。

定义 回归分析 (Regression Analysis) 是一类研究因变量与自变量之间统计相关关系的统计学方法。它的核心目标是建立一个数学模型,描述因变量如何随自变量的变化而变化,并评估这种预测的可靠性。

定义 因变量 (Dependent Variable / Response) 通常记作 YY,是我们感兴趣的、试图通过模型进行解释或预测的结果变量。

定义 自变量 (Independent Variable / Predictor) 通常记作 xx(或 XX),是用来解释因变量变化的变量。

在进行回归分析之前,通常会先绘制散点图(Scatter Plot)。通过观察数据点在坐标系中的分布,我们可以直观地判断变量间是否存在线性趋势、非线性趋势或完全没有关系。如果散点大致分布在一条直线附近,我们便可以尝试使用线性回归模型进行拟合。

2. 一元线性回归模型

一元线性回归是最简单的形式,它只涉及一个自变量。

定义 一元线性回归模型 (Simple Linear Regression Model) 描述了因变量 YY 与自变量 xx 之间的线性关系,其数学表达式为:

Yi=β0+β1xi+εi,i=1,2,,nY_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i = 1, 2, \dots, n

其中,β0\beta_0β1\beta_1 是待估计的参数,εi\varepsilon_i 是随机误差项。

为了使推断有效,我们通常假设随机误差项满足以下条件:

  1. 线性YY 的期望值是 xx 的线性函数。
  2. 正态性εiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2)
  3. 等方差:对于所有的 xix_i,误差项的方差 σ2\sigma^2 都是常数。
  4. 独立性εi\varepsilon_iεj\varepsilon_j 相互独立。

定义 回归系数 (Regression Coefficients) 包括两个部分:β0\beta_0 称为截距(Intercept),代表当 x=0x=0YY 的期望值;β1\beta_1 称为斜率(Slope),代表自变量 xx 每增加一个单位时,YY 的期望改变量。

2.1 最小二乘估计

为了从样本数据中求得回归系数的估计值,我们最常使用的方法是最小二乘法。

定义 最小二乘法 (Ordinary Least Squares, OLS) 的基本思想是寻找一组估计量 β^0\hat{\beta}_0β^1\hat{\beta}_1,使得观测值 yiy_i 与拟合值 y^i=β^0+β^1xi\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i 之间的残差平方和达到最小。

定义目标函数为:

Q(β0,β1)=i=1n(yiβ0β1xi)2Q(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2

正规方程组推导

为了求 QQ 的极小值,分别对 β0\beta_0β1\beta_1 求偏导并令其为 0:

{Qβ0=2(yiβ0β1xi)=0Qβ1=2xi(yiβ0β1xi)=0\begin{cases} \frac{\partial Q}{\partial \beta_0} = -2 \sum (y_i - \beta_0 - \beta_1 x_i) = 0 \\ \frac{\partial Q}{\partial \beta_1} = -2 \sum x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \end{cases}

整理得正规方程组:

{nβ0+(xi)β1=yi(xi)β0+(xi2)β1=xiyi\begin{cases} n \beta_0 + (\sum x_i) \beta_1 = \sum y_i \\ (\sum x_i) \beta_0 + (\sum x_i^2) \beta_1 = \sum x_i y_i \end{cases}

解此方程组即可得到估计值。

定义 最小二乘估计量 (Least Squares Estimators) 是正规方程组的解,常用符号 β^1\hat{\beta}_1β^0\hat{\beta}_0 表示:

β^1=(xixˉ)(yiyˉ)(xixˉ)2=SxySxx\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}

β^0=yˉβ^1xˉ\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

其中,xˉ\bar{x}yˉ\bar{y} 分别是 xxyy 的样本均值。由此可见,回归直线必然经过样本中心点 (xˉ,yˉ)(\bar{x}, \bar{y})

例题 1:某研究考察了广告支出 xx(万元)与销售额 yy(万元)的关系,收集到 5 组数据:(1, 2), (2, 4), (3, 5), (4, 7), (5, 8)。 计算过程如下: xˉ=3,yˉ=5.2\bar{x} = 3, \bar{y} = 5.2Sxx=(13)2+(23)2++(53)2=10S_{xx} = (1-3)^2 + (2-3)^2 + \dots + (5-3)^2 = 10Sxy=(13)(25.2)+(23)(45.2)++(53)(85.2)=6.4+1.2+0+1.8+5.6=15S_{xy} = (1-3)(2-5.2) + (2-3)(4-5.2) + \dots + (5-3)(8-5.2) = 6.4 + 1.2 + 0 + 1.8 + 5.6 = 15β^1=15/10=1.5\hat{\beta}_1 = 15/10 = 1.5β^0=5.21.53=0.7\hat{\beta}_0 = 5.2 - 1.5 \cdot 3 = 0.7。 回归方程为:y^=0.7+1.5x\hat{y} = 0.7 + 1.5x

2.2 估计量的性质

在模型假设成立的前提下,最小二乘估计量具有优良的统计性质。

定义 Gauss-Markov 定理 (Gauss-Markov Theorem) 指出,在所有线性无偏估计量中,最小二乘估计量具有最小方差。因此它们被称为最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。

我们可以推导出 β^1\hat{\beta}_1 的抽样分布。如果误差项服从正态分布,那么:

β^1N(β1,σ2Sxx)\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{S_{xx}}\right)

定义 残差 (Residual) eie_i 定义为观测值与拟合值之差:ei=yiy^ie_i = y_i - \hat{y}_i。残差的和始终为 0。

定义 残差平方和 (Residual Sum of Squares, SSE) 是残差平方的累计和:SSE=ei2=(yiy^i)2SSE = \sum e_i^2 = \sum (y_i - \hat{y}_i)^2

为了进行统计推断,我们需要估计误差方差 σ2\sigma^2。其无偏估计量为:

σ^2=SSEn2\hat{\sigma}^2 = \frac{SSE}{n - 2}

这里分母为 n2n-2,是因为在估计回归直线时损失了两个自由度。

3. 回归方程的显著性检验

建立回归模型后,我们需要检验自变量 xx 是否真的对因变量 YY 有显著影响。即检验原假设 H0:β1=0H_0: \beta_1 = 0

3.1 回归的平方和分解

因变量的总体波动可以分解为两个部分:回归方程解释的部分和无法解释的部分。

定义 总平方和、回归平方和与残差平方和 (SST, SSR, SSE) 的定义及关系如下:

  • SST=(yiyˉ)2SST = \sum (y_i - \bar{y})^2:反映 yy 的总变异。
  • SSR=(y^iyˉ)2SSR = \sum (\hat{y}_i - \bar{y})^2:反映由 xx 的线性变化引起的 yy 的变异。
  • SSE=(yiy^i)2SSE = \sum (y_i - \hat{y}_i)^2:反映除 xx 之外的随机因素引起的变异。

数学上可以证明:SST=SSR+SSESST = SSR + SSE

证明过程

(yiyˉ)2=(yiy^i+y^iyˉ)2=(yiy^i)2+(y^iyˉ)2+2(yiy^i)(y^iyˉ)\sum (y_i - \bar{y})^2 = \sum (y_i - \hat{y}_i + \hat{y}_i - \bar{y})^2 = \sum (y_i - \hat{y}_i)^2 + \sum (\hat{y}_i - \bar{y})^2 + 2 \sum (y_i - \hat{y}_i)(\hat{y}_i - \bar{y})

利用正规方程的性质,可以证明交叉项 2ei(y^iyˉ)=02 \sum e_i (\hat{y}_i - \bar{y}) = 0。因此 SST=SSE+SSRSST = SSE + SSR

3.2 F 检验

F 检验通过比较回归贡献与残差波动来判断模型的有效性。

F=MSRMSE=SSR/1SSE/(n2)F = \frac{MSR}{MSE} = \frac{SSR / 1}{SSE / (n-2)}

H0:β1=0H_0: \beta_1 = 0 成立时,该统计量服从自由度为 (1,n2)(1, n-2)FF 分布。如果 F>Fα(1,n2)F > F_{\alpha}(1, n-2),我们拒绝原假设,认为回归关系显著。

3.3 t 检验

我们也可以直接对系数 β^1\hat{\beta}_1 进行检验:

T=β^1SE(β^1)=β^1σ^2/SxxT = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{\hat{\beta}_1}{\sqrt{\hat{\sigma}^2 / S_{xx}}}

在原假设下,TT 服从自由度为 n2n-2tt 分布。在线性回归中,T2=FT^2 = F,因此 tt 检验与 FF 检验是完全等价的。

3.4 决定系数

定义 决定系数 (Coefficient of Determination) 记作 R2R^2,定义为:

R2=SSRSST=1SSESSTR^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

R2R^2 取值在 0 到 1 之间。它代表了因变量的变异中能被回归模型解释的比例。R2R^2 越接近 1,说明模型拟合效果越好。在一元线性回归中,R2R^2 等于样本相关系数 rr 的平方。

4. 预测与置信带

回归模型最实用的功能之一就是预测。

定义 点预测 (Point Prediction) 是指在给定 x=x0x = x_0 时,利用回归方程计算出 yy 的预测值:y^0=β^0+β^1x0\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0

我们需要区分两种不同的区间估计:

定义 预测区间 (Prediction Interval) 是针对单个观测值 Y0Y_0 的可能范围。由于单个值包含随机误差,它的区间通常较宽:

y^0±tα/2(n2)σ^1+1n+(x0xˉ)2Sxx\hat{y}_0 \pm t_{\alpha/2}(n-2) \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}

定义 置信区间 (Confidence Interval for Mean Response) 是针对在 x0x_0YY 的平均值(期望值)的估计:

y^0±tα/2(n2)σ^1n+(x0xˉ)2Sxx\hat{y}_0 \pm t_{\alpha/2}(n-2) \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}

例题 2:接例题 1,若广告支出为 6 万元,预测销售额。 y^0=0.7+1.56=9.7\hat{y}_0 = 0.7 + 1.5 \cdot 6 = 9.7 万元。 计算区间时,由于 x0x_0 离均值 xˉ=3\bar{x} = 3 越远,不确定性越大,区间也会变得越宽。

5. 残差分析与模型诊断

模型建立后,必须通过残差分析来检查假设是否成立。通常使用残差图(残差 eie_i 对拟合值 y^i\hat{y}_i 的散点图)。

  1. 线性性:如果残差图呈现明显的曲线形状,说明线性假设不成立,可能需要添加二次项或进行变量转换。
  2. 等方差性:如果残差的散布随拟合值增大而扩大(呈现漏斗状或喇叭口状),说明存在异方差。此时最小二乘估计虽然仍然是无偏的,但不再是方差最小的。
  3. 独立性:如果残差随时间序列呈现出某种趋势或周期性,说明观测值不独立(存在自相关)。在计量经济学中,这常通过 Durbin-Watson 检验来发现。
  4. 正态性:可以通过残差的正态概率图(Q-Q 图)或直方图来检查。如果残差不符合正态分布,那么基于 tt 分布和 FF 分布的推断结果可能不再可靠。

此外,还需要注意异常点(Outliers)和高杠杆点(High Leverage Points)。这些特殊的观测值可能会对回归系数的估计产生巨大的影响,导致模型失真。例如,某个数据点的 xx 值极大且偏离主体数据,即使其 yy 值与拟合线接近,也会对斜率产生“拉扯”作用,这种点被称为有影响的观测点(Influential Observation)。

6. 多元线性回归简介

当因变量受多个自变量影响时,我们需要扩展到多元模型。

定义 多元线性回归模型 (Multiple Linear Regression Model) 的矩阵形式为:

Y=Xβ+ε\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 X\mathbf{X} 是设计矩阵,第一列通常为全 1 向量(对应截距项),随后的每一列对应一个自变量。

其最小二乘估计量可以通过正规方程组的矩阵形式求得:

β^=(XX)1XY\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

前提是矩阵 (XX)(\mathbf{X}'\mathbf{X}) 是非奇异的,即自变量之间不存在完全的多重共线性。

在多元回归中,增加自变量总是会使 R2R^2 增大或保持不变,即使这些变量并不重要。因此我们使用调整后的决定系数。

定义 调整决定系数 (Adjusted R2R^2) 考虑了模型中自变量的数量,从而对模型复杂度进行惩罚:

Radj2=1(1R2)n1np1R^2_{adj} = 1 - (1 - R^2) \frac{n - 1}{n - p - 1}

其中 pp 是自变量的个数(不含截距项)。如果模型增加一个自变量但 Radj2R^2_{adj} 下降了,这通常预示着新变量带来的信息不足以抵消损失的自由度。

例题 3:分析房屋价格 YY(万元)与面积 x1x_1(平方米)、房龄 x2x_2(年)的关系。假设某城市的 10 组历史交易数据拟合出的模型如下:

y^=50+2.5x11.2x2\hat{y} = 50 + 2.5 x_1 - 1.2 x_2

结果显示面积系数为正,房龄系数为负,这符合现实逻辑:每增加一平方米,平均房价上涨 2.5 万元;房龄每增加一年,房屋价值平均贬值 1.2 万元。通过观察调整后的决定系数 Radj2R^2_{adj},我们可以判断引入房龄这一变量是否显著提升了模型的解释能力。

例题 4:考虑一个极端情况,如果我们在模型中随机加入一个完全不相关的干扰变量(如当天的气温)。 在普通线性回归中,由于自由度降低但残差平方和 SSESSE 即使微小地减少也会导致 R2R^2 上升,这被称为过拟合(Overfitting)。 调整后的决定系数 Radj2R^2_{adj} 计算公式为:

Radj2=1SSE/(np1)SST/(n1)R^2_{adj} = 1 - \frac{SSE / (n - p - 1)}{SST / (n - 1)}

如果新加入的变量不能显著减少单位自由度的残差平方和,Radj2R^2_{adj} 反而会下降。这有助于我们在复杂的模型中选择更简洁且具有解释力的变量组合。变量选择的方法包括逐步回归(Stepwise Regression)、全子集回归以及基于准则(如 AIC 或 BIC)的选择方法。

在实际应用中,变量选择不仅关注统计显著性,还涉及业务理解和计算成本。我们不仅要找到拟合最好的模型,还要确保模型具有稳健性和泛化能力。

参考文献

  1. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Applied Linear Regression Models. McGraw-Hill Irwin.
  2. Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. John Wiley & Sons.
  3. Anderson, D. R., Sweeney, D. J., Williams, T. A., Camm, J. D., & Cochran, J. J. (2018). Statistics for Business & Economics. Cengage Learning.