回归分析
在前面的章节中,我们讨论了单个变量或者多个变量分布的性质,以及如何通过样本推断总体的均值和方差。然而在现实世界里,变量往往不是孤立存在的。例如,一个人的身高与体重、农作物的产量与施肥量、某种商品的售价与销量。这些变量之间存在着某种联系,但这种联系又不像物理学定律那样具有确定性。回归分析提供了一套严密的数学框架,让我们能量化这些变量之间的依赖关系,并利用已知的自变量信息去预测未知的因变量数值。
1. 回归分析的基本概念
变量之间的关系可以分为两类。第一类是确定性关系(Deterministic Relationship),例如圆的面积 与半径 的关系 ,只要半径确定,面积就唯一确定。第二类是统计关系(Statistical Relationship),当自变量取值确定时,因变量的取值并不唯一,而是在一定范围内波动。
定义 回归分析 (Regression Analysis) 是一类研究因变量与自变量之间统计相关关系的统计学方法。它的核心目标是建立一个数学模型,描述因变量如何随自变量的变化而变化,并评估这种预测的可靠性。
定义 因变量 (Dependent Variable / Response) 通常记作 ,是我们感兴趣的、试图通过模型进行解释或预测的结果变量。
定义 自变量 (Independent Variable / Predictor) 通常记作 (或 ),是用来解释因变量变化的变量。
在进行回归分析之前,通常会先绘制散点图(Scatter Plot)。通过观察数据点在坐标系中的分布,我们可以直观地判断变量间是否存在线性趋势、非线性趋势或完全没有关系。如果散点大致分布在一条直线附近,我们便可以尝试使用线性回归模型进行拟合。
2. 一元线性回归模型
一元线性回归是最简单的形式,它只涉及一个自变量。
定义 一元线性回归模型 (Simple Linear Regression Model) 描述了因变量 与自变量 之间的线性关系,其数学表达式为:
其中, 和 是待估计的参数, 是随机误差项。
为了使推断有效,我们通常假设随机误差项满足以下条件:
- 线性: 的期望值是 的线性函数。
- 正态性:。
- 等方差:对于所有的 ,误差项的方差 都是常数。
- 独立性: 与 相互独立。
定义 回归系数 (Regression Coefficients) 包括两个部分: 称为截距(Intercept),代表当 时 的期望值; 称为斜率(Slope),代表自变量 每增加一个单位时, 的期望改变量。
2.1 最小二乘估计
为了从样本数据中求得回归系数的估计值,我们最常使用的方法是最小二乘法。
定义 最小二乘法 (Ordinary Least Squares, OLS) 的基本思想是寻找一组估计量 和 ,使得观测值 与拟合值 之间的残差平方和达到最小。
定义目标函数为:
正规方程组推导
为了求 的极小值,分别对 和 求偏导并令其为 0:
整理得正规方程组:
解此方程组即可得到估计值。
定义 最小二乘估计量 (Least Squares Estimators) 是正规方程组的解,常用符号 和 表示:
其中, 和 分别是 和 的样本均值。由此可见,回归直线必然经过样本中心点 。
例题 1:某研究考察了广告支出 (万元)与销售额 (万元)的关系,收集到 5 组数据:(1, 2), (2, 4), (3, 5), (4, 7), (5, 8)。 计算过程如下: 。 。 。 。 。 回归方程为:。
2.2 估计量的性质
在模型假设成立的前提下,最小二乘估计量具有优良的统计性质。
定义 Gauss-Markov 定理 (Gauss-Markov Theorem) 指出,在所有线性无偏估计量中,最小二乘估计量具有最小方差。因此它们被称为最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。
我们可以推导出 的抽样分布。如果误差项服从正态分布,那么:
定义 残差 (Residual) 定义为观测值与拟合值之差:。残差的和始终为 0。
定义 残差平方和 (Residual Sum of Squares, SSE) 是残差平方的累计和:。
为了进行统计推断,我们需要估计误差方差 。其无偏估计量为:
这里分母为 ,是因为在估计回归直线时损失了两个自由度。
3. 回归方程的显著性检验
建立回归模型后,我们需要检验自变量 是否真的对因变量 有显著影响。即检验原假设 。
3.1 回归的平方和分解
因变量的总体波动可以分解为两个部分:回归方程解释的部分和无法解释的部分。
定义 总平方和、回归平方和与残差平方和 (SST, SSR, SSE) 的定义及关系如下:
- :反映 的总变异。
- :反映由 的线性变化引起的 的变异。
- :反映除 之外的随机因素引起的变异。
数学上可以证明:。
证明过程
利用正规方程的性质,可以证明交叉项 。因此 。
3.2 F 检验
F 检验通过比较回归贡献与残差波动来判断模型的有效性。
在 成立时,该统计量服从自由度为 的 分布。如果 ,我们拒绝原假设,认为回归关系显著。
3.3 t 检验
我们也可以直接对系数 进行检验:
在原假设下, 服从自由度为 的 分布。在线性回归中,,因此 检验与 检验是完全等价的。
3.4 决定系数
定义 决定系数 (Coefficient of Determination) 记作 ,定义为:
取值在 0 到 1 之间。它代表了因变量的变异中能被回归模型解释的比例。 越接近 1,说明模型拟合效果越好。在一元线性回归中, 等于样本相关系数 的平方。
4. 预测与置信带
回归模型最实用的功能之一就是预测。
定义 点预测 (Point Prediction) 是指在给定 时,利用回归方程计算出 的预测值:。
我们需要区分两种不同的区间估计:
定义 预测区间 (Prediction Interval) 是针对单个观测值 的可能范围。由于单个值包含随机误差,它的区间通常较宽:
定义 置信区间 (Confidence Interval for Mean Response) 是针对在 处 的平均值(期望值)的估计:
例题 2:接例题 1,若广告支出为 6 万元,预测销售额。 万元。 计算区间时,由于 离均值 越远,不确定性越大,区间也会变得越宽。
5. 残差分析与模型诊断
模型建立后,必须通过残差分析来检查假设是否成立。通常使用残差图(残差 对拟合值 的散点图)。
- 线性性:如果残差图呈现明显的曲线形状,说明线性假设不成立,可能需要添加二次项或进行变量转换。
- 等方差性:如果残差的散布随拟合值增大而扩大(呈现漏斗状或喇叭口状),说明存在异方差。此时最小二乘估计虽然仍然是无偏的,但不再是方差最小的。
- 独立性:如果残差随时间序列呈现出某种趋势或周期性,说明观测值不独立(存在自相关)。在计量经济学中,这常通过 Durbin-Watson 检验来发现。
- 正态性:可以通过残差的正态概率图(Q-Q 图)或直方图来检查。如果残差不符合正态分布,那么基于 分布和 分布的推断结果可能不再可靠。
此外,还需要注意异常点(Outliers)和高杠杆点(High Leverage Points)。这些特殊的观测值可能会对回归系数的估计产生巨大的影响,导致模型失真。例如,某个数据点的 值极大且偏离主体数据,即使其 值与拟合线接近,也会对斜率产生“拉扯”作用,这种点被称为有影响的观测点(Influential Observation)。
6. 多元线性回归简介
当因变量受多个自变量影响时,我们需要扩展到多元模型。
定义 多元线性回归模型 (Multiple Linear Regression Model) 的矩阵形式为:
其中 是设计矩阵,第一列通常为全 1 向量(对应截距项),随后的每一列对应一个自变量。
其最小二乘估计量可以通过正规方程组的矩阵形式求得:
前提是矩阵 是非奇异的,即自变量之间不存在完全的多重共线性。
在多元回归中,增加自变量总是会使 增大或保持不变,即使这些变量并不重要。因此我们使用调整后的决定系数。
定义 调整决定系数 (Adjusted ) 考虑了模型中自变量的数量,从而对模型复杂度进行惩罚:
其中 是自变量的个数(不含截距项)。如果模型增加一个自变量但 下降了,这通常预示着新变量带来的信息不足以抵消损失的自由度。
例题 3:分析房屋价格 (万元)与面积 (平方米)、房龄 (年)的关系。假设某城市的 10 组历史交易数据拟合出的模型如下:
结果显示面积系数为正,房龄系数为负,这符合现实逻辑:每增加一平方米,平均房价上涨 2.5 万元;房龄每增加一年,房屋价值平均贬值 1.2 万元。通过观察调整后的决定系数 ,我们可以判断引入房龄这一变量是否显著提升了模型的解释能力。
例题 4:考虑一个极端情况,如果我们在模型中随机加入一个完全不相关的干扰变量(如当天的气温)。 在普通线性回归中,由于自由度降低但残差平方和 即使微小地减少也会导致 上升,这被称为过拟合(Overfitting)。 调整后的决定系数 计算公式为:
如果新加入的变量不能显著减少单位自由度的残差平方和, 反而会下降。这有助于我们在复杂的模型中选择更简洁且具有解释力的变量组合。变量选择的方法包括逐步回归(Stepwise Regression)、全子集回归以及基于准则(如 AIC 或 BIC)的选择方法。
在实际应用中,变量选择不仅关注统计显著性,还涉及业务理解和计算成本。我们不仅要找到拟合最好的模型,还要确保模型具有稳健性和泛化能力。
参考文献
- Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Applied Linear Regression Models. McGraw-Hill Irwin.
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. John Wiley & Sons.
- Anderson, D. R., Sweeney, D. J., Williams, T. A., Camm, J. D., & Cochran, J. J. (2018). Statistics for Business & Economics. Cengage Learning.