Skip to content

抽样分布

在上一章中,我们学习了统计量的基本概念。统计量是样本的函数,它是随机变量。既然统计量是随机变量,它就有其自身的概率分布。统计量的概率分布被称为 抽样分布(Sampling Distribution)。抽样分布是进行参数估计和假设检验的理论基础。本章将深入探讨三个基于正态总体的基本抽样分布:卡方分布、t 分布和 F 分布,并介绍正态总体下统计量的核心定理。

1. 卡方分布

卡方分布是由若干个相互独立的正态随机变量的平方和组成的分布,在分类数据分析和方差检验中起着核心作用。

定义 卡方分布 (Chi-squared Distribution):设 X1,X2,,XnX_1, X_2, \dots, X_n 是来自标准正态分布 N(0,1)N(0, 1) 的简单随机样本,则称随机变量 χ2=i=1nXi2\chi^2 = \sum_{i=1}^n X_i^2 服从自由度为 nn 的卡方分布,记作 χ2χ2(n)\chi^2 \sim \chi^2(n)

定义 自由度 (Degrees of Freedom):在统计学中,自由度是指样本中能够自由变化的观测值的个数。对于卡方分布 χ2(n)\chi^2(n),其自由度即为独立标准正态随机变量的个数 nn

1.1 卡方分布的性质

卡方分布具有以下重要的数学性质:

  1. 期望与方差:若 Xχ2(n)X \sim \chi^2(n),则其期望 E[X]=nE[X] = n,方差 Var(X)=2nVar(X) = 2n
  2. 可加性:设 Xχ2(n1)X \sim \chi^2(n_1)Yχ2(n2)Y \sim \chi^2(n_2),且 XXYY 相互独立,则 X+Yχ2(n1+n2)X + Y \sim \chi^2(n_1 + n_2)
  3. 与伽马分布的关系:卡方分布是 伽马分布 的特例。具体而言,χ2(n)\chi^2(n) 等价于参数为 α=n/2,β=1/2\alpha = n/2, \beta = 1/2 的伽马分布 Ga(n/2,1/2)Ga(n/2, 1/2)

1.2 密度函数与分位数

卡方分布 χ2(n)\chi^2(n) 的概率密度函数为:

f(x;n)={12n/2Γ(n/2)xn/21ex/2,x>00,x0f(x; n) = \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)} x^{n/2-1} e^{-x/2}, & x > 0 \\ 0, & x \leqslant 0 \end{cases}

其中 Γ()\Gamma(\cdot) 为伽马函数。

定义 卡方分布的上 α\alpha 分位数 (Upper α\alpha Quantile):对于给定的 0<α<10 < \alpha < 1,称满足条件 P(χ2>χα2(n))=αP(\chi^2 > \chi^2_\alpha(n)) = \alpha 的点 χα2(n)\chi^2_\alpha(n)χ2(n)\chi^2(n) 分布的上 α\alpha 分位数。

2. t 分布

t 分布由英国统计学家威廉·戈塞特(William Gosset)于 1908 年以笔名 "Student" 发表,因此也称为学生 t 分布。它常用于样本量较小、总体方差未知的均值检验。

定义 t 分布 (Student's t-distribution):设 XN(0,1)X \sim N(0, 1)Yχ2(n)Y \sim \chi^2(n),且 XXYY 相互独立,则称随机变量 T=XY/nT = \frac{X}{\sqrt{Y/n}} 服从自由度为 nn 的 t 分布,记作 Tt(n)T \sim t(n)

2.1 t 分布的性质

  1. 对称性:t 分布的密度函数关于 t=0t = 0 对称,其图形类似于标准正态分布,但具有更厚的尾部("肥尾"现象)。
  2. 期望与方差:若 Tt(n)T \sim t(n),当 n>1n > 1 时,E[T]=0E[T] = 0;当 n>2n > 2 时,Var(T)=nn2Var(T) = \frac{n}{n-2}
  3. 收敛性:当自由度 nn \to \infty 时,t 分布的密度函数趋近于标准正态分布 N(0,1)N(0, 1)。这与 中心极限定理 的思想相呼应。

定义 t 分布的上 α\alpha 分位数 (Upper α\alpha Quantile of t-distribution):对于给定的 0<α<10 < \alpha < 1,称满足条件 P(T>tα(n))=αP(T > t_\alpha(n)) = \alpha 的点 tα(n)t_\alpha(n)t(n)t(n) 分布的上 α\alpha 分位数。由于对称性,有 t1α(n)=tα(n)t_{1-\alpha}(n) = -t_\alpha(n)

3. F 分布

F 分布主要用于比较两个正态总体的方差,在方差分析(ANOVA)和回归分析中有着广泛的应用。

定义 F 分布 (F-distribution):设 Uχ2(n1)U \sim \chi^2(n_1)Vχ2(n2)V \sim \chi^2(n_2),且 UUVV 相互独立,则称随机变量 F=U/n1V/n2F = \frac{U/n_1}{V/n_2} 服从自由度为 (n1,n2)(n_1, n_2) 的 F 分布,记作 FF(n1,n2)F \sim F(n_1, n_2)。其中 n1n_1 称为第一自由度(分子自由度),n2n_2 称为第二自由度(分母自由度)。

3.1 F 分布的性质

  1. 倒数性质:若 FF(n1,n2)F \sim F(n_1, n_2),则其倒数 1FF(n2,n1)\frac{1}{F} \sim F(n_2, n_1)
  2. 与 t 分布的关系:若 Tt(n)T \sim t(n),则 T2F(1,n)T^2 \sim F(1, n)
证明:T2F(1,n)T^2 \sim F(1, n)

根据 t 分布定义,T=XY/nT = \frac{X}{\sqrt{Y/n}},其中 XN(0,1)X \sim N(0, 1)Yχ2(n)Y \sim \chi^2(n)。 则 T2=X2Y/n=X2/1Y/nT^2 = \frac{X^2}{Y/n} = \frac{X^2/1}{Y/n}。 因为 XN(0,1)X \sim N(0, 1),所以 X2χ2(1)X^2 \sim \chi^2(1)。 由 F 分布定义,分子为自由度为 1 的卡方变量除以其自由度,分母为自由度为 nn 的卡方变量除以其自由度,且分子分母独立。 因此 T2F(1,n)T^2 \sim F(1, n)

定义 F 分布的上 α\alpha 分位数 (Upper α\alpha Quantile of F-distribution):对于给定的 0<α<10 < \alpha < 1,称满足条件 P(F>Fα(n1,n2))=αP(F > F_\alpha(n_1, n_2)) = \alpha 的点 Fα(n1,n2)F_\alpha(n_1, n_2)F(n1,n2)F(n_1, n_2) 分布的上 α\alpha 分位数。

定义 F 分布分位数的倒数关系 (Reciprocal Property of F-quantiles):根据 F 分布的倒数性质,有 F1α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}

4. 正态总体的抽样分布定理

对于来自正态总体 N(μ,σ2)N(\mu, \sigma^2) 的简单随机样本 X1,X2,,XnX_1, X_2, \dots, X_n,其样本均值 Xˉ\bar{X} 和样本方差 S2S^2 的分布遵循一系列核心定理。

定义 抽样分布定理 (Sampling Distribution Theorems):描述正态样本函数(统计量)在样本量有限时的精确概率分布的定理集合。

4.1 单个正态总体

定义 定理 1(均值分布定理) (Distribution of Sample Mean):设 X1,,XnX_1, \dots, X_n 是来自 N(μ,σ2)N(\mu, \sigma^2) 的样本,则样本均值 XˉN(μ,σ2/n)\bar{X} \sim N(\mu, \sigma^2/n)

定义 定理 2(方差分布定理) (Distribution of Sample Variance):样本均值 Xˉ\bar{X} 与样本方差 S2S^2 相互独立,且统计量 (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

证明思路(正交变换法)
  1. 定义样本向量 X=(X1,,Xn)\mathbf{X} = (X_1, \dots, X_n)'
  2. 构造正交矩阵 A\mathbf{A},使得其第一行为 (1/n,,1/n)(1/\sqrt{n}, \dots, 1/\sqrt{n})
  3. Y=AX\mathbf{Y} = \mathbf{AX},则 Y1=nXˉY_1 = \sqrt{n}\bar{X}
  4. 由于正交变换保持独立性与分布,Y\mathbf{Y} 的各分量仍相互独立且服从正态分布。
  5. 利用 Xi2=Yi2\sum X_i^2 = \sum Y_i^2(n1)S2=Xi2nXˉ2=i=2nYi2(n-1)S^2 = \sum X_i^2 - n\bar{X}^2 = \sum_{i=2}^n Y_i^2
  6. 因此 (n1)S2/σ2=i=2n(Yi/σ)2(n-1)S^2/\sigma^2 = \sum_{i=2}^n (Y_i/\sigma)^2,这是 n1n-1 个独立标准正态变量的平方和,服从 χ2(n1)\chi^2(n-1)。同时 Y1Y_1(即 Xˉ\bar{X})与 Y2,,YnY_2, \dots, Y_n(即 S2S^2)独立。

定义 定理 3(t 统计量定理) (t-Statistic Theorem):统计量 T=XˉμS/nt(n1)T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)

证明

已知 Z=Xˉμσ/nN(0,1)Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)。 已知 W=(n1)S2σ2χ2(n1)W = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)。 且由定理 2,Xˉ\bar{X}S2S^2 独立,故 ZZWW 独立。 根据 t 分布定义:

T=ZW/(n1)=Xˉμσ/n(n1)S2σ2/(n1)=XˉμS/nT = \frac{Z}{\sqrt{W/(n-1)}} = \frac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}} = \frac{\bar{X} - \mu}{S/\sqrt{n}}

Tt(n1)T \sim t(n-1)

4.2 两个正态总体

定义 定理 4(方差比分布定理) (Distribution of Variance Ratio):设 S12S_1^2S22S_2^2 分别是来自两个独立正态总体 N(μ1,σ12)N(\mu_1, \sigma_1^2)N(μ2,σ22)N(\mu_2, \sigma_2^2) 的样本方差,则有 S12/σ12S22/σ22F(n11,n21)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)

σ12=σ22\sigma_1^2 = \sigma_2^2 时,该定理常用于方差齐性检验。

5. 分位数表的使用与分布关系总结

5.1 分位数表的使用

在实际应用中,我们需要通过查表获取特定的临界值。例如:

  • 对于 正态分布,常用值 z0.025=1.96z_{0.025} = 1.96(双侧检验中对应 95%95\% 置信水平)。
  • 查找 t0.05(10)t_{0.05}(10),需在 t 分布表中找到自由度 1010 对应 α=0.05\alpha=0.05 的列。

示例 1:已知 Xχ2(5)X \sim \chi^2(5),求 cc 使得 P(X>c)=0.05P(X > c) = 0.05。 解:查卡方分布表,自由度 55α=0.05\alpha = 0.05,得 c=χ0.052(5)=11.070c = \chi^2_{0.05}(5) = 11.070

示例 2:已知 FF(4,10)F \sim F(4, 10),求 F0.95(4,10)F_{0.95}(4, 10)。 解:利用倒数关系,F0.95(4,10)=1F0.05(10,4)F_{0.95}(4, 10) = \frac{1}{F_{0.05}(10, 4)}。查表得 F0.05(10,4)=5.96F_{0.05}(10, 4) = 5.96,故 F0.95(4,10)0.168F_{0.95}(4, 10) \approx 0.168

5.2 分布间的关系总结

三大抽样分布与正态分布之间存在紧密的内在联系:

  1. 基础:正态分布 N(0,1)N(0, 1) 是所有抽样分布的基石。
  2. 平方:标准正态变量的平方和构成卡方分布 χ2\chi^2
  3. 比例:标准正态变量与卡方变量开方之比构成 t 分布。
  4. 比率:两个独立卡方变量除以各自自由度之比构成 F 分布。
  5. 极限:当自由度增加时,χ2\chi^2 趋于正态(经标准化),t 趋于正态,F 的分子分母自由度趋于无穷时也展现出正态特性。

这些关系构成了现代统计推断的核心骨架。

参考文献

  1. Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
  2. Hogg, R. V., McKean, J., & Craig, A. T. (2018). Introduction to Mathematical Statistics (8th ed.). Pearson.
  3. 茆诗松, 程依明, 濮晓龙. (2019). 概率论与数理统计教程(第三版). 高等教育出版社.