抽样分布

在上一章中，我们学习了统计量的基本概念。统计量是样本的函数，它是随机变量。既然统计量是随机变量，它就有其自身的概率分布。统计量的概率分布被称为 抽样分布（Sampling Distribution）。抽样分布是进行参数估计和假设检验的理论基础。本章将深入探讨三个基于正态总体的基本抽样分布：卡方分布、t 分布和 F 分布，并介绍正态总体下统计量的核心定理。

1. 卡方分布

卡方分布是由若干个相互独立的正态随机变量的平方和组成的分布，在分类数据分析和方差检验中起着核心作用。

定义 卡方分布 (Chi-squared Distribution)：设 $X_1, X_2, \dots, X_n$ 是来自标准正态分布 $N(0, 1)$ 的简单随机样本，则称随机变量 $\chi^2 = \sum_{i=1}^n X_i^2$ 服从自由度为 $n$ 的卡方分布，记作 $\chi^2 \sim \chi^2(n)$ 。

定义 自由度 (Degrees of Freedom)：在统计学中，自由度是指样本中能够自由变化的观测值的个数。对于卡方分布 $\chi^2(n)$ ，其自由度即为独立标准正态随机变量的个数 $n$ 。

1.1 卡方分布的性质

卡方分布具有以下重要的数学性质：

期望与方差：若 $X \sim \chi^2(n)$ ，则其期望 $E[X] = n$ ，方差 $Var(X) = 2n$ 。
可加性：设 $X \sim \chi^2(n_1)$ ， $Y \sim \chi^2(n_2)$ ，且 $X$ 与 $Y$ 相互独立，则 $X + Y \sim \chi^2(n_1 + n_2)$ 。
与伽马分布的关系：卡方分布是伽马分布的特例。具体而言， $\chi^2(n)$ 等价于参数为 $\alpha = n/2, \beta = 1/2$ 的伽马分布 $Ga(n/2, 1/2)$ 。

1.2 密度函数与分位数

卡方分布 $\chi^2(n)$ 的概率密度函数为：

f(x; n) = \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)} x^{n/2-1} e^{-x/2}, & x > 0 \\ 0, & x \leqslant 0 \end{cases}

其中 $\Gamma(\cdot)$ 为伽马函数。

定义 卡方分布的上 $\alpha$ 分位数 (Upper $\alpha$ Quantile)：对于给定的 $0 < \alpha < 1$ ，称满足条件 $P(\chi^2 > \chi^2_\alpha(n)) = \alpha$ 的点 $\chi^2_\alpha(n)$ 为 $\chi^2(n)$ 分布的上 $\alpha$ 分位数。

2. t 分布

t 分布由英国统计学家威廉·戈塞特（William Gosset）于 1908 年以笔名 "Student" 发表，因此也称为学生 t 分布。它常用于样本量较小、总体方差未知的均值检验。

定义 t 分布 (Student's t-distribution)：设 $X \sim N(0, 1)$ ， $Y \sim \chi^2(n)$ ，且 $X$ 与 $Y$ 相互独立，则称随机变量 $T = \frac{X}{\sqrt{Y/n}}$ 服从自由度为 $n$ 的 t 分布，记作 $T \sim t(n)$ 。

2.1 t 分布的性质

对称性：t 分布的密度函数关于 $t = 0$ 对称，其图形类似于标准正态分布，但具有更厚的尾部（"肥尾"现象）。
期望与方差：若 $T \sim t(n)$ ，当 $n > 1$ 时， $E[T] = 0$ ；当 $n > 2$ 时， $Var(T) = \frac{n}{n-2}$ 。
收敛性：当自由度 $n \to \infty$ 时，t 分布的密度函数趋近于标准正态分布 $N(0, 1)$ 。这与中心极限定理的思想相呼应。

定义 t 分布的上 $\alpha$ 分位数 (Upper $\alpha$ Quantile of t-distribution)：对于给定的 $0 < \alpha < 1$ ，称满足条件 $P(T > t_\alpha(n)) = \alpha$ 的点 $t_\alpha(n)$ 为 $t(n)$ 分布的上 $\alpha$ 分位数。由于对称性，有 $t_{1-\alpha}(n) = -t_\alpha(n)$ 。

3. F 分布

F 分布主要用于比较两个正态总体的方差，在方差分析（ANOVA）和回归分析中有着广泛的应用。

定义 F 分布 (F-distribution)：设 $U \sim \chi^2(n_1)$ ， $V \sim \chi^2(n_2)$ ，且 $U$ 与 $V$ 相互独立，则称随机变量 $F = \frac{U/n_1}{V/n_2}$ 服从自由度为 $(n_1, n_2)$ 的 F 分布，记作 $F \sim F(n_1, n_2)$ 。其中 $n_1$ 称为第一自由度（分子自由度）， $n_2$ 称为第二自由度（分母自由度）。

3.1 F 分布的性质

倒数性质：若 $F \sim F(n_1, n_2)$ ，则其倒数 $\frac{1}{F} \sim F(n_2, n_1)$ 。
与 t 分布的关系：若 $T \sim t(n)$ ，则 $T^2 \sim F(1, n)$ 。

证明：

T^2 \sim F(1, n)

根据 t 分布定义， $T = \frac{X}{\sqrt{Y/n}}$ ，其中 $X \sim N(0, 1)$ ， $Y \sim \chi^2(n)$ 。则 $T^2 = \frac{X^2}{Y/n} = \frac{X^2/1}{Y/n}$ 。因为 $X \sim N(0, 1)$ ，所以 $X^2 \sim \chi^2(1)$ 。由 F 分布定义，分子为自由度为 1 的卡方变量除以其自由度，分母为自由度为 $n$ 的卡方变量除以其自由度，且分子分母独立。因此 $T^2 \sim F(1, n)$ 。

定义 F 分布的上 $\alpha$ 分位数 (Upper $\alpha$ Quantile of F-distribution)：对于给定的 $0 < \alpha < 1$ ，称满足条件 $P(F > F_\alpha(n_1, n_2)) = \alpha$ 的点 $F_\alpha(n_1, n_2)$ 为 $F(n_1, n_2)$ 分布的上 $\alpha$ 分位数。

定义 F 分布分位数的倒数关系 (Reciprocal Property of F-quantiles)：根据 F 分布的倒数性质，有 $F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}$ 。

4. 正态总体的抽样分布定理

对于来自正态总体 $N(\mu, \sigma^2)$ 的简单随机样本 $X_1, X_2, \dots, X_n$ ，其样本均值 $\bar{X}$ 和样本方差 $S^2$ 的分布遵循一系列核心定理。

定义 抽样分布定理 (Sampling Distribution Theorems)：描述正态样本函数（统计量）在样本量有限时的精确概率分布的定理集合。

4.1 单个正态总体

定义 定理 1（均值分布定理） (Distribution of Sample Mean)：设 $X_1, \dots, X_n$ 是来自 $N(\mu, \sigma^2)$ 的样本，则样本均值 $\bar{X} \sim N(\mu, \sigma^2/n)$ 。

定义 定理 2（方差分布定理） (Distribution of Sample Variance)：样本均值 $\bar{X}$ 与样本方差 $S^2$ 相互独立，且统计量 $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ 。

证明思路（正交变换法）

定义样本向量 $\mathbf{X} = (X_1, \dots, X_n)'$ 。
构造正交矩阵 $\mathbf{A}$ ，使得其第一行为 $(1/\sqrt{n}, \dots, 1/\sqrt{n})$ 。
令 $\mathbf{Y} = \mathbf{AX}$ ，则 $Y_1 = \sqrt{n}\bar{X}$ 。
由于正交变换保持独立性与分布， $\mathbf{Y}$ 的各分量仍相互独立且服从正态分布。
利用 $\sum X_i^2 = \sum Y_i^2$ 和 $(n-1)S^2 = \sum X_i^2 - n\bar{X}^2 = \sum_{i=2}^n Y_i^2$ 。
因此 $(n-1)S^2/\sigma^2 = \sum_{i=2}^n (Y_i/\sigma)^2$ ，这是 $n-1$ 个独立标准正态变量的平方和，服从 $\chi^2(n-1)$ 。同时 $Y_1$ （即 $\bar{X}$ ）与 $Y_2, \dots, Y_n$ （即 $S^2$ ）独立。

定义 定理 3（t 统计量定理） (t-Statistic Theorem)：统计量 $T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$ 。

证明

已知 $Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$ 。已知 $W = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ 。且由定理 2， $\bar{X}$ 与 $S^2$ 独立，故 $Z$ 与 $W$ 独立。根据 t 分布定义：

T = \frac{Z}{\sqrt{W/(n-1)}} = \frac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}} = \frac{\bar{X} - \mu}{S/\sqrt{n}}

故 $T \sim t(n-1)$ 。

4.2 两个正态总体

定义 定理 4（方差比分布定理） (Distribution of Variance Ratio)：设 $S_1^2$ 和 $S_2^2$ 分别是来自两个独立正态总体 $N(\mu_1, \sigma_1^2)$ 和 $N(\mu_2, \sigma_2^2)$ 的样本方差，则有 $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)$ 。

当 $\sigma_1^2 = \sigma_2^2$ 时，该定理常用于方差齐性检验。

5. 分位数表的使用与分布关系总结

5.1 分位数表的使用

在实际应用中，我们需要通过查表获取特定的临界值。例如：

对于正态分布，常用值 $z_{0.025} = 1.96$ （双侧检验中对应 $95\%$ 置信水平）。
查找 $t_{0.05}(10)$ ，需在 t 分布表中找到自由度 $10$ 对应 $\alpha=0.05$ 的列。

示例 1：已知 $X \sim \chi^2(5)$ ，求 $c$ 使得 $P(X > c) = 0.05$ 。解：查卡方分布表，自由度 $5$ ， $\alpha = 0.05$ ，得 $c = \chi^2_{0.05}(5) = 11.070$ 。

示例 2：已知 $F \sim F(4, 10)$ ，求 $F_{0.95}(4, 10)$ 。解：利用倒数关系， $F_{0.95}(4, 10) = \frac{1}{F_{0.05}(10, 4)}$ 。查表得 $F_{0.05}(10, 4) = 5.96$ ，故 $F_{0.95}(4, 10) \approx 0.168$ 。

5.2 分布间的关系总结

三大抽样分布与正态分布之间存在紧密的内在联系：

基础：正态分布 $N(0, 1)$ 是所有抽样分布的基石。
平方：标准正态变量的平方和构成卡方分布 $\chi^2$ 。
比例：标准正态变量与卡方变量开方之比构成 t 分布。
比率：两个独立卡方变量除以各自自由度之比构成 F 分布。
极限：当自由度增加时， $\chi^2$ 趋于正态（经标准化），t 趋于正态，F 的分子分母自由度趋于无穷时也展现出正态特性。

这些关系构成了现代统计推断的核心骨架。

参考文献

Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
Hogg, R. V., McKean, J., & Craig, A. T. (2018). Introduction to Mathematical Statistics (8th ed.). Pearson.
茆诗松, 程依明, 濮晓龙. (2019). 概率论与数理统计教程（第三版）. 高等教育出版社.

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

抽样分布

1. 卡方分布

1.1 卡方分布的性质

1.2 密度函数与分位数

2. t 分布

2.1 t 分布的性质

3. F 分布

3.1 F 分布的性质

4. 正态总体的抽样分布定理

4.1 单个正态总体

4.2 两个正态总体

5. 分位数表的使用与分布关系总结

5.1 分位数表的使用

5.2 分布间的关系总结

参考文献

抽样分布 ​

1. 卡方分布 ​

1.1 卡方分布的性质 ​

1.2 密度函数与分位数 ​

2. t 分布 ​

2.1 t 分布的性质 ​

3. F 分布 ​

3.1 F 分布的性质 ​

4. 正态总体的抽样分布定理 ​

4.1 单个正态总体 ​

4.2 两个正态总体 ​

5. 分位数表的使用与分布关系总结 ​

5.1 分位数表的使用 ​

5.2 分布间的关系总结 ​

参考文献 ​

抽样分布

1. 卡方分布

1.1 卡方分布的性质

1.2 密度函数与分位数

2. t 分布

2.1 t 分布的性质

3. F 分布

3.1 F 分布的性质

4. 正态总体的抽样分布定理

4.1 单个正态总体

4.2 两个正态总体

5. 分位数表的使用与分布关系总结

5.1 分位数表的使用

5.2 分布间的关系总结

参考文献