抽样分布
在上一章中,我们学习了统计量的基本概念。统计量是样本的函数,它是随机变量。既然统计量是随机变量,它就有其自身的概率分布。统计量的概率分布被称为 抽样分布(Sampling Distribution)。抽样分布是进行参数估计和假设检验的理论基础。本章将深入探讨三个基于正态总体的基本抽样分布:卡方分布、t 分布和 F 分布,并介绍正态总体下统计量的核心定理。
1. 卡方分布
卡方分布是由若干个相互独立的正态随机变量的平方和组成的分布,在分类数据分析和方差检验中起着核心作用。
定义 卡方分布 (Chi-squared Distribution):设 是来自标准正态分布 的简单随机样本,则称随机变量 服从自由度为 的卡方分布,记作 。
定义 自由度 (Degrees of Freedom):在统计学中,自由度是指样本中能够自由变化的观测值的个数。对于卡方分布 ,其自由度即为独立标准正态随机变量的个数 。
1.1 卡方分布的性质
卡方分布具有以下重要的数学性质:
- 期望与方差:若 ,则其期望 ,方差 。
- 可加性:设 ,,且 与 相互独立,则 。
- 与伽马分布的关系:卡方分布是 伽马分布 的特例。具体而言, 等价于参数为 的伽马分布 。
1.2 密度函数与分位数
卡方分布 的概率密度函数为:
其中 为伽马函数。
定义 卡方分布的上 分位数 (Upper Quantile):对于给定的 ,称满足条件 的点 为 分布的上 分位数。
2. t 分布
t 分布由英国统计学家威廉·戈塞特(William Gosset)于 1908 年以笔名 "Student" 发表,因此也称为学生 t 分布。它常用于样本量较小、总体方差未知的均值检验。
定义 t 分布 (Student's t-distribution):设 ,,且 与 相互独立,则称随机变量 服从自由度为 的 t 分布,记作 。
2.1 t 分布的性质
- 对称性:t 分布的密度函数关于 对称,其图形类似于标准正态分布,但具有更厚的尾部("肥尾"现象)。
- 期望与方差:若 ,当 时,;当 时,。
- 收敛性:当自由度 时,t 分布的密度函数趋近于标准正态分布 。这与 中心极限定理 的思想相呼应。
定义 t 分布的上 分位数 (Upper Quantile of t-distribution):对于给定的 ,称满足条件 的点 为 分布的上 分位数。由于对称性,有 。
3. F 分布
F 分布主要用于比较两个正态总体的方差,在方差分析(ANOVA)和回归分析中有着广泛的应用。
定义 F 分布 (F-distribution):设 ,,且 与 相互独立,则称随机变量 服从自由度为 的 F 分布,记作 。其中 称为第一自由度(分子自由度), 称为第二自由度(分母自由度)。
3.1 F 分布的性质
- 倒数性质:若 ,则其倒数 。
- 与 t 分布的关系:若 ,则 。
证明:
根据 t 分布定义,,其中 ,。 则 。 因为 ,所以 。 由 F 分布定义,分子为自由度为 1 的卡方变量除以其自由度,分母为自由度为 的卡方变量除以其自由度,且分子分母独立。 因此 。
定义 F 分布的上 分位数 (Upper Quantile of F-distribution):对于给定的 ,称满足条件 的点 为 分布的上 分位数。
定义 F 分布分位数的倒数关系 (Reciprocal Property of F-quantiles):根据 F 分布的倒数性质,有 。
4. 正态总体的抽样分布定理
对于来自正态总体 的简单随机样本 ,其样本均值 和样本方差 的分布遵循一系列核心定理。
定义 抽样分布定理 (Sampling Distribution Theorems):描述正态样本函数(统计量)在样本量有限时的精确概率分布的定理集合。
4.1 单个正态总体
定义 定理 1(均值分布定理) (Distribution of Sample Mean):设 是来自 的样本,则样本均值 。
定义 定理 2(方差分布定理) (Distribution of Sample Variance):样本均值 与样本方差 相互独立,且统计量 。
证明思路(正交变换法)
- 定义样本向量 。
- 构造正交矩阵 ,使得其第一行为 。
- 令 ,则 。
- 由于正交变换保持独立性与分布, 的各分量仍相互独立且服从正态分布。
- 利用 和 。
- 因此 ,这是 个独立标准正态变量的平方和,服从 。同时 (即 )与 (即 )独立。
定义 定理 3(t 统计量定理) (t-Statistic Theorem):统计量 。
证明
已知 。 已知 。 且由定理 2, 与 独立,故 与 独立。 根据 t 分布定义:
故 。
4.2 两个正态总体
定义 定理 4(方差比分布定理) (Distribution of Variance Ratio):设 和 分别是来自两个独立正态总体 和 的样本方差,则有 。
当 时,该定理常用于方差齐性检验。
5. 分位数表的使用与分布关系总结
5.1 分位数表的使用
在实际应用中,我们需要通过查表获取特定的临界值。例如:
- 对于 正态分布,常用值 (双侧检验中对应 置信水平)。
- 查找 ,需在 t 分布表中找到自由度 对应 的列。
示例 1:已知 ,求 使得 。 解:查卡方分布表,自由度 ,,得 。
示例 2:已知 ,求 。 解:利用倒数关系,。查表得 ,故 。
5.2 分布间的关系总结
三大抽样分布与正态分布之间存在紧密的内在联系:
- 基础:正态分布 是所有抽样分布的基石。
- 平方:标准正态变量的平方和构成卡方分布 。
- 比例:标准正态变量与卡方变量开方之比构成 t 分布。
- 比率:两个独立卡方变量除以各自自由度之比构成 F 分布。
- 极限:当自由度增加时, 趋于正态(经标准化),t 趋于正态,F 的分子分母自由度趋于无穷时也展现出正态特性。
这些关系构成了现代统计推断的核心骨架。
参考文献
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
- Hogg, R. V., McKean, J., & Craig, A. T. (2018). Introduction to Mathematical Statistics (8th ed.). Pearson.
- 茆诗松, 程依明, 濮晓龙. (2019). 概率论与数理统计教程(第三版). 高等教育出版社.