区间估计
在上一章中,我们讨论了点估计,即用一个具体的数值作为参数的估计值。点估计虽然直观,但它存在一个显著的局限:我们无法得知这个估计值与参数真实值之间的接近程度。即便点估计量具有优良的性质(如无偏性),在特定的随机样本下,估计值与真实值之间仍可能存在不可忽视的偏差。为了衡量估计的精确度和可靠性,我们需要引入区间估计。区间估计不仅提供一个估计范围,还给出该范围包含参数真实值的概率保证,从而为决策提供更完备的信息。
1. 区间估计的基本概念
区间估计的任务是根据样本数据,构造出两个统计量 和 ,形成一个随机区间 ,使得该区间以预先给定的概率包含未知参数 。
定义 置信区间 (Confidence Interval) 设 是总体的一个待估参数,对于给定的 (),如果由样本确定的两个统计量 和 满足 ,则称随机区间 为 的置信水平为 的置信区间。
定义 置信水平 (Confidence Level) 置信水平即概率 ,它表示了区间估计的可靠程度。在实际应用中,常见的置信水平取值为 0.95 或 0.99。
定义 置信上限与置信下限 (Confidence Limits) 在置信区间 中, 称为置信下限 (Lower Confidence Limit), 称为置信上限 (Upper Confidence Limit)。
对于置信区间的理解需要特别注意其频率学派的解释。当一个具体的样本被观测到并计算出区间 后,参数 落在该区间内的概率要么是 1,要么是 0,因为 是一个固定的常数。置信水平 的含义是:如果我们重复进行多次抽样并构造区间,大约有 的区间会包含真实参数。
区间估计涉及两个核心指标:可靠度(即置信水平 )与精确度(即区间长度 )。在样本量固定的情况下,这两者是矛盾的。提高可靠度通常会增加区间长度,从而降低精确度。优秀的估计应在保证足够可靠度的前提下,尽可能提高精确度。
2. 枢轴量法
构造置信区间最通用的方法是枢轴量法。其核心思想是构造一个包含待估参数和样本,但其分布不依赖于任何未知参数的随机变量。
定义 枢轴量 (Pivotal Quantity) 设样本 来自含有待估参数 的总体。如果随机变量 的分布是已知的,且不依赖于 及其他未知参数,则称 为参数 的枢轴量。
利用枢轴量构造置信区间的步骤如下:
- 确定一个合适的统计量(如极大似然估计量),并由此构造枢轴量 。
- 确定枢轴量 的分布(如正态分布、t 分布等)。
- 对于给定的置信水平 ,寻找常数 ,使得 。
- 通过代数变形,将不等式 转化为 的形式。
3. 正态总体均值的置信区间
设样本 来自正态总体 ,我们需要估计均值 。
3.1 已知(z 区间)
当总体方差 已知时,由于样本均值 ,我们可以构造如下枢轴量。
枢轴量构造与推导
令 。 由正态分布性质可知,。 给定 ,根据标准正态分布的对称性,选取分位数 使得:
解不等式:
因此, 的置信区间为:
例题 3.1 某机器包装出的食盐重量服从正态分布 (单位:kg)。随机抽取 9 袋,测得平均重量为 0.502 kg。求 的 95% 置信区间。 解:已知 。对于 ,。 误差限为 。 置信区间为 。
3.2 未知(t 区间)
在实际中, 往往是未知的。此时我们用样本标准差 代替 。
当样本量 较大时(通常 ),根据大数定律和中心极限定理, 分布近似于标准正态分布,t 区间可以用 z 区间近似。
例题 3.2 测量某种金属的抗拉强度(单位:MPa),得到 5 个数据:398, 412, 405, 390, 415。假设强度服从正态分布,求均值的 95% 置信区间。 解:计算得 。 查表得 。 区间半径为 。 置信区间为 。
4. 正态总体方差的置信区间
估计正态总体的方差 时,我们利用样本方差 构造枢轴量。
枢轴量推导
已知 。 对于给定的 ,选取分位数使得:
解得 的置信区间为:
需要注意,卡方分布 是非对称的,因此置信限的分位数需要分别查表确定。
例题 4.1 在例题 3.2 中,求抗拉强度方差 的 95% 置信区间。 解:。 查表 。 下限:。 上限:。 区间为 。
5. 两个正态总体的置信区间
考虑两个独立样本 和 。
5.1 均值差 的置信区间
方差 已知: 枢轴量 。 区间为:。
方差未知但相等 : 此时需要计算合并样本方差。
定义 合并样本方差 (Pooled Sample Variance) 设两个独立样本的方差分别为 和 ,样本量为 和 ,则合并样本方差定义为:
枢轴量 。
- 方差未知且不等: 使用 Welch 近似。自由度计算较复杂,通常借助软件完成。
5.2 方差比 的置信区间
利用 F 分布 构造枢轴量:
置信区间为:
6. 单侧置信限
在某些场景下(如设备寿命、有害物质含量),我们只关心参数的一个边界。
定义 单侧置信下限 (One-sided Lower Confidence Limit) 满足 的统计量 。例如,我们希望保证灯泡寿命至少为多少小时。
定义 单侧置信上限 (One-sided Upper Confidence Limit) 满足 的统计量 。例如,控制废气排放量的上限。
单侧估计与双侧的区别在于,显著性水平 全部放在分布的一侧。以 已知下的均值估计为例,单侧下限为 。
7. 样本量的确定
设计实验时,我们常问:为了达到某种精度,需要多少样本?
设要求的误差限(区间半径)为 。在 已知下:
定义 最小样本量 (Minimum Sample Size) 给定置信水平 和允许误差 ,估计正态均值所需的最小样本量公式为:
例题 7.1 欲估计某批零件的平均直径,已知直径分布的 mm。要求在 95% 置信水平下,误差不超过 0.1 mm,问至少应抽取多少个零件? 解:。 。 故至少应抽取 97 个零件。
参考文献
- 陈希孺. 概率论与数理统计 [M]. 中国科学技术大学出版社, 2009.
- 盛骤, 谢式千, 潘承毅. 概率论与数理统计 [M]. 高等教育出版社, 2008.
- Casella, G., & Berger, R. L. Statistical Inference [M]. Cengage Learning, 2002.