假设检验
在前面的章节中,我们学习了如何利用样本信息对总体参数进行点估计和区间估计。然而在实际研究中,我们往往需要根据样本数据对关于总体的某个陈述或猜想做出决策。例如,某种新药是否比传统药物更有效?某生产线的产品合格率是否达到了 95% 以上?这些决策问题在统计学中被称为 假设检验 (Hypothesis Testing)。它是一种基于概率论的推断方法,通过考察观测到的样本数据与预设前提之间的矛盾程度,来决定是否拒绝该前提。
1. 假设检验的基本思想
假设检验的核心逻辑源自一种被称为“带有概率色彩的反证法”。我们首先假设关于总体的某种陈述是正确的,然后利用样本观测值去验证这一假设。如果观测到的结果在假设成立的前提下是一个极小概率事件,那么根据 小概率原理 (Principle of Small Probability Events) —— 即小概率事件在一次试验中几乎不会发生 —— 我们就有充分理由推翻最初的假设。
定义 原假设 (Null Hypothesis, ):研究者预先给出的关于总体的某种陈述,通常代表现状、无差异或无影响的状态。在检验过程中,我们倾向于保护 ,除非证据非常充分。
定义 备择假设 (Alternative Hypothesis, ):与原假设相对立的陈述。如果我们拒绝了 ,则逻辑上接受 。
定义 检验统计量 (Test Statistic):根据样本观察值计算的一个统计量,其分布在 为真时是已知的,它是我们做出决策的依据。
定义 拒绝域 (Rejection Region / Critical Region):由检验统计量的所有可能取值组成的集合中,导致拒绝原假设的取值范围。
定义 临界值 (Critical Value):拒绝域与接受域的分界点,通常由给定的显著性水平决定。
1.1 假设检验的一般步骤
- 根据实际问题提出原假设 和备择假设 。
- 选取合适的检验统计量,并确定其在 成立时的分布。
- 给定显著性水平 (通常取 0.05 或 0.01),并确定拒绝域的形式。
- 根据样本数据计算检验统计量的观测值。
- 比较观测值与临界值,做出统计决策:若统计量落在拒绝域内,则拒绝 ;否则不拒绝 。
2. 两类错误
由于我们是利用局部样本推断总体,决策过程中不可避免地存在出错的风险。
定义 第一类错误 (Type I Error / Error):当原假设 实际上为真时,我们却根据样本证据拒绝了它。这种错误被称为“弃真”错误。
定义 第二类错误 (Type II Error / Error):当原假设 实际上为假时,我们却未能拒绝它。这种错误被称为“纳伪”错误。
定义 显著性水平 (Significance Level):预先设定的犯第一类错误的最大允许概率,记为 。常见的取值有 0.05、0.01 等。
定义 检验的功效 (Power):在原假设为假(即备择假设为真)时,正确地拒绝原假设的概率,记为 。
定义 功效函数 (Power Function):表示为参数 的函数 。它描述了检验在不同参数值下的表现。
在样本量 固定时, 与 是一对矛盾。如果我们试图极度减小 (即变得非常谨慎,不轻易拒绝 ),那么当 确实为假时,我们也很难发现,从而导致 增大。统计学中遵循 Neyman-Pearson 原则:在控制第一类错误概率 在给定水平的前提下,尽可能地减小第二类错误概率 。
3. 正态总体均值的检验
3.1 单个正态总体均值的检验
设总体 ,其中 未知。我们要检验 。
(1) 已知:Z 检验
当方差已知时,由第三章可知样本均值 。在 下,检验统计量为:
对于双侧检验 ,拒绝域为 。
例 6.1:某工厂生产的零件直径服从正态分布 。标准直径为 10 mm。现抽取 25 个零件,测得平均直径为 10.02 mm。在 下,能否认为该批零件合格? 解:
- vs 。
- 统计量 。
- 查表得 。
- 因为 ,落在拒绝域内,故拒绝 ,认为零件直径不合格。
(2) 未知:t 检验
当方差未知时,用样本标准差 代替 ,统计量服从 分布:
例 6.2:测得 9 名成年男子的脉搏为:72, 68, 75, 70, 80, 71, 73, 69, 74。已知正常人平均脉搏为 72 次/分。问这些男子的脉搏与常人是否有显著差异 ()? 解:
- 计算得 。
- vs 。
- 。
- 查表 。
- ,不能拒绝 。结论:没有显著差异。
3.2 两个正态总体均值差的检验
设两个独立总体 ,。
(1) 未知:两样本 t 检验
我们构造合并样本方差 (pooled variance):
检验统计量为:
(2) 未知:Welch t 检验
此时自由度需要进行 Satterthwaite 修正。
定义 配对 t 检验 (Paired t-test):针对成对数据(如同一受试者前后的测量值),计算其差值 ,然后对 进行单样本 检验。
4. 正态总体方差的检验
4.1 单个总体方差的检验
检验 。基于第五章讨论的抽样分布,统计量为:
例 6.3:某自动灌装机灌装重量的标准差要求不超过 5g。现抽查 10 瓶,得 。在 下,该机器工作是否稳定? 解:
- vs 。
- 。
- 查表 。
- ,不拒绝 ,认为机器稳定。
4.2 两个总体方差比的检验
检验 。统计量为:
5. p 值
传统的假设检验依赖于预先选定的 。而现代统计分析更倾向于直接报告概率证据。
定义 p 值 (p-value):在原假设 为真的前提下,观测到的检验统计量取到当前观测值或比该观测值更极端的情况的概率。
p 值越小,说明观测结果与 的矛盾越剧烈。
- 若 ,则在显著性水平 下拒绝 。
- 若 ,则不拒绝 。
p 值的优势在于它不依赖于具体的 选择,读者可以根据自己对风险的接受程度自行判断结论的可靠性。
6. 拟合优度检验
有时我们需要检验总体是否服从某种特定的分布。
定义 拟合优度检验 (Goodness-of-fit Test):根据样本观察值判断总体是否符合某种理论分布的统计检验方法。
最常用的是 Pearson 检验统计量:
其中 是观察频数, 是基于理论分布计算的期望频数。在 为真的条件下,该统计量渐进服从 分布,其中 是利用样本估计的参数个数。
7. 假设检验与区间估计的关系
假设检验与第五章讨论的区间估计在逻辑上是互通的。对于双侧检验 :
- 如果 落入参数 的 置信区间内,则在 水平下不能拒绝 。
- 如果 不在 置信区间内,则在 水平下拒绝 。
这种对等性说明,置信区间不仅给出了参数的取值范围,也实际上包含了所有在给定显著性水平下不能被拒绝的假设值。
关于 t 检验统计量分布的推导
设 独立同分布于 。 已知 ,且 。 由于 与 相互独立,根据 分布定义:
参考文献
- Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury.
- 陈希孺. (2000). 《概率论与数理统计》. 科学出版社.
- Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.