统计学的基本概念
在探索自然界和社会现象的过程中,我们经常面临不确定性和变异性。 概率论 为我们提供了一个从模型推导数据的数学框架,即假设已知某种随机现象的概率模型,研究其可能产生的数据特征。然而,在现实的科学研究中,我们往往处于相反的状态:我们拥有观测到的数据,但并不清楚产生这些数据的潜在机制或模型。
统计学正是解决这一问题的学科。它研究如何科学地收集、整理、分析受随机性影响的数据,并据此对所研究的问题作出推断。简单来说,概率论是从模型到数据的演绎过程,而统计学则是从数据到模型的归纳过程。通过对样本的分析,我们试图揭示 随机变量 背后的总体特征。
1. 总体与样本
统计研究的起点是明确研究对象。我们通常关注某个具有共同特征的群体。
定义 总体(Population)研究对象的全体。在数理统计中,总体通常用一个 随机变量 表示,我们的目标是研究 的分布特征。
定义 个体(Individual)总体中的每一个成员。例如,研究某批灯泡的寿命时,这批灯泡的所有个体构成了总体,而每一个灯泡就是一个个体。
定义 总体分布(Population Distribution)总体 所服从的概率分布。这可以是离散型的,也可以是连续型的。
总体的分类通常基于其包含个体的数量。如果一个个体集合包含有限个元素,称为 有限总体(Finite Population);如果包含无限个元素,或者数量巨大到可以近似看作无限,则称为 无限总体(Infinite Population)。在数理统计的理论框架下,我们主要讨论无限总体。
例如,我们要研究某校大一新生的英语入学考试成绩。这里的总体就是所有新生的成绩。由于我们无法或没必要对每一个学生进行全量普查,我们往往会抽取一部分学生作为代表。
2. 抽样
为了了解总体,我们需要从中抽取一部分个体进行观察。这个抽取的动作被称为 抽样(Sampling)。
定义 简单随机样本(Simple Random Sample)设 是从总体 中抽取的 个个体。如果它们满足以下两个条件,则称其为容量为 的简单随机样本:
- 代表性:每个 与总体 具有相同的分布。
- 随机性: 是相互独立的 随机变量 。
简称为 i.i.d. 样本(Independent and Identically Distributed)。
定义 样本观测值(Sample Observation)当抽样完成后,随机变量 取得的具体数值 。
定义 样本空间(Sample Space)所有可能产生的样本观测值的集合,通常是 的一个子集。
对于简单随机样本,其联合概率密度函数(或联合分布律)可以写成边缘分布的乘积:
其中 是总体 的概率分布。通过分析这些相互独立的观测数据,我们可以反推总体的参数或分布形式。
3. 统计量
样本中包含了总体的各种信息,但这些信息往往是杂乱无章的。为了提取有用的信息,我们需要对样本进行加工。
定义 统计量(Statistic)设 是样本,如果函数 不含任何未知参数,则称 为一个统计量。
关键概念:统计量是样本的函数,因此它本身也是一个随机变量。在抽样之前,它的值是不确定的;在抽样之后,它对应一个具体的数值。统计量的概率分布称为 抽样分布(Sampling Distribution)。
下面介绍几个最常用的统计量:
定义 样本均值(Sample Mean)定义为样本的算术平均值:
它反映了总体 数学期望 的集中趋势。
定义 样本方差(Sample Variance)定义为:
为什么分母是 而不是 ?
在概率论中,我们知道总体的 方差 是以 为基准计算的。但在统计学中,总体的均值 往往是未知的,我们被迫使用样本均值 来代替它。
由于 ,两边取期望可以得到:
因此,只有除以 ,才能使得 的期望等于总体的方差 。这种性质被称为 无偏性(Unbiasedness)。
定义 样本标准差(Sample Standard Deviation)样本方差的算术平方根 。
此外,我们还可以定义 样本 阶矩 和 样本 阶中心矩 。这些量在矩估计法中扮演重要角色。
4. 经验分布函数
如果我们对总体的分布形式一无所知,我们可以利用样本来构造一个函数,以逼近总体的分布函数。
定义 经验分布函数(Empirical Distribution Function)设 是样本,对于任意实数 ,定义 为:
其中 是指示函数。直观上看, 就是样本观测值中小于或等于 的个数所占的比例。
根据 大数定律,当样本量 时,对于固定的 , 以概率 1 收敛于总体分布函数 。
更进一步,格里文科-坎特利定理(Glivenko-Cantelli Theorem)指出,这种收敛是在整个实数轴上一致收敛的:
这意味着,只要样本量足够大,经验分布函数几乎可以完全代表总体分布函数。
5. 充分统计量
在处理数据时,我们希望通过统计量来“压缩”数据,同时又不损失有关未知参数的任何关键信息。
定义 充分统计量(Sufficient Statistic)如果对于给定的统计量 的值,样本的条件分布与未知参数 无关,则称 是关于参数 的充分统计量。
换言之,如果我们知道了 的值,再看原始样本数据,并不能提供更多关于 的新信息。
判别充分统计量的一个强有力工具是 费希尔-内曼因子分解定理(Fisher-Neyman Factorization Theorem):
因子分解定理的内容
设随机变量 的概率密度函数(或分布律)为 。统计量 是关于 的充分统计量的充要条件是: 可以分解为两个非负函数 和 的乘积,形式如下:
其中 仅通过 依赖于 ,而 与 无关。
例子:在正态总体 中,通过计算联合概率密度可以发现,样本均值 和样本方差 的组合 构成了总体参数 的充分统计量。这意味着在进行参数估计或假设检验时,我们只需要保留这两个数值,而不需要记住上千个原始观测数据。
参考文献
- 盛骤, 谢式千, 潘承毅. 概率论与数理统计 (第五版). 高等教育出版社.
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd Edition). Duxbury Press.
- 陈希孺. 数理统计引论. 科学出版社.