Skip to content

统计学的基本概念

在探索自然界和社会现象的过程中,我们经常面临不确定性和变异性。 概率论 为我们提供了一个从模型推导数据的数学框架,即假设已知某种随机现象的概率模型,研究其可能产生的数据特征。然而,在现实的科学研究中,我们往往处于相反的状态:我们拥有观测到的数据,但并不清楚产生这些数据的潜在机制或模型。

统计学正是解决这一问题的学科。它研究如何科学地收集、整理、分析受随机性影响的数据,并据此对所研究的问题作出推断。简单来说,概率论是从模型到数据的演绎过程,而统计学则是从数据到模型的归纳过程。通过对样本的分析,我们试图揭示 随机变量 背后的总体特征。

1. 总体与样本

统计研究的起点是明确研究对象。我们通常关注某个具有共同特征的群体。

定义 总体(Population)研究对象的全体。在数理统计中,总体通常用一个 随机变量 XX 表示,我们的目标是研究 XX 的分布特征。

定义 个体(Individual)总体中的每一个成员。例如,研究某批灯泡的寿命时,这批灯泡的所有个体构成了总体,而每一个灯泡就是一个个体。

定义 总体分布(Population Distribution)总体 XX 所服从的概率分布。这可以是离散型的,也可以是连续型的。

总体的分类通常基于其包含个体的数量。如果一个个体集合包含有限个元素,称为 有限总体(Finite Population);如果包含无限个元素,或者数量巨大到可以近似看作无限,则称为 无限总体(Infinite Population)。在数理统计的理论框架下,我们主要讨论无限总体。

例如,我们要研究某校大一新生的英语入学考试成绩。这里的总体就是所有新生的成绩。由于我们无法或没必要对每一个学生进行全量普查,我们往往会抽取一部分学生作为代表。

2. 抽样

为了了解总体,我们需要从中抽取一部分个体进行观察。这个抽取的动作被称为 抽样(Sampling)。

定义 简单随机样本(Simple Random Sample)设 X1,X2,,XnX_1, X_2, \dots, X_n 是从总体 XX 中抽取的 nn 个个体。如果它们满足以下两个条件,则称其为容量为 nn 的简单随机样本:

  1. 代表性:每个 XiX_i 与总体 XX 具有相同的分布。
  2. 随机性X1,X2,,XnX_1, X_2, \dots, X_n 是相互独立的 随机变量

简称为 i.i.d. 样本(Independent and Identically Distributed)。

定义 样本观测值(Sample Observation)当抽样完成后,随机变量 X1,X2,,XnX_1, X_2, \dots, X_n 取得的具体数值 x1,x2,,xnx_1, x_2, \dots, x_n

定义 样本空间(Sample Space)所有可能产生的样本观测值的集合,通常是 Rn\mathbb{R}^n 的一个子集。

对于简单随机样本,其联合概率密度函数(或联合分布律)可以写成边缘分布的乘积:

f(x1,x2,,xn)=i=1nf(xi)f(x_1, x_2, \dots, x_n) = \prod_{i=1}^n f(x_i)

其中 f(x)f(x) 是总体 XX 的概率分布。通过分析这些相互独立的观测数据,我们可以反推总体的参数或分布形式。

3. 统计量

样本中包含了总体的各种信息,但这些信息往往是杂乱无章的。为了提取有用的信息,我们需要对样本进行加工。

定义 统计量(Statistic)设 X1,X2,,XnX_1, X_2, \dots, X_n 是样本,如果函数 T=g(X1,X2,,Xn)T = g(X_1, X_2, \dots, X_n) 不含任何未知参数,则称 TT 为一个统计量。

关键概念:统计量是样本的函数,因此它本身也是一个随机变量。在抽样之前,它的值是不确定的;在抽样之后,它对应一个具体的数值。统计量的概率分布称为 抽样分布(Sampling Distribution)。

下面介绍几个最常用的统计量:

定义 样本均值(Sample Mean)定义为样本的算术平均值:

Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i

它反映了总体 数学期望 的集中趋势。

定义 样本方差(Sample Variance)定义为:

S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2

为什么分母是 n1n-1 而不是 nn

在概率论中,我们知道总体的 方差 是以 μ\mu 为基准计算的。但在统计学中,总体的均值 μ\mu 往往是未知的,我们被迫使用样本均值 Xˉ\bar{X} 来代替它。

由于 i=1n(XiXˉ)2=i=1n(Xiμ)2n(Xˉμ)2\sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n (X_i - \mu)^2 - n(\bar{X} - \mu)^2,两边取期望可以得到:

E[i=1n(XiXˉ)2]=nσ2σ2=(n1)σ2E\left[\sum_{i=1}^n (X_i - \bar{X})^2\right] = n\sigma^2 - \sigma^2 = (n-1)\sigma^2

因此,只有除以 n1n-1,才能使得 S2S^2 的期望等于总体的方差 σ2\sigma^2。这种性质被称为 无偏性(Unbiasedness)。

定义 样本标准差(Sample Standard Deviation)样本方差的算术平方根 S=S2S = \sqrt{S^2}

此外,我们还可以定义 样本 kk 阶矩 Ak=1nXikA_k = \frac{1}{n} \sum X_i^k样本 kk 阶中心矩 Bk=1n(XiXˉ)kB_k = \frac{1}{n} \sum (X_i - \bar{X})^k 。这些量在矩估计法中扮演重要角色。

4. 经验分布函数

如果我们对总体的分布形式一无所知,我们可以利用样本来构造一个函数,以逼近总体的分布函数。

定义 经验分布函数(Empirical Distribution Function)设 X1,X2,,XnX_1, X_2, \dots, X_n 是样本,对于任意实数 xx,定义 Fn(x)F_n(x) 为:

Fn(x)=1ni=1nI(Xix)F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \leqslant x)

其中 I()I(\cdot) 是指示函数。直观上看,Fn(x)F_n(x) 就是样本观测值中小于或等于 xx 的个数所占的比例。

根据 大数定律,当样本量 nn \to \infty 时,对于固定的 xxFn(x)F_n(x) 以概率 1 收敛于总体分布函数 F(x)F(x)

更进一步,格里文科-坎特利定理(Glivenko-Cantelli Theorem)指出,这种收敛是在整个实数轴上一致收敛的:

supxRFn(x)F(x)a.s.0\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \xrightarrow{a.s.} 0

这意味着,只要样本量足够大,经验分布函数几乎可以完全代表总体分布函数。

5. 充分统计量

在处理数据时,我们希望通过统计量来“压缩”数据,同时又不损失有关未知参数的任何关键信息。

定义 充分统计量(Sufficient Statistic)如果对于给定的统计量 T=g(X1,,Xn)T = g(X_1, \dots, X_n) 的值,样本的条件分布与未知参数 θ\theta 无关,则称 TT 是关于参数 θ\theta 的充分统计量。

换言之,如果我们知道了 TT 的值,再看原始样本数据,并不能提供更多关于 θ\theta 的新信息。

判别充分统计量的一个强有力工具是 费希尔-内曼因子分解定理(Fisher-Neyman Factorization Theorem):

因子分解定理的内容

设随机变量 X=(X1,,Xn)\boldsymbol{X} = (X_1, \dots, X_n) 的概率密度函数(或分布律)为 f(x;θ)f(\boldsymbol{x}; \theta)。统计量 T(X)T(\boldsymbol{X}) 是关于 θ\theta 的充分统计量的充要条件是:f(x;θ)f(\boldsymbol{x}; \theta) 可以分解为两个非负函数 gghh 的乘积,形式如下:

f(x;θ)=g(T(x),θ)h(x)f(\boldsymbol{x}; \theta) = g(T(\boldsymbol{x}), \theta) \cdot h(\boldsymbol{x})

其中 gg 仅通过 T(x)T(\boldsymbol{x}) 依赖于 θ\theta,而 hhθ\theta 无关。

例子:在正态总体 N(μ,σ2)N(\mu, \sigma^2) 中,通过计算联合概率密度可以发现,样本均值 Xˉ\bar{X} 和样本方差 S2S^2 的组合 (Xˉ,S2)(\bar{X}, S^2) 构成了总体参数 (μ,σ2)(\mu, \sigma^2) 的充分统计量。这意味着在进行参数估计或假设检验时,我们只需要保留这两个数值,而不需要记住上千个原始观测数据。

参考文献

  1. 盛骤, 谢式千, 潘承毅. 概率论与数理统计 (第五版). 高等教育出版社.
  2. Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd Edition). Duxbury Press.
  3. 陈希孺. 数理统计引论. 科学出版社.