点估计
在前面的章节中,我们讨论了如何通过抽样获取数据,并研究了常用统计量的分布。统计推断的核心目标是利用样本信息对总体的未知特性进行推断。点估计是参数估计的一种基本形式,其目标是根据样本观测值计算出一个具体的数值,作为总体未知参数的估计。
1. 点估计的概念
在统计推断中,我们通常假设总体的分布形式已知,但其中包含一个或多个未知的参数 (可以是标量或向量)。参数空间的集合记为 。
1.1 估计量的定义
定义 点估计 (Point Estimate):设 是来自总体 的样本, 是总体的未知参数。构造一个统计量 作为 的估计,称 为 的点估计。
定义 估计量 (Estimator) 与 估计值 (Estimate):
- 估计量是指用于估计参数的随机变量 ,它随样本的变化而变化。
- 估计值是指在特定样本观测值 下,通过估计量计算得到的具体数值 。
2. 矩估计法
矩估计法是由英国统计学家皮尔逊(K. Pearson)提出的一种最古老的估计方法。它的核心思想是利用大数定律,将样本矩视为总体矩的近似。
定义 矩估计法 (Method of Moments, MoM):设总体 的前 阶原点矩 是参数 的函数,即 。令总体矩等于样本矩 ,建立方程组:
解出 的表达式,即得到矩估计量 。
2.1 例 1:正态分布 的矩估计
总体参数为 和 。总体一阶矩 ,二阶原点矩 。 样本矩为 ,。 列方程:
- 解得: ,。
2.2 例 2:均匀分布 的矩估计
,。 总体二阶矩 。 由样本均值 和样本方差 : ,。 解得:,。
2.3 例 3:泊松分布 的矩估计
由于 ,令 ,则矩估计量为 。
矩估计法的优点是计算简单,不需要知道总体的精确分布形式。缺点是它只利用了低阶矩的信息,在某些情况下估计的效率较低。
3. 极大似然估计法
极大似然估计法(MLE)是由费雪(R.A. Fisher)提出的,它是目前数理统计中应用最广泛的方法。
3.1 直觉与定义
MLE 的直觉是:在一次抽样中,已经发生的观测结果应该是概率最大的。我们寻找一组参数,使得这组观测数据出现的可能性(似然)最大。
定义 似然函数 (Likelihood Function):设样本观测值为 ,总体概率密度函数(或分布律)为 。称
为参数 的似然函数。
定义 对数似然函数 (Log-likelihood):由于对数函数是单调增函数,极大化 等价于极大化其对数:
定义 极大似然估计 (Maximum Likelihood Estimation, MLE):若存在 使得 ,则称 为 的极大似然估计量。
3.2 求解步骤
- 写出似然函数 。
- 取对数得到 。
- 对 求导并令导数为 0(似然方程 )。
- 验证是否为最大值点。
3.3 经典案例
例 1:正态分布 的 MLE
似然函数为:
对数似然函数:
求偏导: 。 。 注意:这里的 与矩估计一致,且与样本方差 (除以 )不同。
例 2:指数分布 的 MLE
,。 。 求导:。
例 3:均匀分布 的 MLE
,。 似然函数 ,前提是所有的 ,即 。 当 时,。 由于 是关于 的减函数,为了使 最大, 应该尽可能小。 因此,。
3.4 极大似然估计的性质
定义 MLE 的不变性原则 (Invariance Property):设 是 的极大似然估计,若 是连续函数,则 是 的极大似然估计。
MLE 具有优良的大样本性质,包括:
- 一致性:当 时, 依概率收敛于 。
- 渐近正态性:在正则条件下,。
4. 估计量的评选标准
同一个参数可能有多个估计量(如矩估计和 MLE),我们需要标准来评判优劣。
4.1 无偏性
定义 无偏性 (Unbiasedness):若估计量 的期望等于参数本身,即 ,则称 为 的无偏估计量。
- 样本均值 是 的无偏估计。
- 样本方差 是 的无偏估计。
证明: 的无偏性
我们已知 ,。 。 。 。 故 。 因此 。
注意:正态分布中 的 MLE 是有偏的,其期望为 ,偏差为 。
4.2 有效性
定义 有效性 (Efficiency):在所有无偏估计量中,方差越小的估计量越有效。若 和 均为无偏估计,且 ,则称 比 有效。
定义 Fisher 信息量 (Fisher Information):对于单个观测值,定义
定义 Cramér-Rao 下界 (Cramér-Rao Lower Bound):在一定的正则条件下,任何无偏估计量 的方差满足:
方差达到此下界的无偏估计量称为 一致最小方差无偏估计 (UMVUE)。
4.3 一致性与均方误差
定义 一致性 (Consistency):若对于任意 ,有 ,则称 是 的一致估计量(或相合估计量)。根据大数定律,样本均值是一致估计量。
定义 均方误差 (Mean Squared Error, MSE):为了平衡偏差与方差,定义
一个估计量可能是有偏的,但如果它的方差非常小,其 MSE 可能比无偏估计量更小。
5. 矩估计与极大似然估计的比较
| 特性 | 矩估计法 (MoM) | 极大似然估计法 (MLE) |
|---|---|---|
| 分布依赖 | 仅需知道总体矩,不需要完整分布 | 需要知道总体分布的精确形式 |
| 计算复杂度 | 通常较简单,求解代数方程 | 可能涉及复杂的非线性优化 |
| 有效性 | 往往不是最有效的 | 在大样本下具有渐近有效性 |
| 唯一性 | 唯一 | 可能存在多个局部极大值 |
| 不变性 | 不具备(除非是线性变换) | 具备不变性原则 |
总的来说,MLE 在理论性质上通常优于矩估计,但在分布未知或计算过于复杂时,矩估计是一个非常有用的替代工具。
参考文献
- 陈希孺. 概率论与数理统计. 中国科学技术大学出版社, 2009.
- Casella, G., & Berger, R. L. Statistical Inference. Duxbury Press, 2002.
- 盛骤, 谢式千, 潘承毅. 概率论与数理统计. 高等教育出版社, 2008.