Skip to content

点估计

在前面的章节中,我们讨论了如何通过抽样获取数据,并研究了常用统计量的分布。统计推断的核心目标是利用样本信息对总体的未知特性进行推断。点估计是参数估计的一种基本形式,其目标是根据样本观测值计算出一个具体的数值,作为总体未知参数的估计。

1. 点估计的概念

在统计推断中,我们通常假设总体的分布形式已知,但其中包含一个或多个未知的参数 θ\theta(可以是标量或向量)。参数空间的集合记为 Θ\Theta

1.1 估计量的定义

定义 点估计 (Point Estimate):设 X1,X2,,XnX_1, X_2, \dots, X_n 是来自总体 XX 的样本,θ\theta 是总体的未知参数。构造一个统计量 θ^=g(X1,X2,,Xn)\hat{\theta} = g(X_1, X_2, \dots, X_n) 作为 θ\theta 的估计,称 θ^\hat{\theta}θ\theta 的点估计。

定义 估计量 (Estimator)估计值 (Estimate)

  • 估计量是指用于估计参数的随机变量 θ^=g(X1,X2,,Xn)\hat{\theta} = g(X_1, X_2, \dots, X_n),它随样本的变化而变化。
  • 估计值是指在特定样本观测值 x1,x2,,xnx_1, x_2, \dots, x_n 下,通过估计量计算得到的具体数值 g(x1,x2,,xn)g(x_1, x_2, \dots, x_n)

2. 矩估计法

矩估计法是由英国统计学家皮尔逊(K. Pearson)提出的一种最古老的估计方法。它的核心思想是利用大数定律,将样本矩视为总体矩的近似。

定义 矩估计法 (Method of Moments, MoM):设总体 XX 的前 kk 阶原点矩 μk=E[Xk]\mu_k = E[X^k] 是参数 θ1,,θm\theta_1, \dots, \theta_m 的函数,即 μk=μk(θ1,,θm)\mu_k = \mu_k(\theta_1, \dots, \theta_m)。令总体矩等于样本矩 Ak=1nXikA_k = \frac{1}{n} \sum X_i^k,建立方程组:

{μ1(θ1,,θm)=A1μ2(θ1,,θm)=A2μm(θ1,,θm)=Am\begin{cases} \mu_1(\theta_1, \dots, \theta_m) = A_1 \\ \mu_2(\theta_1, \dots, \theta_m) = A_2 \\ \dots \\ \mu_m(\theta_1, \dots, \theta_m) = A_m \end{cases}

解出 θj\theta_j 的表达式,即得到矩估计量 θ^j\hat{\theta}_j

2.1 例 1:正态分布 N(μ,σ2)N(\mu, \sigma^2) 的矩估计

总体参数为 μ\muσ2\sigma^2。总体一阶矩 E[X]=μE[X] = \mu,二阶原点矩 E[X2]=σ2+μ2E[X^2] = \sigma^2 + \mu^2。 样本矩为 A1=XˉA_1 = \bar{X}A2=1nXi2A_2 = \frac{1}{n} \sum X_i^2。 列方程:

  1. μ=Xˉ\mu = \bar{X}
  2. σ2+μ2=1nXi2\sigma^2 + \mu^2 = \frac{1}{n} \sum X_i^2 解得: μ^=Xˉ\hat{\mu} = \bar{X}σ^2=1nXi2Xˉ2=1n(XiXˉ)2\hat{\sigma}^2 = \frac{1}{n} \sum X_i^2 - \bar{X}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2

2.2 例 2:均匀分布 U(a,b)U(a, b) 的矩估计

E[X]=a+b2E[X] = \frac{a+b}{2}Var(X)=(ba)212Var(X) = \frac{(b-a)^2}{12}。 总体二阶矩 E[X2]=(ba)212+(a+b2)2E[X^2] = \frac{(b-a)^2}{12} + (\frac{a+b}{2})^2。 由样本均值 Xˉ\bar{X} 和样本方差 Sn2=1n(XiXˉ)2S_n^2 = \frac{1}{n} \sum (X_i - \bar{X})^2a+b2=Xˉ\frac{a+b}{2} = \bar{X}(ba)212=Sn2\frac{(b-a)^2}{12} = S_n^2。 解得:a^=Xˉ3Sn\hat{a} = \bar{X} - \sqrt{3} S_nb^=Xˉ+3Sn\hat{b} = \bar{X} + \sqrt{3} S_n

2.3 例 3:泊松分布 P(λ)P(\lambda) 的矩估计

由于 E[X]=λE[X] = \lambda,令 λ=Xˉ\lambda = \bar{X},则矩估计量为 λ^=Xˉ\hat{\lambda} = \bar{X}

矩估计法的优点是计算简单,不需要知道总体的精确分布形式。缺点是它只利用了低阶矩的信息,在某些情况下估计的效率较低。

3. 极大似然估计法

极大似然估计法(MLE)是由费雪(R.A. Fisher)提出的,它是目前数理统计中应用最广泛的方法。

3.1 直觉与定义

MLE 的直觉是:在一次抽样中,已经发生的观测结果应该是概率最大的。我们寻找一组参数,使得这组观测数据出现的可能性(似然)最大。

定义 似然函数 (Likelihood Function):设样本观测值为 x1,,xnx_1, \dots, x_n,总体概率密度函数(或分布律)为 f(x;θ)f(x; \theta)。称

L(θ)=L(x1,,xn;θ)=i=1nf(xi;θ)L(\theta) = L(x_1, \dots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta)

为参数 θ\theta 的似然函数。

定义 对数似然函数 (Log-likelihood):由于对数函数是单调增函数,极大化 L(θ)L(\theta) 等价于极大化其对数:

(θ)=lnL(θ)=i=1nlnf(xi;θ)\ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i; \theta)

定义 极大似然估计 (Maximum Likelihood Estimation, MLE):若存在 θ^Θ\hat{\theta} \in \Theta 使得 L(θ^)=supθΘL(θ)L(\hat{\theta}) = \sup_{\theta \in \Theta} L(\theta),则称 θ^\hat{\theta}θ\theta 的极大似然估计量。

3.2 求解步骤

  1. 写出似然函数 L(θ)L(\theta)
  2. 取对数得到 (θ)\ell(\theta)
  3. θ\theta 求导并令导数为 0(似然方程 ddθ=0\frac{d\ell}{d\theta} = 0)。
  4. 验证是否为最大值点。

3.3 经典案例

例 1:正态分布 N(μ,σ2)N(\mu, \sigma^2) 的 MLE

似然函数为:

L(μ,σ2)=(2πσ2)n/2exp(12σ2(xiμ)2)L(\mu, \sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \sum (x_i - \mu)^2 \right)

对数似然函数:

(μ,σ2)=n2ln(2π)n2ln(σ2)12σ2(xiμ)2\ell(\mu, \sigma^2) = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum (x_i - \mu)^2

求偏导: μ=1σ2(xiμ)=0μ^=Xˉ\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum (x_i - \mu) = 0 \Rightarrow \hat{\mu} = \bar{X}σ2=n2σ2+12(σ2)2(xiμ)2=0σ^2=1n(xiXˉ)2\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum (x_i - \mu)^2 = 0 \Rightarrow \hat{\sigma}^2 = \frac{1}{n} \sum (x_i - \bar{X})^2。 注意:这里的 σ^2\hat{\sigma}^2 与矩估计一致,且与样本方差 S2S^2(除以 n1n-1)不同。

例 2:指数分布 Exp(λ)Exp(\lambda) 的 MLE

f(x;λ)=λeλxf(x; \lambda) = \lambda e^{-\lambda x}x>0x > 0(λ)=nlnλλxi\ell(\lambda) = n \ln \lambda - \lambda \sum x_i。 求导:nλxi=0λ^=1Xˉ\frac{n}{\lambda} - \sum x_i = 0 \Rightarrow \hat{\lambda} = \frac{1}{\bar{X}}

例 3:均匀分布 U(0,θ)U(0, \theta) 的 MLE

f(x;θ)=1θf(x; \theta) = \frac{1}{\theta}0xθ0 \leqslant x \leqslant \theta。 似然函数 L(θ)=θnL(\theta) = \theta^{-n},前提是所有的 xiθx_i \leqslant \theta,即 θmax(xi)\theta \geqslant \max(x_i)。 当 θ<max(xi)\theta < \max(x_i) 时,L(θ)=0L(\theta) = 0。 由于 θn\theta^{-n} 是关于 θ\theta 的减函数,为了使 L(θ)L(\theta) 最大,θ\theta 应该尽可能小。 因此,θ^=max(X1,,Xn)=X(n)\hat{\theta} = \max(X_1, \dots, X_n) = X_{(n)}

3.4 极大似然估计的性质

定义 MLE 的不变性原则 (Invariance Property):设 θ^\hat{\theta}θ\theta 的极大似然估计,若 g(θ)g(\theta) 是连续函数,则 g(θ^)g(\hat{\theta})g(θ)g(\theta) 的极大似然估计。

MLE 具有优良的大样本性质,包括:

  1. 一致性:当 nn \to \infty 时,θ^\hat{\theta} 依概率收敛于 θ\theta
  2. 渐近正态性:在正则条件下,n(θ^θ)dN(0,I1(θ))\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N(0, I^{-1}(\theta))

4. 估计量的评选标准

同一个参数可能有多个估计量(如矩估计和 MLE),我们需要标准来评判优劣。

4.1 无偏性

定义 无偏性 (Unbiasedness):若估计量 θ^\hat{\theta} 的期望等于参数本身,即 E[θ^]=θE[\hat{\theta}] = \theta,则称 θ^\hat{\theta}θ\theta 的无偏估计量。

  • 样本均值 Xˉ\bar{X}μ\mu 的无偏估计。
  • 样本方差 S2=1n1(XiXˉ)2S^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2σ2\sigma^2 的无偏估计。
证明:S2S^2 的无偏性

我们已知 E[Xi]=μE[X_i] = \muVar(Xi)=σ2Var(X_i) = \sigma^2(XiXˉ)2=Xi2nXˉ2\sum (X_i - \bar{X})^2 = \sum X_i^2 - n\bar{X}^2E[Xi2]=E[Xi2]=n(σ2+μ2)E[\sum X_i^2] = \sum E[X_i^2] = n(\sigma^2 + \mu^2)E[nXˉ2]=nE[Xˉ2]=n(Var(Xˉ)+(E[Xˉ])2)=n(σ2n+μ2)=σ2+nμ2E[n\bar{X}^2] = n E[\bar{X}^2] = n(Var(\bar{X}) + (E[\bar{X}])^2) = n(\frac{\sigma^2}{n} + \mu^2) = \sigma^2 + n\mu^2。 故 E[(XiXˉ)2]=nσ2+nμ2(σ2+nμ2)=(n1)σ2E[\sum (X_i - \bar{X})^2] = n\sigma^2 + n\mu^2 - (\sigma^2 + n\mu^2) = (n-1)\sigma^2。 因此 E[S2]=E[1n1(XiXˉ)2]=σ2E[S^2] = E[\frac{1}{n-1} \sum (X_i - \bar{X})^2] = \sigma^2

注意:正态分布中 σ2\sigma^2 的 MLE σ^2=n1nS2\hat{\sigma}^2 = \frac{n-1}{n} S^2 是有偏的,其期望为 n1nσ2\frac{n-1}{n}\sigma^2,偏差为 1nσ2-\frac{1}{n}\sigma^2

4.2 有效性

定义 有效性 (Efficiency):在所有无偏估计量中,方差越小的估计量越有效。若 θ^1\hat{\theta}_1θ^2\hat{\theta}_2 均为无偏估计,且 Var(θ^1)<Var(θ^2)Var(\hat{\theta}_1) < Var(\hat{\theta}_2),则称 θ^1\hat{\theta}_1θ^2\hat{\theta}_2 有效。

定义 Fisher 信息量 (Fisher Information):对于单个观测值,定义

I(θ)=E[(lnf(X;θ)θ)2]=E[2lnf(X;θ)θ2]I(\theta) = E\left[ \left( \frac{\partial \ln f(X; \theta)}{\partial \theta} \right)^2 \right] = -E\left[ \frac{\partial^2 \ln f(X; \theta)}{\partial \theta^2} \right]

定义 Cramér-Rao 下界 (Cramér-Rao Lower Bound):在一定的正则条件下,任何无偏估计量 θ^\hat{\theta} 的方差满足:

Var(θ^)1nI(θ)Var(\hat{\theta}) \geqslant \frac{1}{n I(\theta)}

方差达到此下界的无偏估计量称为 一致最小方差无偏估计 (UMVUE)

4.3 一致性与均方误差

定义 一致性 (Consistency):若对于任意 ϵ>0\epsilon > 0,有 limnP(θ^nθ<ϵ)=1\lim_{n \to \infty} P(|\hat{\theta}_n - \theta| < \epsilon) = 1,则称 θ^n\hat{\theta}_nθ\theta 的一致估计量(或相合估计量)。根据大数定律,样本均值是一致估计量。

定义 均方误差 (Mean Squared Error, MSE):为了平衡偏差与方差,定义

MSE(θ^)=E[(θ^θ)2]=Var(θ^)+[E(θ^)θ]2=Var(θ^)+[Bias(θ^)]2MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var(\hat{\theta}) + [E(\hat{\theta}) - \theta]^2 = Var(\hat{\theta}) + [Bias(\hat{\theta})]^2

一个估计量可能是有偏的,但如果它的方差非常小,其 MSE 可能比无偏估计量更小。

5. 矩估计与极大似然估计的比较

特性矩估计法 (MoM)极大似然估计法 (MLE)
分布依赖仅需知道总体矩,不需要完整分布需要知道总体分布的精确形式
计算复杂度通常较简单,求解代数方程可能涉及复杂的非线性优化
有效性往往不是最有效的在大样本下具有渐近有效性
唯一性唯一可能存在多个局部极大值
不变性不具备(除非是线性变换)具备不变性原则

总的来说,MLE 在理论性质上通常优于矩估计,但在分布未知或计算过于复杂时,矩估计是一个非常有用的替代工具。

参考文献

  1. 陈希孺. 概率论与数理统计. 中国科学技术大学出版社, 2009.
  2. Casella, G., & Berger, R. L. Statistical Inference. Duxbury Press, 2002.
  3. 盛骤, 谢式千, 潘承毅. 概率论与数理统计. 高等教育出版社, 2008.