点估计

在前面的章节中，我们讨论了如何通过抽样获取数据，并研究了常用统计量的分布。统计推断的核心目标是利用样本信息对总体的未知特性进行推断。点估计是参数估计的一种基本形式，其目标是根据样本观测值计算出一个具体的数值，作为总体未知参数的估计。

1. 点估计的概念

在统计推断中，我们通常假设总体的分布形式已知，但其中包含一个或多个未知的参数 $\theta$ （可以是标量或向量）。参数空间的集合记为 $\Theta$ 。

1.1 估计量的定义

定义 点估计 (Point Estimate)：设 $X_1, X_2, \dots, X_n$ 是来自总体 $X$ 的样本， $\theta$ 是总体的未知参数。构造一个统计量 $\hat{\theta} = g(X_1, X_2, \dots, X_n)$ 作为 $\theta$ 的估计，称 $\hat{\theta}$ 为 $\theta$ 的点估计。

定义 估计量 (Estimator) 与 估计值 (Estimate)：

估计量是指用于估计参数的随机变量 $\hat{\theta} = g(X_1, X_2, \dots, X_n)$ ，它随样本的变化而变化。
估计值是指在特定样本观测值 $x_1, x_2, \dots, x_n$ 下，通过估计量计算得到的具体数值 $g(x_1, x_2, \dots, x_n)$ 。

2. 矩估计法

矩估计法是由英国统计学家皮尔逊（K. Pearson）提出的一种最古老的估计方法。它的核心思想是利用大数定律，将样本矩视为总体矩的近似。

定义 矩估计法 (Method of Moments, MoM)：设总体 $X$ 的前 $k$ 阶原点矩 $\mu_k = E[X^k]$ 是参数 $\theta_1, \dots, \theta_m$ 的函数，即 $\mu_k = \mu_k(\theta_1, \dots, \theta_m)$ 。令总体矩等于样本矩 $A_k = \frac{1}{n} \sum X_i^k$ ，建立方程组：

\begin{cases} \mu_1(\theta_1, \dots, \theta_m) = A_1 \\ \mu_2(\theta_1, \dots, \theta_m) = A_2 \\ \dots \\ \mu_m(\theta_1, \dots, \theta_m) = A_m \end{cases}

解出 $\theta_j$ 的表达式，即得到矩估计量 $\hat{\theta}_j$ 。

2.1 例 1：正态分布 $N(\mu, \sigma^2)$ 的矩估计

总体参数为 $\mu$ 和 $\sigma^2$ 。总体一阶矩 $E[X] = \mu$ ，二阶原点矩 $E[X^2] = \sigma^2 + \mu^2$ 。样本矩为 $A_1 = \bar{X}$ ， $A_2 = \frac{1}{n} \sum X_i^2$ 。列方程：

$\mu = \bar{X}$
$\sigma^2 + \mu^2 = \frac{1}{n} \sum X_i^2$ 解得： $\hat{\mu} = \bar{X}$ ， $\hat{\sigma}^2 = \frac{1}{n} \sum X_i^2 - \bar{X}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2$ 。

2.2 例 2：均匀分布 $U(a, b)$ 的矩估计

$E[X] = \frac{a+b}{2}$ ， $Var(X) = \frac{(b-a)^2}{12}$ 。总体二阶矩 $E[X^2] = \frac{(b-a)^2}{12} + (\frac{a+b}{2})^2$ 。由样本均值 $\bar{X}$ 和样本方差 $S_n^2 = \frac{1}{n} \sum (X_i - \bar{X})^2$ ： $\frac{a+b}{2} = \bar{X}$ ， $\frac{(b-a)^2}{12} = S_n^2$ 。解得： $\hat{a} = \bar{X} - \sqrt{3} S_n$ ， $\hat{b} = \bar{X} + \sqrt{3} S_n$ 。

2.3 例 3：泊松分布 $P(\lambda)$ 的矩估计

由于 $E[X] = \lambda$ ，令 $\lambda = \bar{X}$ ，则矩估计量为 $\hat{\lambda} = \bar{X}$ 。

矩估计法的优点是计算简单，不需要知道总体的精确分布形式。缺点是它只利用了低阶矩的信息，在某些情况下估计的效率较低。

3. 极大似然估计法

极大似然估计法（MLE）是由费雪（R.A. Fisher）提出的，它是目前数理统计中应用最广泛的方法。

3.1 直觉与定义

MLE 的直觉是：在一次抽样中，已经发生的观测结果应该是概率最大的。我们寻找一组参数，使得这组观测数据出现的可能性（似然）最大。

定义 似然函数 (Likelihood Function)：设样本观测值为 $x_1, \dots, x_n$ ，总体概率密度函数（或分布律）为 $f(x; \theta)$ 。称

L(\theta) = L(x_1, \dots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta)

为参数 $\theta$ 的似然函数。

定义 对数似然函数 (Log-likelihood)：由于对数函数是单调增函数，极大化 $L(\theta)$ 等价于极大化其对数：

\ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i; \theta)

定义 极大似然估计 (Maximum Likelihood Estimation, MLE)：若存在 $\hat{\theta} \in \Theta$ 使得 $L(\hat{\theta}) = \sup_{\theta \in \Theta} L(\theta)$ ，则称 $\hat{\theta}$ 为 $\theta$ 的极大似然估计量。

3.2 求解步骤

写出似然函数 $L(\theta)$ 。
取对数得到 $\ell(\theta)$ 。
对 $\theta$ 求导并令导数为 0（似然方程 $\frac{d\ell}{d\theta} = 0$ ）。
验证是否为最大值点。

3.3 经典案例

例 1：正态分布 $N(\mu, \sigma^2)$ 的 MLE

似然函数为：

L(\mu, \sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \sum (x_i - \mu)^2 \right)

对数似然函数：

\ell(\mu, \sigma^2) = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum (x_i - \mu)^2

求偏导： $\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum (x_i - \mu) = 0 \Rightarrow \hat{\mu} = \bar{X}$ 。 $\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum (x_i - \mu)^2 = 0 \Rightarrow \hat{\sigma}^2 = \frac{1}{n} \sum (x_i - \bar{X})^2$ 。注意：这里的 $\hat{\sigma}^2$ 与矩估计一致，且与样本方差 $S^2$ （除以 $n-1$ ）不同。

例 2：指数分布 $Exp(\lambda)$ 的 MLE

$f(x; \lambda) = \lambda e^{-\lambda x}$ ， $x > 0$ 。 $\ell(\lambda) = n \ln \lambda - \lambda \sum x_i$ 。求导： $\frac{n}{\lambda} - \sum x_i = 0 \Rightarrow \hat{\lambda} = \frac{1}{\bar{X}}$ 。

例 3：均匀分布 $U(0, \theta)$ 的 MLE

$f(x; \theta) = \frac{1}{\theta}$ ， $0 \leqslant x \leqslant \theta$ 。似然函数 $L(\theta) = \theta^{-n}$ ，前提是所有的 $x_i \leqslant \theta$ ，即 $\theta \geqslant \max(x_i)$ 。当 $\theta < \max(x_i)$ 时， $L(\theta) = 0$ 。由于 $\theta^{-n}$ 是关于 $\theta$ 的减函数，为了使 $L(\theta)$ 最大， $\theta$ 应该尽可能小。因此， $\hat{\theta} = \max(X_1, \dots, X_n) = X_{(n)}$ 。

3.4 极大似然估计的性质

定义 MLE 的不变性原则 (Invariance Property)：设 $\hat{\theta}$ 是 $\theta$ 的极大似然估计，若 $g(\theta)$ 是连续函数，则 $g(\hat{\theta})$ 是 $g(\theta)$ 的极大似然估计。

MLE 具有优良的大样本性质，包括：

一致性：当 $n \to \infty$ 时， $\hat{\theta}$ 依概率收敛于 $\theta$ 。
渐近正态性：在正则条件下， $\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N(0, I^{-1}(\theta))$ 。

4. 估计量的评选标准

同一个参数可能有多个估计量（如矩估计和 MLE），我们需要标准来评判优劣。

4.1 无偏性

定义 无偏性 (Unbiasedness)：若估计量 $\hat{\theta}$ 的期望等于参数本身，即 $E[\hat{\theta}] = \theta$ ，则称 $\hat{\theta}$ 为 $\theta$ 的无偏估计量。

样本均值 $\bar{X}$ 是 $\mu$ 的无偏估计。
样本方差 $S^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2$ 是 $\sigma^2$ 的无偏估计。

证明：

S^2

的无偏性

我们已知 $E[X_i] = \mu$ ， $Var(X_i) = \sigma^2$ 。 $\sum (X_i - \bar{X})^2 = \sum X_i^2 - n\bar{X}^2$ 。 $E[\sum X_i^2] = \sum E[X_i^2] = n(\sigma^2 + \mu^2)$ 。 $E[n\bar{X}^2] = n E[\bar{X}^2] = n(Var(\bar{X}) + (E[\bar{X}])^2) = n(\frac{\sigma^2}{n} + \mu^2) = \sigma^2 + n\mu^2$ 。故 $E[\sum (X_i - \bar{X})^2] = n\sigma^2 + n\mu^2 - (\sigma^2 + n\mu^2) = (n-1)\sigma^2$ 。因此 $E[S^2] = E[\frac{1}{n-1} \sum (X_i - \bar{X})^2] = \sigma^2$ 。

注意：正态分布中 $\sigma^2$ 的 MLE $\hat{\sigma}^2 = \frac{n-1}{n} S^2$ 是有偏的，其期望为 $\frac{n-1}{n}\sigma^2$ ，偏差为 $-\frac{1}{n}\sigma^2$ 。

4.2 有效性

定义 有效性 (Efficiency)：在所有无偏估计量中，方差越小的估计量越有效。若 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 均为无偏估计，且 $Var(\hat{\theta}_1) < Var(\hat{\theta}_2)$ ，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效。

定义 Fisher 信息量 (Fisher Information)：对于单个观测值，定义

I(\theta) = E\left[ \left( \frac{\partial \ln f(X; \theta)}{\partial \theta} \right)^2 \right] = -E\left[ \frac{\partial^2 \ln f(X; \theta)}{\partial \theta^2} \right]

定义 Cramér-Rao 下界 (Cramér-Rao Lower Bound)：在一定的正则条件下，任何无偏估计量 $\hat{\theta}$ 的方差满足：

Var(\hat{\theta}) \geqslant \frac{1}{n I(\theta)}

方差达到此下界的无偏估计量称为 一致最小方差无偏估计 (UMVUE)。

4.3 一致性与均方误差

定义 一致性 (Consistency)：若对于任意 $\epsilon > 0$ ，有 $\lim_{n \to \infty} P(|\hat{\theta}_n - \theta| < \epsilon) = 1$ ，则称 $\hat{\theta}_n$ 是 $\theta$ 的一致估计量（或相合估计量）。根据大数定律，样本均值是一致估计量。

定义 均方误差 (Mean Squared Error, MSE)：为了平衡偏差与方差，定义

MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var(\hat{\theta}) + [E(\hat{\theta}) - \theta]^2 = Var(\hat{\theta}) + [Bias(\hat{\theta})]^2

一个估计量可能是有偏的，但如果它的方差非常小，其 MSE 可能比无偏估计量更小。

5. 矩估计与极大似然估计的比较

特性	矩估计法 (MoM)	极大似然估计法 (MLE)
分布依赖	仅需知道总体矩，不需要完整分布	需要知道总体分布的精确形式
计算复杂度	通常较简单，求解代数方程	可能涉及复杂的非线性优化
有效性	往往不是最有效的	在大样本下具有渐近有效性
唯一性	唯一	可能存在多个局部极大值
不变性	不具备（除非是线性变换）	具备不变性原则

总的来说，MLE 在理论性质上通常优于矩估计，但在分布未知或计算过于复杂时，矩估计是一个非常有用的替代工具。

参考文献

陈希孺. 概率论与数理统计. 中国科学技术大学出版社, 2009.
Casella, G., & Berger, R. L. Statistical Inference. Duxbury Press, 2002.
盛骤, 谢式千, 潘承毅. 概率论与数理统计. 高等教育出版社, 2008.

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

点估计

1. 点估计的概念

1.1 估计量的定义

2. 矩估计法

2.1 例 1：正态分布 $N(\mu, \sigma^2)$ 的矩估计

2.2 例 2：均匀分布 $U(a, b)$ 的矩估计

2.3 例 3：泊松分布 $P(\lambda)$ 的矩估计

3. 极大似然估计法

3.1 直觉与定义

3.2 求解步骤

3.3 经典案例

例 1：正态分布 $N(\mu, \sigma^2)$ 的 MLE

例 2：指数分布 $Exp(\lambda)$ 的 MLE

例 3：均匀分布 $U(0, \theta)$ 的 MLE

3.4 极大似然估计的性质

4. 估计量的评选标准

4.1 无偏性

4.2 有效性

4.3 一致性与均方误差

5. 矩估计与极大似然估计的比较

参考文献

点估计 ​

1. 点估计的概念 ​

1.1 估计量的定义 ​

2. 矩估计法 ​

2.1 例 1：正态分布 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2) 的矩估计 ​

2.2 例 2：均匀分布 U(a,b)U(a, b)U(a,b) 的矩估计 ​

2.3 例 3：泊松分布 P(λ)P(\lambda)P(λ) 的矩估计 ​

3. 极大似然估计法 ​

3.1 直觉与定义 ​

3.2 求解步骤 ​

3.3 经典案例 ​

例 1：正态分布 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2) 的 MLE ​

例 2：指数分布 Exp(λ)Exp(\lambda)Exp(λ) 的 MLE ​

例 3：均匀分布 U(0,θ)U(0, \theta)U(0,θ) 的 MLE ​

3.4 极大似然估计的性质 ​

4. 估计量的评选标准 ​

4.1 无偏性 ​

4.2 有效性 ​

4.3 一致性与均方误差 ​

5. 矩估计与极大似然估计的比较 ​

参考文献 ​

点估计

1. 点估计的概念

1.1 估计量的定义

2. 矩估计法

2.1 例 1：正态分布 $N(\mu, \sigma^2)$ 的矩估计

2.2 例 2：均匀分布 $U(a, b)$ 的矩估计

2.3 例 3：泊松分布 $P(\lambda)$ 的矩估计

3. 极大似然估计法

3.1 直觉与定义

3.2 求解步骤

3.3 经典案例

例 1：正态分布 $N(\mu, \sigma^2)$ 的 MLE

例 2：指数分布 $Exp(\lambda)$ 的 MLE

例 3：均匀分布 $U(0, \theta)$ 的 MLE

3.4 极大似然估计的性质

4. 估计量的评选标准

4.1 无偏性

4.2 有效性

4.3 一致性与均方误差

5. 矩估计与极大似然估计的比较

参考文献