Skip to content

贝叶斯统计初步

统计学的发展历史上,频率学派与贝叶斯学派的争论贯穿始终。频率学派将参数视为固定但未知的常数,通过观测数据的重复试验频率来推断其真值。相比之下,贝叶斯学派认为参数本身具有不确定性,应当被视为一个随机变量。这种视角的转变不仅是一种数学处理技巧,更是一种深刻的哲学革新。本章将带你领略贝叶斯统计的独特魅力,理解它是如何将主观信念与客观观测数据有机结合,实现认识的动态更新。

1. 频率学派与贝叶斯学派

频率学派的参数观建立在“客观性”之上。如果我们要推断一枚硬币出现正面的概率 θ\theta,频率学派会假设存在一个唯一的、真实的 θ\theta。我们通过不断抛掷硬币,观察正面出现的频率,认为当试验次数趋于无穷大时,这个频率就会收敛于 θ\theta。在这种视角下,概率被定义为长期重复试验的极限频率。

贝叶斯学派则引入了主观概率的概念。对于贝叶斯统计学家来说,θ\theta 是一个随机变量,反映了我们对参数取值的“信念”或“知识状态”。在试验之前,我们可能根据经验认为硬币大概率是均匀的,这就是先验信息。随着试验数据的增加,我们不断调整这一信念。这种参数观使得贝叶斯方法在处理小样本、专家经验以及决策分析等领域具有天然的优势。

两者的核心差异在于:频率学派强调“让数据说话”,而贝叶斯学派强调“在已有知识的基础上让数据修正认识”。

2. 贝叶斯推断的基本框架

贝叶斯推断的核心逻辑是通过观测数据 xx 来更新对参数 θ\theta 的认识。这一过程遵循 贝叶斯公式

定义 先验分布 (Prior Distribution):记作 π(θ)\pi(\theta),表示在进行本次观测之前,根据历史经验或理论推导对参数 θ\theta 可能取值的认识。

定义 似然函数 (Likelihood):记作 L(θx)=f(xθ)L(\theta \mid x) = f(x \mid \theta),表示在参数 θ\theta 给定的情况下,观测到数据 xx 的概率模型。

定义 后验分布 (Posterior Distribution):记作 π(θx)\pi(\theta \mid x),表示在获得观测数据 xx 之后,对参数 θ\theta 的更新后的认识。

根据概率论的乘法原理,参数与数据的联合分布可以写成 f(x,θ)=f(xθ)π(θ)=π(θx)f(x)f(x, \theta) = f(x \mid \theta) \pi(\theta) = \pi(\theta \mid x) f(x)。由此得到连续型随机变量的贝叶斯公式:

π(θx)=f(xθ)π(θ)f(xθ)π(θ)dθ\pi(\theta \mid x) = \frac{f(x \mid \theta) \pi(\theta)}{\int f(x \mid \theta) \pi(\theta) \, \mathrm{d}\theta}

贝叶斯公式的推导过程
  1. 考虑参数 θ\theta 与数据 xx 的联合分布:f(x,θ)=f(xθ)π(θ)f(x, \theta) = f(x \mid \theta) \pi(\theta)
  2. 数据 xx 的边际分布可以通过对联合分布关于 θ\theta 积分得到:f(x)=f(x,θ)dθ=f(xθ)π(θ)dθf(x) = \int f(x, \theta) \, \mathrm{d}\theta = \int f(x \mid \theta) \pi(\theta) \, \mathrm{d}\theta
  3. 根据条件概率定义,后验分布 π(θx)=f(x,θ)f(x)\pi(\theta \mid x) = \frac{f(x, \theta)}{f(x)}
  4. 将前两步结果代入即可得到公式。由于分母 f(x)f(x)θ\theta 无关,通常将其视为归一化常数,因此常用比例关系表示:π(θx)f(xθ)π(θ)\pi(\theta \mid x) \propto f(x \mid \theta) \pi(\theta)

这个公式简洁地表达了“先验信息 + 样本信息 = 后验信息”的理念。

3. 先验分布的选择

先验分布的选择是贝叶斯统计中最具争议也最灵活的部分。

定义 无信息先验 (Non-informative Prior):当研究者对参数没有任何偏好时使用的一种先验。一种常见的选择是在参数空间上取均匀分布(Uniform Prior),但并非所有无信息先验都是均匀分布,例如下面的 Jeffreys 先验就是另一种重要的无信息先验。

定义 Jeffreys 先验 (Jeffreys Prior):一种基于 Fisher 信息阵的无信息先验,具有重参数化下的不变性。其定义为 π(θ)I(θ)\pi(\theta) \propto \sqrt{I(\theta)},其中 I(θ)I(\theta) 是参数的 Fisher 信息。

定义 共轭先验 (Conjugate Prior):如果后验分布与先验分布属于同一种概率分布族,则称该先验分布为似然函数的共轭先验。

使用共轭先验可以大大简化数学运算,使得后验分布具有解析形式。常见的共轭对包括:

  1. 二项分布似然 + 贝塔分布先验 \rightarrow 贝塔后验。
  2. 正态分布似然(已知方差,均值 μ\mu 未知)+ 正态先验 \rightarrow 正态后验。
  3. 泊松分布似然 + 伽马分布先验 \rightarrow 伽马后验。

4. 贝叶斯估计

在得到后验分布 π(θx)\pi(\theta \mid x) 后,我们需要从分布中提取出反映参数特征的数值。

定义 贝叶斯估计 (Bayesian Estimate):通过对后验分布进行某种统计汇总得到的点估计。

常见的贝叶斯估计量包括:

  1. 后验均值θ^B=E[θx]=θπ(θx)dθ\hat{\theta}_B = E[\theta \mid x] = \int \theta \pi(\theta \mid x) \, \mathrm{d}\theta。这是在平方损失函数下表现最好的估计。
  2. 后验中位数:使得后验分布在其左右概率各占一半的数值。这是在绝对损失函数下的最优估计。

定义 最大后验估计 (Maximum A Posteriori, MAP):取后验分布达到最大值处的 θ\theta 作为估计量,即 θ^MAP=argmaxθπ(θx)\hat{\theta}_{MAP} = \arg \max_{\theta} \pi(\theta \mid x)。在离散参数空间中,MAP 对应于 0-1 损失函数下的最优估计;在机器学习中应用极广。

5. 贝叶斯区间估计

不同于频率学派的置信区间,贝叶斯区间具有直观的概率意义。

定义 可信区间 (Credible Interval):对于给定的概率 1α1-\alpha,如果存在区间 [a,b][a, b] 使得 P(aθbx)=1αP(a \leqslant \theta \leqslant b \mid x) = 1-\alpha,则称该区间为 θ\theta1α1-\alpha 贝叶斯可信区间。

定义 最高后验密度区间 (Highest Posterior Density, HPD):在所有覆盖概率为 1α1-\alpha 的可信区间中,长度最短的那个。在这个区间内,任何一点的后验密度都高于区间外任何一点的密度。

置信区间衡量的是“方法”的可靠性(即重复试验中覆盖真值的频率),而可信区间直接给出了“参数落在该区间内”的概率。

6. 贝叶斯假设检验简介

贝叶斯学派通过比较两个假设的后验概率来进行检验。

定义 贝叶斯因子 (Bayes Factor):衡量数据对一个假设相对于另一个假设的支持程度。对于假设 H0H_0H1H_1,贝叶斯因子定义为 BF=P(xH0)P(xH1)BF = \frac{P(x \mid H_0)}{P(x \mid H_1)}

如果 BF>1BF > 1,说明观测数据更倾向于支持 H0H_0。与频率学派的 p 值不同,贝叶斯因子可以直接比较两个非嵌套模型,且不容易受到样本量过大的影响(即所谓的“大样本陷阱”)。

7. 例题:二项分布的贝叶斯推断

考虑一个硬币投掷试验。假设硬币正面出现的概率为 θ\theta

例 7.1:已知先验分布为 θBeta(α,β)\theta \sim Beta(\alpha, \beta)。现在进行了 nn 次独立投掷,正面出现了 kk 次。求 θ\theta 的后验分布及点估计。

解析过程
  1. 先验分布:π(θ)=1B(α,β)θα1(1θ)β1\pi(\theta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}
  2. 似然函数(二项分布):f(xθ)=(nk)θk(1θ)nkf(x \mid \theta) = \binom{n}{k} \theta^k (1-\theta)^{n-k}
  3. 后验分布计算:

    π(θx)θα1(1θ)β1θk(1θ)nk=θα+k1(1θ)β+nk1\pi(\theta \mid x) \propto \theta^{\alpha-1} (1-\theta)^{\beta-1} \cdot \theta^k (1-\theta)^{n-k} = \theta^{\alpha+k-1} (1-\theta)^{\beta+n-k-1}

  4. 识别核:这显然是 Beta(α+k,β+nk)Beta(\alpha+k, \beta+n-k) 分布的核。

结果显示:

  • 后验分布θxBeta(α+k,β+nk)\theta \mid x \sim Beta(\alpha+k, \beta+n-k)
  • 后验均值θ^B=α+kα+β+n\hat{\theta}_B = \frac{\alpha+k}{\alpha+\beta+n}
  • MAP 估计θ^MAP=α+k1α+β+n2\hat{\theta}_{MAP} = \frac{\alpha+k-1}{\alpha+\beta+n-2}(当 α+k>1,β+nk>1\alpha+k>1, \beta+n-k>1 时)。

讨论:如果使用无信息先验 α=1,β=1\alpha=1, \beta=1(即 U(0,1)U(0, 1)),后验均值为 k+1n+2\frac{k+1}{n+2}。这与最大似然估计 k/nk/n 略有不同,被称为拉普拉斯平滑,能有效避免因样本量过小导致零概率的问题。

8. 全书总结

通过这九章的学习,我们从随机性的基础概率理论出发,穿过了统计描述、抽样分布、参数估计与假设检验,最终抵达了贝叶斯统计的彼岸。

统计学并非一门枯燥的计算学科,而是一套严谨的、处理不确定性的思维框架。频率学派为我们提供了坚实的工业标准和客观准则,而贝叶斯学派则为复杂环境下的决策和知识更新提供了可能。

在当今的数据科学与机器学习时代,贝叶斯思想正在焕发新生。MCMC(马尔可夫链蒙特卡罗)算法和变分推断的成熟,使得处理极其复杂的概率模型成为可能。无论你未来从事科研、金融还是工程,统计学都将是你理解世界、做出明智决断的最有力工具。

参考文献

  1. 陈希孺. 概率论与数理统计. 中国科学技术大学出版社. 2009.
  2. Gelman, A., et al. Bayesian Data Analysis. CRC Press. 2013.
  3. 茆诗松, 等. 概率论与数理统计教程. 高等教育出版社. 2011.