贝叶斯统计初步
统计学的发展历史上,频率学派与贝叶斯学派的争论贯穿始终。频率学派将参数视为固定但未知的常数,通过观测数据的重复试验频率来推断其真值。相比之下,贝叶斯学派认为参数本身具有不确定性,应当被视为一个随机变量。这种视角的转变不仅是一种数学处理技巧,更是一种深刻的哲学革新。本章将带你领略贝叶斯统计的独特魅力,理解它是如何将主观信念与客观观测数据有机结合,实现认识的动态更新。
1. 频率学派与贝叶斯学派
频率学派的参数观建立在“客观性”之上。如果我们要推断一枚硬币出现正面的概率 ,频率学派会假设存在一个唯一的、真实的 。我们通过不断抛掷硬币,观察正面出现的频率,认为当试验次数趋于无穷大时,这个频率就会收敛于 。在这种视角下,概率被定义为长期重复试验的极限频率。
贝叶斯学派则引入了主观概率的概念。对于贝叶斯统计学家来说, 是一个随机变量,反映了我们对参数取值的“信念”或“知识状态”。在试验之前,我们可能根据经验认为硬币大概率是均匀的,这就是先验信息。随着试验数据的增加,我们不断调整这一信念。这种参数观使得贝叶斯方法在处理小样本、专家经验以及决策分析等领域具有天然的优势。
两者的核心差异在于:频率学派强调“让数据说话”,而贝叶斯学派强调“在已有知识的基础上让数据修正认识”。
2. 贝叶斯推断的基本框架
贝叶斯推断的核心逻辑是通过观测数据 来更新对参数 的认识。这一过程遵循 贝叶斯公式。
定义 先验分布 (Prior Distribution):记作 ,表示在进行本次观测之前,根据历史经验或理论推导对参数 可能取值的认识。
定义 似然函数 (Likelihood):记作 ,表示在参数 给定的情况下,观测到数据 的概率模型。
定义 后验分布 (Posterior Distribution):记作 ,表示在获得观测数据 之后,对参数 的更新后的认识。
根据概率论的乘法原理,参数与数据的联合分布可以写成 。由此得到连续型随机变量的贝叶斯公式:
贝叶斯公式的推导过程
- 考虑参数 与数据 的联合分布:。
- 数据 的边际分布可以通过对联合分布关于 积分得到:。
- 根据条件概率定义,后验分布 。
- 将前两步结果代入即可得到公式。由于分母 与 无关,通常将其视为归一化常数,因此常用比例关系表示:。
这个公式简洁地表达了“先验信息 + 样本信息 = 后验信息”的理念。
3. 先验分布的选择
先验分布的选择是贝叶斯统计中最具争议也最灵活的部分。
定义 无信息先验 (Non-informative Prior):当研究者对参数没有任何偏好时使用的一种先验。一种常见的选择是在参数空间上取均匀分布(Uniform Prior),但并非所有无信息先验都是均匀分布,例如下面的 Jeffreys 先验就是另一种重要的无信息先验。
定义 Jeffreys 先验 (Jeffreys Prior):一种基于 Fisher 信息阵的无信息先验,具有重参数化下的不变性。其定义为 ,其中 是参数的 Fisher 信息。
定义 共轭先验 (Conjugate Prior):如果后验分布与先验分布属于同一种概率分布族,则称该先验分布为似然函数的共轭先验。
使用共轭先验可以大大简化数学运算,使得后验分布具有解析形式。常见的共轭对包括:
4. 贝叶斯估计
在得到后验分布 后,我们需要从分布中提取出反映参数特征的数值。
定义 贝叶斯估计 (Bayesian Estimate):通过对后验分布进行某种统计汇总得到的点估计。
常见的贝叶斯估计量包括:
- 后验均值:。这是在平方损失函数下表现最好的估计。
- 后验中位数:使得后验分布在其左右概率各占一半的数值。这是在绝对损失函数下的最优估计。
定义 最大后验估计 (Maximum A Posteriori, MAP):取后验分布达到最大值处的 作为估计量,即 。在离散参数空间中,MAP 对应于 0-1 损失函数下的最优估计;在机器学习中应用极广。
5. 贝叶斯区间估计
不同于频率学派的置信区间,贝叶斯区间具有直观的概率意义。
定义 可信区间 (Credible Interval):对于给定的概率 ,如果存在区间 使得 ,则称该区间为 的 贝叶斯可信区间。
定义 最高后验密度区间 (Highest Posterior Density, HPD):在所有覆盖概率为 的可信区间中,长度最短的那个。在这个区间内,任何一点的后验密度都高于区间外任何一点的密度。
置信区间衡量的是“方法”的可靠性(即重复试验中覆盖真值的频率),而可信区间直接给出了“参数落在该区间内”的概率。
6. 贝叶斯假设检验简介
贝叶斯学派通过比较两个假设的后验概率来进行检验。
定义 贝叶斯因子 (Bayes Factor):衡量数据对一个假设相对于另一个假设的支持程度。对于假设 和 ,贝叶斯因子定义为 。
如果 ,说明观测数据更倾向于支持 。与频率学派的 p 值不同,贝叶斯因子可以直接比较两个非嵌套模型,且不容易受到样本量过大的影响(即所谓的“大样本陷阱”)。
7. 例题:二项分布的贝叶斯推断
考虑一个硬币投掷试验。假设硬币正面出现的概率为 。
例 7.1:已知先验分布为 。现在进行了 次独立投掷,正面出现了 次。求 的后验分布及点估计。
解析过程
- 先验分布:。
- 似然函数(二项分布):。
- 后验分布计算:
- 识别核:这显然是 分布的核。
结果显示:
- 后验分布:。
- 后验均值:。
- MAP 估计:(当 时)。
讨论:如果使用无信息先验 (即 ),后验均值为 。这与最大似然估计 略有不同,被称为拉普拉斯平滑,能有效避免因样本量过小导致零概率的问题。
8. 全书总结
通过这九章的学习,我们从随机性的基础概率理论出发,穿过了统计描述、抽样分布、参数估计与假设检验,最终抵达了贝叶斯统计的彼岸。
统计学并非一门枯燥的计算学科,而是一套严谨的、处理不确定性的思维框架。频率学派为我们提供了坚实的工业标准和客观准则,而贝叶斯学派则为复杂环境下的决策和知识更新提供了可能。
在当今的数据科学与机器学习时代,贝叶斯思想正在焕发新生。MCMC(马尔可夫链蒙特卡罗)算法和变分推断的成熟,使得处理极其复杂的概率模型成为可能。无论你未来从事科研、金融还是工程,统计学都将是你理解世界、做出明智决断的最有力工具。
参考文献
- 陈希孺. 概率论与数理统计. 中国科学技术大学出版社. 2009.
- Gelman, A., et al. Bayesian Data Analysis. CRC Press. 2013.
- 茆诗松, 等. 概率论与数理统计教程. 高等教育出版社. 2011.