贝叶斯统计初步

统计学的发展历史上，频率学派与贝叶斯学派的争论贯穿始终。频率学派将参数视为固定但未知的常数，通过观测数据的重复试验频率来推断其真值。相比之下，贝叶斯学派认为参数本身具有不确定性，应当被视为一个随机变量。这种视角的转变不仅是一种数学处理技巧，更是一种深刻的哲学革新。本章将带你领略贝叶斯统计的独特魅力，理解它是如何将主观信念与客观观测数据有机结合，实现认识的动态更新。

1. 频率学派与贝叶斯学派

频率学派的参数观建立在“客观性”之上。如果我们要推断一枚硬币出现正面的概率 $\theta$ ，频率学派会假设存在一个唯一的、真实的 $\theta$ 。我们通过不断抛掷硬币，观察正面出现的频率，认为当试验次数趋于无穷大时，这个频率就会收敛于 $\theta$ 。在这种视角下，概率被定义为长期重复试验的极限频率。

贝叶斯学派则引入了主观概率的概念。对于贝叶斯统计学家来说， $\theta$ 是一个随机变量，反映了我们对参数取值的“信念”或“知识状态”。在试验之前，我们可能根据经验认为硬币大概率是均匀的，这就是先验信息。随着试验数据的增加，我们不断调整这一信念。这种参数观使得贝叶斯方法在处理小样本、专家经验以及决策分析等领域具有天然的优势。

两者的核心差异在于：频率学派强调“让数据说话”，而贝叶斯学派强调“在已有知识的基础上让数据修正认识”。

2. 贝叶斯推断的基本框架

贝叶斯推断的核心逻辑是通过观测数据 $x$ 来更新对参数 $\theta$ 的认识。这一过程遵循贝叶斯公式。

定义 先验分布 (Prior Distribution)：记作 $\pi(\theta)$ ，表示在进行本次观测之前，根据历史经验或理论推导对参数 $\theta$ 可能取值的认识。

定义 似然函数 (Likelihood)：记作 $L(\theta \mid x) = f(x \mid \theta)$ ，表示在参数 $\theta$ 给定的情况下，观测到数据 $x$ 的概率模型。

定义 后验分布 (Posterior Distribution)：记作 $\pi(\theta \mid x)$ ，表示在获得观测数据 $x$ 之后，对参数 $\theta$ 的更新后的认识。

根据概率论的乘法原理，参数与数据的联合分布可以写成 $f(x, \theta) = f(x \mid \theta) \pi(\theta) = \pi(\theta \mid x) f(x)$ 。由此得到连续型随机变量的贝叶斯公式：

\pi(\theta \mid x) = \frac{f(x \mid \theta) \pi(\theta)}{\int f(x \mid \theta) \pi(\theta) \, \mathrm{d}\theta}

贝叶斯公式的推导过程

考虑参数 $\theta$ 与数据 $x$ 的联合分布： $f(x, \theta) = f(x \mid \theta) \pi(\theta)$ 。
数据 $x$ 的边际分布可以通过对联合分布关于 $\theta$ 积分得到： $f(x) = \int f(x, \theta) \, \mathrm{d}\theta = \int f(x \mid \theta) \pi(\theta) \, \mathrm{d}\theta$ 。
根据条件概率定义，后验分布 $\pi(\theta \mid x) = \frac{f(x, \theta)}{f(x)}$ 。
将前两步结果代入即可得到公式。由于分母 $f(x)$ 与 $\theta$ 无关，通常将其视为归一化常数，因此常用比例关系表示： $\pi(\theta \mid x) \propto f(x \mid \theta) \pi(\theta)$ 。

这个公式简洁地表达了“先验信息 + 样本信息 = 后验信息”的理念。

3. 先验分布的选择

先验分布的选择是贝叶斯统计中最具争议也最灵活的部分。

定义 无信息先验 (Non-informative Prior)：当研究者对参数没有任何偏好时使用的一种先验。一种常见的选择是在参数空间上取均匀分布（Uniform Prior），但并非所有无信息先验都是均匀分布，例如下面的 Jeffreys 先验就是另一种重要的无信息先验。

定义 Jeffreys 先验 (Jeffreys Prior)：一种基于 Fisher 信息阵的无信息先验，具有重参数化下的不变性。其定义为 $\pi(\theta) \propto \sqrt{I(\theta)}$ ，其中 $I(\theta)$ 是参数的 Fisher 信息。

定义 共轭先验 (Conjugate Prior)：如果后验分布与先验分布属于同一种概率分布族，则称该先验分布为似然函数的共轭先验。

使用共轭先验可以大大简化数学运算，使得后验分布具有解析形式。常见的共轭对包括：

二项分布似然 + 贝塔分布先验 $\rightarrow$ 贝塔后验。
正态分布似然（已知方差，均值 $\mu$ 未知）+ 正态先验 $\rightarrow$ 正态后验。
泊松分布似然 + 伽马分布先验 $\rightarrow$ 伽马后验。

4. 贝叶斯估计

在得到后验分布 $\pi(\theta \mid x)$ 后，我们需要从分布中提取出反映参数特征的数值。

定义 贝叶斯估计 (Bayesian Estimate)：通过对后验分布进行某种统计汇总得到的点估计。

常见的贝叶斯估计量包括：

后验均值： $\hat{\theta}_B = E[\theta \mid x] = \int \theta \pi(\theta \mid x) \, \mathrm{d}\theta$ 。这是在平方损失函数下表现最好的估计。
后验中位数：使得后验分布在其左右概率各占一半的数值。这是在绝对损失函数下的最优估计。

定义 最大后验估计 (Maximum A Posteriori, MAP)：取后验分布达到最大值处的 $\theta$ 作为估计量，即 $\hat{\theta}_{MAP} = \arg \max_{\theta} \pi(\theta \mid x)$ 。在离散参数空间中，MAP 对应于 0-1 损失函数下的最优估计；在机器学习中应用极广。

5. 贝叶斯区间估计

不同于频率学派的置信区间，贝叶斯区间具有直观的概率意义。

定义 可信区间 (Credible Interval)：对于给定的概率 $1-\alpha$ ，如果存在区间 $[a, b]$ 使得 $P(a \leqslant \theta \leqslant b \mid x) = 1-\alpha$ ，则称该区间为 $\theta$ 的 $1-\alpha$ 贝叶斯可信区间。

定义 最高后验密度区间 (Highest Posterior Density, HPD)：在所有覆盖概率为 $1-\alpha$ 的可信区间中，长度最短的那个。在这个区间内，任何一点的后验密度都高于区间外任何一点的密度。

置信区间衡量的是“方法”的可靠性（即重复试验中覆盖真值的频率），而可信区间直接给出了“参数落在该区间内”的概率。

6. 贝叶斯假设检验简介

贝叶斯学派通过比较两个假设的后验概率来进行检验。

定义 贝叶斯因子 (Bayes Factor)：衡量数据对一个假设相对于另一个假设的支持程度。对于假设 $H_0$ 和 $H_1$ ，贝叶斯因子定义为 $BF = \frac{P(x \mid H_0)}{P(x \mid H_1)}$ 。

如果 $BF > 1$ ，说明观测数据更倾向于支持 $H_0$ 。与频率学派的 p 值不同，贝叶斯因子可以直接比较两个非嵌套模型，且不容易受到样本量过大的影响（即所谓的“大样本陷阱”）。

7. 例题：二项分布的贝叶斯推断

考虑一个硬币投掷试验。假设硬币正面出现的概率为 $\theta$ 。

例 7.1：已知先验分布为 $\theta \sim Beta(\alpha, \beta)$ 。现在进行了 $n$ 次独立投掷，正面出现了 $k$ 次。求 $\theta$ 的后验分布及点估计。

解析过程

先验分布： $\pi(\theta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}$ 。
似然函数（二项分布）： $f(x \mid \theta) = \binom{n}{k} \theta^k (1-\theta)^{n-k}$ 。
后验分布计算： $\pi(\theta \mid x) \propto \theta^{\alpha-1} (1-\theta)^{\beta-1} \cdot \theta^k (1-\theta)^{n-k} = \theta^{\alpha+k-1} (1-\theta)^{\beta+n-k-1}$
识别核：这显然是 $Beta(\alpha+k, \beta+n-k)$ 分布的核。

结果显示：

后验分布： $\theta \mid x \sim Beta(\alpha+k, \beta+n-k)$ 。
后验均值： $\hat{\theta}_B = \frac{\alpha+k}{\alpha+\beta+n}$ 。
MAP 估计： $\hat{\theta}_{MAP} = \frac{\alpha+k-1}{\alpha+\beta+n-2}$ （当 $\alpha+k>1, \beta+n-k>1$ 时）。

讨论：如果使用无信息先验 $\alpha=1, \beta=1$ （即 $U(0, 1)$ ），后验均值为 $\frac{k+1}{n+2}$ 。这与最大似然估计 $k/n$ 略有不同，被称为拉普拉斯平滑，能有效避免因样本量过小导致零概率的问题。

8. 全书总结

通过这九章的学习，我们从随机性的基础概率理论出发，穿过了统计描述、抽样分布、参数估计与假设检验，最终抵达了贝叶斯统计的彼岸。

统计学并非一门枯燥的计算学科，而是一套严谨的、处理不确定性的思维框架。频率学派为我们提供了坚实的工业标准和客观准则，而贝叶斯学派则为复杂环境下的决策和知识更新提供了可能。

在当今的数据科学与机器学习时代，贝叶斯思想正在焕发新生。MCMC（马尔可夫链蒙特卡罗）算法和变分推断的成熟，使得处理极其复杂的概率模型成为可能。无论你未来从事科研、金融还是工程，统计学都将是你理解世界、做出明智决断的最有力工具。

参考文献

陈希孺. 概率论与数理统计. 中国科学技术大学出版社. 2009.
Gelman, A., et al. Bayesian Data Analysis. CRC Press. 2013.
茆诗松, 等. 概率论与数理统计教程. 高等教育出版社. 2011.

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

贝叶斯统计初步

1. 频率学派与贝叶斯学派

2. 贝叶斯推断的基本框架

3. 先验分布的选择

4. 贝叶斯估计

5. 贝叶斯区间估计

6. 贝叶斯假设检验简介

7. 例题：二项分布的贝叶斯推断

8. 全书总结

参考文献

贝叶斯统计初步 ​

1. 频率学派与贝叶斯学派 ​

2. 贝叶斯推断的基本框架 ​

3. 先验分布的选择 ​

4. 贝叶斯估计 ​

5. 贝叶斯区间估计 ​

6. 贝叶斯假设检验简介 ​

7. 例题：二项分布的贝叶斯推断 ​

8. 全书总结 ​

参考文献 ​

贝叶斯统计初步

1. 频率学派与贝叶斯学派

2. 贝叶斯推断的基本框架

3. 先验分布的选择

4. 贝叶斯估计

5. 贝叶斯区间估计

6. 贝叶斯假设检验简介

7. 例题：二项分布的贝叶斯推断

8. 全书总结

参考文献