大数定律与中心极限定理

在概率论的广阔领域中，本章将带领我们进入最终的领域：探讨大量随机变量求和后的宏观表现。通过大数定律和中心极限定理，我们将揭示隐藏在个体偶然性背后的集体必然性。这种从“随机个体”到“确定整体”的跨越，是统计物理、计量经济和机器学习等现代科学的基石。

1. 随机变量序列的收敛性

在研究大量重复试验的规律时，我们需要精确的数学语言来描述随机变量序列趋向于某个确定的数值或分布的过程。

定义 依概率收敛（Convergence in Probability）设 $X_1, X_2, \ldots$ 为一列随机变量，若对任意 $\varepsilon > 0$ ，有

\lim_{n \to \infty} P(|X_n - X| \geqslant \varepsilon) = 0

则称序列 $\{X_n\}$ 依概率收敛于 $X$ ，记作 $X_n \xrightarrow{P} X$ 。

定义 依分布收敛（Convergence in Distribution）设 $X_1, X_2, \ldots$ 为一列随机变量，其分布函数分别为 $F_n(x)$ 。若对于随机变量 $X$ 的分布函数 $F(x)$ 的每一个连续点 $x$ ，有

\lim_{n \to \infty} F_n(x) = F(x)

则称序列 $\{X_n\}$ 依分布收敛于 $X$ ，记作 $X_n \xrightarrow{d} X$ 。

在概率论的层级中，依概率收敛是一个比依分布收敛更强的概念。直观上，依概率收敛意味着 $X_n$ 的值在大概率下非常接近 $X$ 的值；而依分布收敛仅要求 $X_n$ 的取值规律（概率累积函数）在形状上趋近于 $X$ 的分布。

2. 切比雪夫不等式

在探讨极限理论之前，我们必须回顾一个强大的估计工具。

切比雪夫不等式（Chebyshev's Inequality）：设随机变量 $X$ 具有有限的期望 $E[X] = \mu$ 和方差 $\mathrm{Var}(X) = \sigma^2$ ，则对任意 $\varepsilon > 0$ ，有

P(|X - \mu| \geqslant \varepsilon) \leqslant \frac{\sigma^2}{\varepsilon^2}

正如我们在第七章中证明的那样，切比雪夫不等式给出了一种普适的界限：无论分布的具体形式如何，偏离均值很远的概率总是被方差所限制。这是证明大数定律的关键“杠杆”。

3. 大数定律

大数定律（Law of Large Numbers）描述的是样本均值在试验次数增加时趋于稳定的现象。

3.1 切比雪夫大数定律

定义 切比雪夫大数定律（Chebyshev's Law of Large Numbers）设 $X_1, X_2, \ldots, X_n, \ldots$ 是相互独立（或两两不相关）的随机变量序列。若它们的期望 $E[X_i]$ 存在，且方差有共同的上界，即 $\mathrm{Var}(X_i) \leqslant C$ ，则对于任意 $\varepsilon > 0$ ，有

\lim_{n \to \infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n E[X_i] \right| \geqslant \varepsilon \right) = 0

即样本均值与其期望的平均值之差依概率收敛于零：

\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} \frac{1}{n}\sum_{i=1}^n E[X_i]

证明

令 $Y_n = \frac{1}{n}\sum_{i=1}^n X_i$ 。由于 $X_i$ 两两不相关，其和的方差等于方差之和：

E[Y_n] = \frac{1}{n}\sum_{i=1}^n E[X_i], \quad \mathrm{Var}(Y_n) = \frac{1}{n^2}\sum_{i=1}^n \mathrm{Var}(X_i)

由于 $\mathrm{Var}(X_i) \leqslant C$ ，则 $\mathrm{Var}(Y_n) \leqslant \frac{nC}{n^2} = \frac{C}{n}$ 。应用切比雪夫不等式于 $Y_n$ ：

P(|Y_n - E[Y_n]| \geqslant \varepsilon) \leqslant \frac{\mathrm{Var}(Y_n)}{\varepsilon^2} \leqslant \frac{C}{n\varepsilon^2}

当 $n \to \infty$ 时，上式右端趋于 0，定理得证。

该定律指出，只要方差不失控，大量随机变量的算术平均值会摆脱个体的剧烈波动，表现出极强的稳定性。

3.2 伯努利大数定律

这是我们在日常生活中感知最明显的定律。

定义 伯努利大数定律（Bernoulli's Law of Large Numbers）设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p = P(A)$ 是事件 $A$ 在每次试验中发生的概率，则对任意 $\varepsilon > 0$ ，有

\lim_{n \to \infty} P\left( \left| \frac{n_A}{n} - p \right| \geqslant \varepsilon \right) = 0

即频率 $\frac{n_A}{n} \xrightarrow{P} p$ 。

证明

将第 $i$ 次试验中事件 $A$ 是否发生记为伯努利随机变量 $X_i$ ：若 $A$ 发生则 $X_i=1$ ，否则 $X_i=0$ 。此时 $E[X_i] = p$ ， $\mathrm{Var}(X_i) = p(1-p) \leqslant 1/4$ 。由于 $n_A = \sum_{i=1}^n X_i$ ，且 $X_i$ 独立同分布（i.i.d.），根据切比雪夫大数定律：

\frac{n_A}{n} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} E[X_1] = p

定理得证。

伯努利大数定律是“频率稳定性”的严格数学描述，它解释了为什么我们可以通过大量试验的频率来估计未知的概率。

3.3 辛钦大数定律

在实际应用中，我们往往处理的是独立同分布（i.i.d.）的样本。

定义 辛钦大数定律（Khintchine's Law of Large Numbers）设 $X_1, X_2, \ldots$ 为独立同分布的随机变量序列，若其期望 $E[X_i] = \mu$ 存在，则对任意 $\varepsilon > 0$ ，有

\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} \mu

辛钦大数定律相比切比雪夫定律进步在于：它不要求方差存在。只要均值存在，样本均值就会收敛。这是数理统计中“样本均值是总体均值的一致估计量”的理论基石。

此外，强大数定律（Strong Law of Large Numbers）进一步指出，这种收敛不仅是概率上的，而且是“几乎必然”（Almost Surely）的，即：

P\left( \lim_{n \to \infty} \overline{X}_n = \mu \right) = 1

3.4 大数定律的比较

定律名称	随机变量条件	矩条件	结论
切比雪夫大数定律	两两不相关	方差一致有界	均值差依概率收敛于 0
伯努利大数定律	独立伯努利试验	$0 < p < 1$	频率依概率收敛于概率
辛钦大数定律	独立同分布 (i.i.d.)	期望存在	样本均值依概率收敛于期望

4. 中心极限定理

大数定律告诉我们“均值是多少”，而中心极限定理（Central Limit Theorem, CLT）则告诉我们“均值波动的分布形状”。

4.1 林德伯格-莱维中心极限定理

定义 林德伯格-莱维中心极限定理（Lindeberg-Lévy Central Limit Theorem）设 $X_1, X_2, \ldots$ 为独立同分布的随机变量序列，且 $E[X_i] = \mu$ ， $\mathrm{Var}(X_i) = \sigma^2 > 0$ 。则当 $n \to \infty$ 时，其标准化和

Z_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} = \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

这意味着对于足够大的 $n$ ， $\sum X_i$ 近似服从 $N(n\mu, n\sigma^2)$ ，或者样本均值 $\overline{X}_n$ 近似服从 $N(\mu, \sigma^2/n)$ 。

直觉解释：无论原始分布是均匀分布、指数分布还是某种奇形怪状的离散分布，只要它们独立求和，求和后的结果都会迅速“磨平”棱角，向正态分布的钟形曲线靠拢。这就是为什么正态分布在自然界（如人的身高、测量误差、射击偏差）中无处不在的原因。

4.2 棣莫弗-拉普拉斯中心极限定理

这是针对二项分布的特殊情形，也是历史上最早发现的中心极限定理。

定义 棣莫弗-拉普拉斯定理（De Moivre-Laplace Theorem）设随机变量 $X \sim B(n, p)$ （ $0 < p < 1$ ），则对于任意 $x$ ，有

\lim_{n \to \infty} P\left( \frac{X - np}{\sqrt{np(1-p)}} \leqslant x \right) = \Phi(x)

其中 $\Phi(x)$ 是标准正态分布的分布函数。

在实践中，当 $np \geqslant 5$ 且 $n(1-p) \geqslant 5$ 时，我们通常认为近似效果是可以接受的。

4.3 李雅普诺夫中心极限定理

定义 李雅普诺夫中心极限定理（Lyapunov Central Limit Theorem）针对的是随机变量独立但不同分布的情形。只要每个个体对总和的影响力“足够小”（满足李雅普诺夫条件），它们的总和依然会趋向于正态分布。这进一步泛化了正态分布的适用范围。

5. 中心极限定理的应用

5.1 例题：保险公司的索赔压力

某保险公司有 $n = 10,000$ 个独立投保人。每个投保人在一年内索赔的概率为 $0.01$ 。设每笔索赔额 $Y$ 的均值为 $E[Y] = 5,000$ 元，标准差 $\sigma_Y = 2,000$ 元。求公司年总索赔额超过 $550,000$ 元的概率。

解答：

令 $X_i$ 为第 $i$ 个投保人的索赔额。若不索赔， $X_i = 0$ ；若索赔， $X_i = Y$ 。
每一个 $X_i$ 的期望： $E[X_i] = 0.01 \times 5000 + 0.99 \times 0 = 50$ 。
每一个 $X_i$ 的二阶矩： $E[X_i^2] = 0.01 \times E[Y^2] = 0.01 \times (\sigma_Y^2 + E[Y]^2) = 0.01 \times (2000^2 + 5000^2) = 290,000$ 。
每一个 $X_i$ 的方差： $\mathrm{Var}(X_i) = 290,000 - 50^2 = 287,500$ 。
总索赔额 $S = \sum_{i=1}^{10000} X_i$ 。由 CLT 知 $S \overset{approx}{\sim} N(nE[X_i], n\mathrm{Var}(X_i))$ 。
- 均值 $E[S] = 10,000 \times 50 = 500,000$
- 标准差 $\sigma_S = \sqrt{10,000 \times 287,500} = 100 \times \sqrt{287,500} \approx 53,619$
计算概率：
$P(S > 550,000) = P\left( \frac{S - 500,000}{53,619} > \frac{50,000}{53,619} \right) \approx 1 - \Phi(0.93) \approx 1 - 0.8238 = 0.1762$

5.2 例题：二项分布的正态近似

已知 $X \sim B(100, 0.4)$ ，求 $P(35 \leqslant X \leqslant 45)$ 。

解答：这里 $np = 40$ ， $np(1-p) = 24$ 。标准差 $\sigma = \sqrt{24} \approx 4.899$ 。利用棣莫弗-拉普拉斯定理（配合连续性修正）：

P(34.5 \leqslant X \leqslant 45.5) = P\left( \frac{34.5 - 40}{4.899} \leqslant Z \leqslant \frac{45.5 - 40}{4.899} \right)

= P(-1.12 \leqslant Z \leqslant 1.12) = \Phi(1.12) - \Phi(-1.12) = 2\Phi(1.12) - 1 \approx 2 \times 0.8686 - 1 = 0.7372

6. 全书总结

至此，我们的概率论之旅已经接近尾声。回顾全书：

第一、二章：我们建立了概率的公理化体系，理解了条件概率与独立性。
第三、四、五章：我们深入研究了离散与连续随机变量及其分布。
第六、七章：我们讨论了多维分布及数字特征（期望、方差、协方差）。
第八章（本章）：我们揭示了极限规律。

大数定律为我们保证了世界的稳定性，让我们相信经验频率会逼近理论概率；中心极限定理为我们保证了世界的正态性，解释了宏观秩序如何从微观混沌中产生。这两大基石不仅是概率论的巅峰，也是整个人类理性的胜利。希望这本教程能成为你通往随机世界深处的一盏明灯。

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

大数定律与中心极限定理

1. 随机变量序列的收敛性

2. 切比雪夫不等式

3. 大数定律

3.1 切比雪夫大数定律

3.2 伯努利大数定律

3.3 辛钦大数定律

3.4 大数定律的比较

4. 中心极限定理

4.1 林德伯格-莱维中心极限定理

4.2 棣莫弗-拉普拉斯中心极限定理

4.3 李雅普诺夫中心极限定理

5. 中心极限定理的应用

5.1 例题：保险公司的索赔压力

5.2 例题：二项分布的正态近似

6. 全书总结

大数定律与中心极限定理 ​

1. 随机变量序列的收敛性 ​

2. 切比雪夫不等式 ​

3. 大数定律 ​

3.1 切比雪夫大数定律 ​

3.2 伯努利大数定律 ​

3.3 辛钦大数定律 ​

3.4 大数定律的比较 ​

4. 中心极限定理 ​

4.1 林德伯格-莱维中心极限定理 ​

4.2 棣莫弗-拉普拉斯中心极限定理 ​

4.3 李雅普诺夫中心极限定理 ​

5. 中心极限定理的应用 ​

5.1 例题：保险公司的索赔压力 ​

5.2 例题：二项分布的正态近似 ​

6. 全书总结 ​

大数定律与中心极限定理

1. 随机变量序列的收敛性

2. 切比雪夫不等式

3. 大数定律

3.1 切比雪夫大数定律

3.2 伯努利大数定律

3.3 辛钦大数定律

3.4 大数定律的比较

4. 中心极限定理

4.1 林德伯格-莱维中心极限定理

4.2 棣莫弗-拉普拉斯中心极限定理

4.3 李雅普诺夫中心极限定理

5. 中心极限定理的应用

5.1 例题：保险公司的索赔压力

5.2 例题：二项分布的正态近似

6. 全书总结