Skip to content

大数定律与中心极限定理

在概率论的广阔领域中,本章将带领我们进入最终的领域:探讨大量随机变量求和后的宏观表现。通过大数定律和中心极限定理,我们将揭示隐藏在个体偶然性背后的集体必然性。这种从“随机个体”到“确定整体”的跨越,是统计物理、计量经济和机器学习等现代科学的基石。

1. 随机变量序列的收敛性

在研究大量重复试验的规律时,我们需要精确的数学语言来描述随机变量序列趋向于某个确定的数值或分布的过程。

定义 依概率收敛(Convergence in Probability)设 X1,X2,X_1, X_2, \ldots 为一列随机变量,若对任意 ε>0\varepsilon > 0,有

limnP(XnXε)=0\lim_{n \to \infty} P(|X_n - X| \geqslant \varepsilon) = 0

则称序列 {Xn}\{X_n\} 依概率收敛XX,记作 XnPXX_n \xrightarrow{P} X

定义 依分布收敛(Convergence in Distribution)设 X1,X2,X_1, X_2, \ldots 为一列随机变量,其分布函数分别为 Fn(x)F_n(x)。若对于随机变量 XX 的分布函数 F(x)F(x) 的每一个连续点 xx,有

limnFn(x)=F(x)\lim_{n \to \infty} F_n(x) = F(x)

则称序列 {Xn}\{X_n\} 依分布收敛XX,记作 XndXX_n \xrightarrow{d} X

在概率论的层级中,依概率收敛是一个比依分布收敛更强的概念。直观上,依概率收敛意味着 XnX_n 的值在大概率下非常接近 XX 的值;而依分布收敛仅要求 XnX_n 的取值规律(概率累积函数)在形状上趋近于 XX 的分布。

2. 切比雪夫不等式

在探讨极限理论之前,我们必须回顾一个强大的估计工具。

切比雪夫不等式(Chebyshev's Inequality):设随机变量 XX 具有有限的期望 E[X]=μE[X] = \mu 和方差 Var(X)=σ2\mathrm{Var}(X) = \sigma^2,则对任意 ε>0\varepsilon > 0,有

P(Xμε)σ2ε2P(|X - \mu| \geqslant \varepsilon) \leqslant \frac{\sigma^2}{\varepsilon^2}

正如我们在 第七章 中证明的那样,切比雪夫不等式给出了一种普适的界限:无论分布的具体形式如何,偏离均值很远的概率总是被方差所限制。这是证明大数定律的关键“杠杆”。

3. 大数定律

大数定律(Law of Large Numbers)描述的是样本均值在试验次数增加时趋于稳定的现象。

3.1 切比雪夫大数定律

定义 切比雪夫大数定律(Chebyshev's Law of Large Numbers)设 X1,X2,,Xn,X_1, X_2, \ldots, X_n, \ldots 是相互独立(或两两不相关)的随机变量序列。若它们的期望 E[Xi]E[X_i] 存在,且方差有共同的上界,即 Var(Xi)C\mathrm{Var}(X_i) \leqslant C,则对于任意 ε>0\varepsilon > 0,有

limnP(1ni=1nXi1ni=1nE[Xi]ε)=0\lim_{n \to \infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n E[X_i] \right| \geqslant \varepsilon \right) = 0

即样本均值与其期望的平均值之差依概率收敛于零:

1ni=1nXiP1ni=1nE[Xi]\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} \frac{1}{n}\sum_{i=1}^n E[X_i]

证明

Yn=1ni=1nXiY_n = \frac{1}{n}\sum_{i=1}^n X_i。由于 XiX_i 两两不相关,其和的方差等于方差之和:

E[Yn]=1ni=1nE[Xi],Var(Yn)=1n2i=1nVar(Xi)E[Y_n] = \frac{1}{n}\sum_{i=1}^n E[X_i], \quad \mathrm{Var}(Y_n) = \frac{1}{n^2}\sum_{i=1}^n \mathrm{Var}(X_i)

由于 Var(Xi)C\mathrm{Var}(X_i) \leqslant C,则 Var(Yn)nCn2=Cn\mathrm{Var}(Y_n) \leqslant \frac{nC}{n^2} = \frac{C}{n}。 应用切比雪夫不等式于 YnY_n

P(YnE[Yn]ε)Var(Yn)ε2Cnε2P(|Y_n - E[Y_n]| \geqslant \varepsilon) \leqslant \frac{\mathrm{Var}(Y_n)}{\varepsilon^2} \leqslant \frac{C}{n\varepsilon^2}

nn \to \infty 时,上式右端趋于 0,定理得证。

该定律指出,只要方差不失控,大量随机变量的算术平均值会摆脱个体的剧烈波动,表现出极强的稳定性。

3.2 伯努利大数定律

这是我们在日常生活中感知最明显的定律。

定义 伯努利大数定律(Bernoulli's Law of Large Numbers)设 nAn_Ann 次独立重复试验中事件 AA 发生的次数,p=P(A)p = P(A) 是事件 AA 在每次试验中发生的概率,则对任意 ε>0\varepsilon > 0,有

limnP(nAnpε)=0\lim_{n \to \infty} P\left( \left| \frac{n_A}{n} - p \right| \geqslant \varepsilon \right) = 0

即频率 nAnPp\frac{n_A}{n} \xrightarrow{P} p

证明

将第 ii 次试验中事件 AA 是否发生记为伯努利随机变量 XiX_i:若 AA 发生则 Xi=1X_i=1,否则 Xi=0X_i=0。 此时 E[Xi]=pE[X_i] = pVar(Xi)=p(1p)1/4\mathrm{Var}(X_i) = p(1-p) \leqslant 1/4。 由于 nA=i=1nXin_A = \sum_{i=1}^n X_i,且 XiX_i 独立同分布(i.i.d.),根据切比雪夫大数定律:

nAn=1ni=1nXiPE[X1]=p\frac{n_A}{n} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} E[X_1] = p

定理得证。

伯努利大数定律是“频率稳定性”的严格数学描述,它解释了为什么我们可以通过大量试验的频率来估计未知的概率。

3.3 辛钦大数定律

在实际应用中,我们往往处理的是独立同分布(i.i.d.)的样本。

定义 辛钦大数定律(Khintchine's Law of Large Numbers)设 X1,X2,X_1, X_2, \ldots 为独立同分布的随机变量序列,若其期望 E[Xi]=μE[X_i] = \mu 存在,则对任意 ε>0\varepsilon > 0,有

Xn=1ni=1nXiPμ\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} \mu

辛钦大数定律相比切比雪夫定律进步在于:它不要求方差存在。只要均值存在,样本均值就会收敛。这是数理统计中“样本均值是总体均值的一致估计量”的理论基石。

此外,强大数定律(Strong Law of Large Numbers)进一步指出,这种收敛不仅是概率上的,而且是“几乎必然”(Almost Surely)的,即:

P(limnXn=μ)=1P\left( \lim_{n \to \infty} \overline{X}_n = \mu \right) = 1

3.4 大数定律的比较

定律名称随机变量条件矩条件结论
切比雪夫大数定律两两不相关方差一致有界均值差依概率收敛于 0
伯努利大数定律独立伯努利试验0<p<10 < p < 1频率依概率收敛于概率
辛钦大数定律独立同分布 (i.i.d.)期望存在样本均值依概率收敛于期望

4. 中心极限定理

大数定律告诉我们“均值是多少”,而中心极限定理(Central Limit Theorem, CLT)则告诉我们“均值波动的分布形状”。

4.1 林德伯格-莱维中心极限定理

定义 林德伯格-莱维中心极限定理(Lindeberg-Lévy Central Limit Theorem)设 X1,X2,X_1, X_2, \ldots 为独立同分布的随机变量序列,且 E[Xi]=μE[X_i] = \muVar(Xi)=σ2>0\mathrm{Var}(X_i) = \sigma^2 > 0。则当 nn \to \infty 时,其标准化和

Zn=i=1nXinμnσ=Xnμσ/ndN(0,1)Z_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} = \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

这意味着对于足够大的 nnXi\sum X_i 近似服从 N(nμ,nσ2)N(n\mu, n\sigma^2),或者样本均值 Xn\overline{X}_n 近似服从 N(μ,σ2/n)N(\mu, \sigma^2/n)

直觉解释:无论原始分布是均匀分布、指数分布还是某种奇形怪状的离散分布,只要它们独立求和,求和后的结果都会迅速“磨平”棱角,向正态分布的钟形曲线靠拢。这就是为什么正态分布在自然界(如人的身高、测量误差、射击偏差)中无处不在的原因。

4.2 棣莫弗-拉普拉斯中心极限定理

这是针对二项分布的特殊情形,也是历史上最早发现的中心极限定理。

定义 棣莫弗-拉普拉斯定理(De Moivre-Laplace Theorem)设随机变量 XB(n,p)X \sim B(n, p)0<p<10 < p < 1),则对于任意 xx,有

limnP(Xnpnp(1p)x)=Φ(x)\lim_{n \to \infty} P\left( \frac{X - np}{\sqrt{np(1-p)}} \leqslant x \right) = \Phi(x)

其中 Φ(x)\Phi(x) 是标准正态分布的分布函数。

在实践中,当 np5np \geqslant 5n(1p)5n(1-p) \geqslant 5 时,我们通常认为近似效果是可以接受的。

4.3 李雅普诺夫中心极限定理

定义 李雅普诺夫中心极限定理(Lyapunov Central Limit Theorem)针对的是随机变量独立但不同分布的情形。只要每个个体对总和的影响力“足够小”(满足李雅普诺夫条件),它们的总和依然会趋向于正态分布。这进一步泛化了正态分布的适用范围。

5. 中心极限定理的应用

5.1 例题:保险公司的索赔压力

某保险公司有 n=10,000n = 10,000 个独立投保人。每个投保人在一年内索赔的概率为 0.010.01。设每笔索赔额 YY 的均值为 E[Y]=5,000E[Y] = 5,000 元,标准差 σY=2,000\sigma_Y = 2,000 元。求公司年总索赔额超过 550,000550,000 元的概率。

解答

  1. XiX_i 为第 ii 个投保人的索赔额。若不索赔,Xi=0X_i = 0;若索赔,Xi=YX_i = Y

  2. 每一个 XiX_i 的期望:E[Xi]=0.01×5000+0.99×0=50E[X_i] = 0.01 \times 5000 + 0.99 \times 0 = 50

  3. 每一个 XiX_i 的二阶矩:E[Xi2]=0.01×E[Y2]=0.01×(σY2+E[Y]2)=0.01×(20002+50002)=290,000E[X_i^2] = 0.01 \times E[Y^2] = 0.01 \times (\sigma_Y^2 + E[Y]^2) = 0.01 \times (2000^2 + 5000^2) = 290,000

  4. 每一个 XiX_i 的方差:Var(Xi)=290,000502=287,500\mathrm{Var}(X_i) = 290,000 - 50^2 = 287,500

  5. 总索赔额 S=i=110000XiS = \sum_{i=1}^{10000} X_i。由 CLT 知 SapproxN(nE[Xi],nVar(Xi))S \overset{approx}{\sim} N(nE[X_i], n\mathrm{Var}(X_i))

    • 均值 E[S]=10,000×50=500,000E[S] = 10,000 \times 50 = 500,000
    • 标准差 σS=10,000×287,500=100×287,50053,619\sigma_S = \sqrt{10,000 \times 287,500} = 100 \times \sqrt{287,500} \approx 53,619
  6. 计算概率:

    P(S>550,000)=P(S500,00053,619>50,00053,619)1Φ(0.93)10.8238=0.1762P(S > 550,000) = P\left( \frac{S - 500,000}{53,619} > \frac{50,000}{53,619} \right) \approx 1 - \Phi(0.93) \approx 1 - 0.8238 = 0.1762

5.2 例题:二项分布的正态近似

已知 XB(100,0.4)X \sim B(100, 0.4),求 P(35X45)P(35 \leqslant X \leqslant 45)

解答: 这里 np=40np = 40np(1p)=24np(1-p) = 24。标准差 σ=244.899\sigma = \sqrt{24} \approx 4.899。 利用棣莫弗-拉普拉斯定理(配合连续性修正):

P(34.5X45.5)=P(34.5404.899Z45.5404.899)P(34.5 \leqslant X \leqslant 45.5) = P\left( \frac{34.5 - 40}{4.899} \leqslant Z \leqslant \frac{45.5 - 40}{4.899} \right)

=P(1.12Z1.12)=Φ(1.12)Φ(1.12)=2Φ(1.12)12×0.86861=0.7372= P(-1.12 \leqslant Z \leqslant 1.12) = \Phi(1.12) - \Phi(-1.12) = 2\Phi(1.12) - 1 \approx 2 \times 0.8686 - 1 = 0.7372

6. 全书总结

至此,我们的概率论之旅已经接近尾声。回顾全书:

  1. 第一、二章:我们建立了概率的公理化体系,理解了条件概率与独立性。
  2. 第三、四、五章:我们深入研究了离散与连续随机变量及其分布。
  3. 第六、七章:我们讨论了多维分布及数字特征(期望、方差、协方差)。
  4. 第八章(本章):我们揭示了极限规律。

大数定律为我们保证了世界的稳定性,让我们相信经验频率会逼近理论概率;中心极限定理为我们保证了世界的正态性,解释了宏观秩序如何从微观混沌中产生。这两大基石不仅是概率论的巅峰,也是整个人类理性的胜利。希望这本教程能成为你通往随机世界深处的一盏明灯。