Skip to content

条件概率与独立性

1. 条件概率

在许多实际问题中,除了已知的样本空间 Ω\Omega 外,我们往往还能获得一些额外的信息。这些信息告诉我们某些事件已经发生,从而改变了我们对目标事件发生概率的评估。比如,在掷一枚公平的骰子时,已知点数是偶数,那么点数为 6 的概率就不再是 1/61/6,而是 1/31/3。这种在已知某事件发生的情况下,另一事件发生的概率,就是条件概率。

定义 条件概率(Conditional Probability)设 A,BA, B 是两个事件,且 P(B)>0P(B) > 0,则定义在事件 BB 发生的条件下,事件 AA 发生的条件概率为

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(AB)}{P(B)}

条件概率依然满足概率论的三条基本公理:

  1. 非负性:对于任意事件 AA,有 P(AB)0P(A \mid B) \geqslant 0
  2. 规范性P(ΩB)=1P(\Omega \mid B) = 1
  3. 可列可加性:若 A1,A2,A_1, A_2, \ldots 是两两互斥的事件序列,则

    P(i=1AiB)=i=1P(AiB)P\left(\bigcup_{i=1}^\infty A_i \mid B\right) = \sum_{i=1}^\infty P(A_i \mid B)

:一个袋子中有 5 个红球和 3 个白球。如果我们不放回地连续随机抽取两个球。已知第一个球是红球,求第二个球也是红球的概率。

解:设 R1R_1 为“第一次抽到红球”,R2R_2 为“第二次抽到红球”。 样本空间中共有 8 个球。第一次抽到红球后,袋中剩下 7 个球,其中 4 个是红球。 直观上看,概率应为 4/74/7。使用公式计算: P(R1)=5/8P(R_1) = 5/8

P(R1R2)=5×48×7=2056=514P(R_1 R_2) = \frac{5 \times 4}{8 \times 7} = \frac{20}{56} = \frac{5}{14}

P(R2R1)=P(R1R2)P(R1)=5/145/8=47P(R_2 \mid R_1) = \frac{P(R_1 R_2)}{P(R_1)} = \frac{5/14}{5/8} = \frac{4}{7}

2. 乘法公式

从条件概率的定义可以直接导出计算积事件概率的公式。

定义 乘法公式(Multiplication Rule)设 P(B)>0P(B) > 0,则 P(AB)=P(B)P(AB)P(AB) = P(B) P(A \mid B);若 P(A)>0P(A) > 0,则 P(AB)=P(A)P(BA)P(AB) = P(A) P(B \mid A)

乘法公式可以推广到多个事件的情形。对于 nn 个事件 A1,A2,,AnA_1, A_2, \ldots, A_n,若 P(A1A2An1)>0P(A_1 A_2 \cdots A_{n-1}) > 0,则有

P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1)P(A_1 A_2 \cdots A_n) = P(A_1) P(A_2 \mid A_1) P(A_3 \mid A_1 A_2) \cdots P(A_n \mid A_1 A_2 \cdots A_{n-1})

:一批产品中有 10 个正品和 2 个次品。为了检查质量,我们不放回地从中逐个抽取产品,直到 2 个次品都被取出。求在第三次抽取时才取出第二个次品的概率。

解:设 AiA_i 为“第 ii 次取出的是次品”。 第三次才取出第二个次品,意味着前两次中有一次是次品,且第三次必须是次品。 所求概率为 P(A1A2A3A1A2A3)P(A_1 \overline{A_2} A_3 \cup \overline{A_1} A_2 A_3)。 由于这两个事件互斥,概率为 P(A1A2A3)+P(A1A2A3)P(A_1 \overline{A_2} A_3) + P(\overline{A_1} A_2 A_3)P(A1A2A3)=P(A1)P(A2A1)P(A3A1A2)=212×1011×110=166P(A_1 \overline{A_2} A_3) = P(A_1) P(\overline{A_2} \mid A_1) P(A_3 \mid A_1 \overline{A_2}) = \frac{2}{12} \times \frac{10}{11} \times \frac{1}{10} = \frac{1}{66}P(A1A2A3)=P(A1)P(A2A1)P(A3A1A2)=1012×211×110=166P(\overline{A_1} A_2 A_3) = P(\overline{A_1}) P(A_2 \mid \overline{A_1}) P(A_3 \mid \overline{A_1} A_2) = \frac{10}{12} \times \frac{2}{11} \times \frac{1}{10} = \frac{1}{66}。 故所求概率为 2/66=1/332/66 = 1/33

3. 全概率公式

全概率公式是用于计算复杂事件概率的有力工具。它的核心思想是“化整为零”,将一个复杂的事件根据导致其发生的各种原因进行分解。

定义 划分(Partition)设 B1,B2,,BnB_1, B_2, \ldots, B_n 为样本空间 Ω\Omega 的一组事件。如果它们满足:

  1. BiBj=B_i B_j = \emptyset 对所有 iji \neq j 成立(两两互斥);
  2. i=1nBi=Ω\bigcup_{i=1}^n B_i = \Omega(完备性);
  3. P(Bi)>0P(B_i) > 0 对所有 ii 成立;

则称 {B1,B2,,Bn}\{B_1, B_2, \ldots, B_n\} 为样本空间 Ω\Omega 的一个划分。

定义 全概率公式(Law of Total Probability)设 {B1,B2,,Bn}\{B_1, B_2, \ldots, B_n\} 是样本空间 Ω\Omega 的一个划分,则对于任意事件 AA,有

P(A)=i=1nP(ABi)P(Bi)P(A) = \sum_{i=1}^n P(A \mid B_i) P(B_i)

这个公式可以看作是对 P(A)P(A) 的一种加权平均,权重就是各个原因 BiB_i 发生的概率。

我们可以用树状图来直观表示这种关系:

:某工厂有三条生产线 A, B, C 生产同一种零件。它们的产量分别占总产量的 25%, 35%, 40%。已知这三条生产线的次品率分别为 5%, 4%, 2%。现从仓库中随机抽取一个零件,求它是次品的概率。

解:设 B1,B2,B3B_1, B_2, B_3 分别表示零件由 A, B, C 生产线生产,事件 DD 表示零件是次品。 由题意知: P(B1)=0.25,P(B2)=0.35,P(B3)=0.40P(B_1) = 0.25, P(B_2) = 0.35, P(B_3) = 0.40P(DB1)=0.05,P(DB2)=0.04,P(DB3)=0.02P(D \mid B_1) = 0.05, P(D \mid B_2) = 0.04, P(D \mid B_3) = 0.02 根据全概率公式: P(D)=P(B1)P(DB1)+P(B2)P(DB2)+P(B3)P(DB3)P(D) = P(B_1)P(D \mid B_1) + P(B_2)P(D \mid B_2) + P(B_3)P(D \mid B_3)P(D)=0.25×0.05+0.35×0.04+0.40×0.02=0.0125+0.014+0.008=0.0345P(D) = 0.25 \times 0.05 + 0.35 \times 0.04 + 0.40 \times 0.02 = 0.0125 + 0.014 + 0.008 = 0.0345

4. 贝叶斯公式

全概率公式是“由因求果”,而贝叶斯公式则是“由果溯因”。当我们观察到一个结果发生时,可以用贝叶斯公式推断导致这个结果发生的各种可能原因的概率。

定义 贝叶斯公式(Bayes' Theorem)设 {B1,B2,,Bn}\{B_1, B_2, \ldots, B_n\} 是样本空间 Ω\Omega 的一个划分,且 P(A)>0P(A) > 0,则对任意 j{1,2,,n}j \in \{1, 2, \ldots, n\},有

P(BjA)=P(ABj)P(Bj)i=1nP(ABi)P(Bi)P(B_j \mid A) = \frac{P(A \mid B_j) P(B_j)}{\sum_{i=1}^n P(A \mid B_i) P(B_i)}

在贝叶斯推断中,我们区分两个重要的概率概念: 定义 先验概率(Prior Probability)在观察到结果 AA 之前,我们对原因 BjB_j 发生可能性的初步估计 P(Bj)P(B_j)定义 后验概率(Posterior Probability)在观察到结果 AA 之后,我们对原因 BjB_j 发生可能性的修正估计 P(BjA)P(B_j \mid A)

例 1(医学检测):某种罕见疾病在人群中的患病率为 0.001。现有一种检测手段,如果一个人患有该病,检测结果呈阳性的概率为 99%(灵敏度);如果一个人未患该病,检测结果呈阳性的概率为 5%(误报率)。如果某人的检测结果呈阳性,求他实际患病的概率。

解:设 HH 为“患病”,TT 为“检测结果呈阳性”。 已知: P(H)=0.001,P(H)=0.999P(H) = 0.001, P(\overline{H}) = 0.999P(TH)=0.99,P(TH)=0.05P(T \mid H) = 0.99, P(T \mid \overline{H}) = 0.05 根据贝叶斯公式:

P(HT)=P(TH)P(H)P(TH)P(H)+P(TH)P(H)P(H \mid T) = \frac{P(T \mid H) P(H)}{P(T \mid H) P(H) + P(T \mid \overline{H}) P(\overline{H})}

P(HT)=0.99×0.0010.99×0.001+0.05×0.999=0.000990.00099+0.049950.0194P(H \mid T) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.05 \times 0.999} = \frac{0.00099}{0.00099 + 0.04995} \approx 0.0194

计算结果显示,即使检测呈阳性,此人患病的概率也仅约为 1.94%。这是因为该病极其罕见,庞大的健康人群基数使得误报的绝对数量远超过真实的病例数。

例 2(产品来源):沿用上一节全概率公式的工厂例子。已知随机抽取的一个零件是次品,求它是由 A 生产线生产的概率。

解:P(B1D)=P(DB1)P(B1)P(D)=0.05×0.250.03450.3623P(B_1 \mid D) = \frac{P(D \mid B_1) P(B_1)}{P(D)} = \frac{0.05 \times 0.25}{0.0345} \approx 0.3623

5. 事件的独立性

独立性是概率论中最重要的概念之一。直观上,如果事件 BB 的发生不影响事件 AA 发生的概率,我们就说 AABB 相互独立。

定义 两个事件的独立(Independence of Two Events)如果满足

P(AB)=P(A)P(B)P(AB) = P(A)P(B)

则称事件 AABB 相互独立(Independent)。

AABB 独立且 P(B)>0P(B) > 0,则根据条件概率定义:

P(AB)=P(AB)P(B)=P(A)P(B)P(B)=P(A)P(A \mid B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A)

这验证了独立性的直观含义:已知 BB 发生并不改变 AA 的概率。

5.1 独立性与互斥性的区别

这是一个极其容易混淆的概念。互斥意味着两个事件不能同时发生(AB=AB = \emptyset),而独立意味着一个事件的发生不影响另一个。

特性互斥(Mutually Exclusive)独立(Independent)
定义式P(AB)=0P(AB) = 0P(AB)=P(A)P(B)P(AB) = P(A)P(B)
直观含义A 发生则 B 必不发生A 发生与否不影响 B
关系P(A)>0,P(B)>0P(A)>0, P(B)>0,则互斥事件一定不独立P(A)>0,P(B)>0P(A)>0, P(B)>0,则独立事件一定不互斥
运算P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)P(AB)=P(A)P(B)P(AB) = P(A) P(B)

5.2 多个事件的独立性

定义 多个事件的相互独立(Mutual Independence)对于 nn 个事件 A1,A2,,AnA_1, A_2, \ldots, A_n,如果对于其中任意 kk 个事件(2kn2 \leqslant k \leqslant n)的子集 {Ai1,Ai2,,Aik}\{A_{i_1}, A_{i_2}, \ldots, A_{i_k}\},都有

P(Ai1Ai2Aik)=P(Ai1)P(Ai2)P(Aik)P(A_{i_1} A_{i_2} \cdots A_{i_k}) = P(A_{i_1}) P(A_{i_2}) \cdots P(A_{i_k})

则称这 nn 个事件相互独立。

需要注意,两两独立(Pairwise Independence)并不等同于相互独立反例:考虑样本空间 Ω={1,2,3,4}\Omega = \{1, 2, 3, 4\},每个样本点概率均为 1/41/4。 设 A={1,2},B={1,3},C={1,4}A = \{1, 2\}, B = \{1, 3\}, C = \{1, 4\}P(A)=P(B)=P(C)=1/2P(A) = P(B) = P(C) = 1/2P(AB)=P({1})=1/4=P(A)P(B)P(AB) = P(\{1\}) = 1/4 = P(A)P(B),故 A,BA, B 独立。 同理 A,CA, CB,CB, C 也独立。 但 P(ABC)=P({1})=1/4P(A)P(B)P(C)=1/8P(ABC) = P(\{1\}) = 1/4 \neq P(A)P(B)P(C) = 1/8。 所以 A,B,CA, B, C 两两独立,但并不相互独立。

性质:若 AABB 相互独立,则 AAB\overline{B} 独立,A\overline{A}BB 独立,A\overline{A}B\overline{B} 独立。

证明

证明 AAB\overline{B} 独立: 由于 A=ABABA = AB \cup A\overline{B}ABABABA\overline{B} 互斥, 有 P(A)=P(AB)+P(AB)P(A) = P(AB) + P(A\overline{B})。 因为 A,BA, B 独立,P(AB)=P(A)P(B)P(AB) = P(A)P(B)。 所以 P(AB)=P(A)P(A)P(B)=P(A)(1P(B))=P(A)P(B)P(A\overline{B}) = P(A) - P(A)P(B) = P(A)(1 - P(B)) = P(A)P(\overline{B})。 根据定义,AAB\overline{B} 独立。

6. 伯努利试验

伯努利试验是概率论中最简单也最重要的一种随机试验模型。

定义 伯努利试验(Bernoulli Trial)如果一个随机试验只有两个可能的结果,通常称为“成功”和“失败”,则称该试验为伯努利试验。设成功的概率为 pp0<p<10 < p < 1),则失败的概率为 q=1pq = 1-p

定义 nn 重伯努利试验nn Bernoulli Trials)将一个伯努利试验在相同条件下独立地重复进行 nn 次,这种试验序列称为 nn 重伯努利试验。

nn 重伯努利试验中,事件 AA(成功)在 nn 次试验中恰好发生 kk 次的概率为:

Pn(k)=(nk)pk(1p)nk,k=0,1,,nP_n(k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n

这就是著名的二项概率公式

6.1 最概然值

nn 次试验中,出现次数 kk 的概率 Pn(k)P_n(k) 并不相等。使得 Pn(k)P_n(k) 达到最大的 kk 称为最概然值。 可以通过考察比值 Pn(k)Pn(k1)\frac{P_n(k)}{P_n(k-1)} 来确定。结论是: 若 (n+1)p(n+1)p 不是整数,则最概然值为 k=(n+1)pk = \lfloor (n+1)p \rfloor。 若 (n+1)p(n+1)p 是整数,则在 k=(n+1)pk = (n+1)pk=(n+1)p1k = (n+1)p - 1 处概率同时达到最大。

:某射击运动员每发子弹命中目标的概率为 0.8。求:

  1. 独立射击 5 次,恰好命中 3 次的概率。
  2. 独立射击 5 次,至少命中 1 次的概率。

解:这是一个 n=5,p=0.8n=5, p=0.8nn 重伯努利试验。

  1. P5(3)=(53)0.83(10.8)53=10×0.512×0.04=0.2048P_5(3) = \binom{5}{3} 0.8^3 (1-0.8)^{5-3} = 10 \times 0.512 \times 0.04 = 0.2048
  2. 至少命中 1 次的对立事件是“一次都没命中”。 P(至少 1 次)=1P5(0)=1(50)0.80(0.2)5=10.00032=0.99968P(\text{至少 1 次}) = 1 - P_5(0) = 1 - \binom{5}{0} 0.8^0 (0.2)^5 = 1 - 0.00032 = 0.99968。 可见,多次射击可以显著提高命中目标(至少一次)的总概率。