条件概率与独立性

1. 条件概率

在许多实际问题中，除了已知的样本空间 $\Omega$ 外，我们往往还能获得一些额外的信息。这些信息告诉我们某些事件已经发生，从而改变了我们对目标事件发生概率的评估。比如，在掷一枚公平的骰子时，已知点数是偶数，那么点数为 6 的概率就不再是 $1/6$ ，而是 $1/3$ 。这种在已知某事件发生的情况下，另一事件发生的概率，就是条件概率。

定义 条件概率（Conditional Probability）设 $A, B$ 是两个事件，且 $P(B) > 0$ ，则定义在事件 $B$ 发生的条件下，事件 $A$ 发生的条件概率为

P(A \mid B) = \frac{P(AB)}{P(B)}

条件概率依然满足概率论的三条基本公理：

非负性：对于任意事件 $A$ ，有 $P(A \mid B) \geqslant 0$ 。
规范性： $P(\Omega \mid B) = 1$ 。
可列可加性：若 $A_1, A_2, \ldots$ 是两两互斥的事件序列，则 $P\left(\bigcup_{i=1}^\infty A_i \mid B\right) = \sum_{i=1}^\infty P(A_i \mid B)$

例：一个袋子中有 5 个红球和 3 个白球。如果我们不放回地连续随机抽取两个球。已知第一个球是红球，求第二个球也是红球的概率。

解：设 $R_1$ 为“第一次抽到红球”， $R_2$ 为“第二次抽到红球”。样本空间中共有 8 个球。第一次抽到红球后，袋中剩下 7 个球，其中 4 个是红球。直观上看，概率应为 $4/7$ 。使用公式计算： $P(R_1) = 5/8$ 。

P(R_1 R_2) = \frac{5 \times 4}{8 \times 7} = \frac{20}{56} = \frac{5}{14}

则

P(R_2 \mid R_1) = \frac{P(R_1 R_2)}{P(R_1)} = \frac{5/14}{5/8} = \frac{4}{7}

2. 乘法公式

从条件概率的定义可以直接导出计算积事件概率的公式。

定义 乘法公式（Multiplication Rule）设 $P(B) > 0$ ，则 $P(AB) = P(B) P(A \mid B)$ ；若 $P(A) > 0$ ，则 $P(AB) = P(A) P(B \mid A)$ 。

乘法公式可以推广到多个事件的情形。对于 $n$ 个事件 $A_1, A_2, \ldots, A_n$ ，若 $P(A_1 A_2 \cdots A_{n-1}) > 0$ ，则有

P(A_1 A_2 \cdots A_n) = P(A_1) P(A_2 \mid A_1) P(A_3 \mid A_1 A_2) \cdots P(A_n \mid A_1 A_2 \cdots A_{n-1})

例：一批产品中有 10 个正品和 2 个次品。为了检查质量，我们不放回地从中逐个抽取产品，直到 2 个次品都被取出。求在第三次抽取时才取出第二个次品的概率。

解：设 $A_i$ 为“第 $i$ 次取出的是次品”。第三次才取出第二个次品，意味着前两次中有一次是次品，且第三次必须是次品。所求概率为 $P(A_1 \overline{A_2} A_3 \cup \overline{A_1} A_2 A_3)$ 。由于这两个事件互斥，概率为 $P(A_1 \overline{A_2} A_3) + P(\overline{A_1} A_2 A_3)$ 。 $P(A_1 \overline{A_2} A_3) = P(A_1) P(\overline{A_2} \mid A_1) P(A_3 \mid A_1 \overline{A_2}) = \frac{2}{12} \times \frac{10}{11} \times \frac{1}{10} = \frac{1}{66}$ 。 $P(\overline{A_1} A_2 A_3) = P(\overline{A_1}) P(A_2 \mid \overline{A_1}) P(A_3 \mid \overline{A_1} A_2) = \frac{10}{12} \times \frac{2}{11} \times \frac{1}{10} = \frac{1}{66}$ 。故所求概率为 $2/66 = 1/33$ 。

3. 全概率公式

全概率公式是用于计算复杂事件概率的有力工具。它的核心思想是“化整为零”，将一个复杂的事件根据导致其发生的各种原因进行分解。

定义划分（Partition）设 $B_1, B_2, \ldots, B_n$ 为样本空间 $\Omega$ 的一组事件。如果它们满足：

$B_i B_j = \emptyset$ 对所有 $i \neq j$ 成立（两两互斥）；
$\bigcup_{i=1}^n B_i = \Omega$ （完备性）；
$P(B_i) > 0$ 对所有 $i$ 成立；

则称 $\{B_1, B_2, \ldots, B_n\}$ 为样本空间 $\Omega$ 的一个划分。

定义 全概率公式（Law of Total Probability）设 $\{B_1, B_2, \ldots, B_n\}$ 是样本空间 $\Omega$ 的一个划分，则对于任意事件 $A$ ，有

P(A) = \sum_{i=1}^n P(A \mid B_i) P(B_i)

这个公式可以看作是对 $P(A)$ 的一种加权平均，权重就是各个原因 $B_i$ 发生的概率。

我们可以用树状图来直观表示这种关系：

例：某工厂有三条生产线 A, B, C 生产同一种零件。它们的产量分别占总产量的 25%, 35%, 40%。已知这三条生产线的次品率分别为 5%, 4%, 2%。现从仓库中随机抽取一个零件，求它是次品的概率。

解：设 $B_1, B_2, B_3$ 分别表示零件由 A, B, C 生产线生产，事件 $D$ 表示零件是次品。由题意知： $P(B_1) = 0.25, P(B_2) = 0.35, P(B_3) = 0.40$ $P(D \mid B_1) = 0.05, P(D \mid B_2) = 0.04, P(D \mid B_3) = 0.02$ 根据全概率公式： $P(D) = P(B_1)P(D \mid B_1) + P(B_2)P(D \mid B_2) + P(B_3)P(D \mid B_3)$ $P(D) = 0.25 \times 0.05 + 0.35 \times 0.04 + 0.40 \times 0.02 = 0.0125 + 0.014 + 0.008 = 0.0345$ 。

4. 贝叶斯公式

全概率公式是“由因求果”，而贝叶斯公式则是“由果溯因”。当我们观察到一个结果发生时，可以用贝叶斯公式推断导致这个结果发生的各种可能原因的概率。

定义 贝叶斯公式（Bayes' Theorem）设 $\{B_1, B_2, \ldots, B_n\}$ 是样本空间 $\Omega$ 的一个划分，且 $P(A) > 0$ ，则对任意 $j \in \{1, 2, \ldots, n\}$ ，有

P(B_j \mid A) = \frac{P(A \mid B_j) P(B_j)}{\sum_{i=1}^n P(A \mid B_i) P(B_i)}

在贝叶斯推断中，我们区分两个重要的概率概念：定义 先验概率（Prior Probability）在观察到结果 $A$ 之前，我们对原因 $B_j$ 发生可能性的初步估计 $P(B_j)$ 。定义 后验概率（Posterior Probability）在观察到结果 $A$ 之后，我们对原因 $B_j$ 发生可能性的修正估计 $P(B_j \mid A)$ 。

例 1（医学检测）：某种罕见疾病在人群中的患病率为 0.001。现有一种检测手段，如果一个人患有该病，检测结果呈阳性的概率为 99%（灵敏度）；如果一个人未患该病，检测结果呈阳性的概率为 5%（误报率）。如果某人的检测结果呈阳性，求他实际患病的概率。

解：设 $H$ 为“患病”， $T$ 为“检测结果呈阳性”。已知： $P(H) = 0.001, P(\overline{H}) = 0.999$ $P(T \mid H) = 0.99, P(T \mid \overline{H}) = 0.05$ 根据贝叶斯公式：

P(H \mid T) = \frac{P(T \mid H) P(H)}{P(T \mid H) P(H) + P(T \mid \overline{H}) P(\overline{H})}

P(H \mid T) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.05 \times 0.999} = \frac{0.00099}{0.00099 + 0.04995} \approx 0.0194

计算结果显示，即使检测呈阳性，此人患病的概率也仅约为 1.94%。这是因为该病极其罕见，庞大的健康人群基数使得误报的绝对数量远超过真实的病例数。

例 2（产品来源）：沿用上一节全概率公式的工厂例子。已知随机抽取的一个零件是次品，求它是由 A 生产线生产的概率。

解： $P(B_1 \mid D) = \frac{P(D \mid B_1) P(B_1)}{P(D)} = \frac{0.05 \times 0.25}{0.0345} \approx 0.3623$ 。

5. 事件的独立性

独立性是概率论中最重要的概念之一。直观上，如果事件 $B$ 的发生不影响事件 $A$ 发生的概率，我们就说 $A$ 与 $B$ 相互独立。

定义 两个事件的独立（Independence of Two Events）如果满足

P(AB) = P(A)P(B)

则称事件 $A$ 与 $B$ 相互独立（Independent）。

若 $A$ 与 $B$ 独立且 $P(B) > 0$ ，则根据条件概率定义：

P(A \mid B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A)

这验证了独立性的直观含义：已知 $B$ 发生并不改变 $A$ 的概率。

5.1 独立性与互斥性的区别

这是一个极其容易混淆的概念。互斥意味着两个事件不能同时发生（ $AB = \emptyset$ ），而独立意味着一个事件的发生不影响另一个。

特性	互斥（Mutually Exclusive）	独立（Independent）
定义式	$P(AB) = 0$	$P(AB) = P(A)P(B)$
直观含义	A 发生则 B 必不发生	A 发生与否不影响 B
关系	若 $P(A)>0, P(B)>0$ ，则互斥事件一定不独立	若 $P(A)>0, P(B)>0$ ，则独立事件一定不互斥
运算	$P(A \cup B) = P(A) + P(B)$	$P(AB) = P(A) P(B)$

5.2 多个事件的独立性

定义 多个事件的相互独立（Mutual Independence）对于 $n$ 个事件 $A_1, A_2, \ldots, A_n$ ，如果对于其中任意 $k$ 个事件（ $2 \leqslant k \leqslant n$ ）的子集 $\{A_{i_1}, A_{i_2}, \ldots, A_{i_k}\}$ ，都有

P(A_{i_1} A_{i_2} \cdots A_{i_k}) = P(A_{i_1}) P(A_{i_2}) \cdots P(A_{i_k})

则称这 $n$ 个事件相互独立。

需要注意，两两独立（Pairwise Independence）并不等同于相互独立。反例：考虑样本空间 $\Omega = \{1, 2, 3, 4\}$ ，每个样本点概率均为 $1/4$ 。设 $A = \{1, 2\}, B = \{1, 3\}, C = \{1, 4\}$ 。 $P(A) = P(B) = P(C) = 1/2$ 。 $P(AB) = P(\{1\}) = 1/4 = P(A)P(B)$ ，故 $A, B$ 独立。同理 $A, C$ 和 $B, C$ 也独立。但 $P(ABC) = P(\{1\}) = 1/4 \neq P(A)P(B)P(C) = 1/8$ 。所以 $A, B, C$ 两两独立，但并不相互独立。

性质：若 $A$ 与 $B$ 相互独立，则 $A$ 与 $\overline{B}$ 独立， $\overline{A}$ 与 $B$ 独立， $\overline{A}$ 与 $\overline{B}$ 独立。

证明

证明 $A$ 与 $\overline{B}$ 独立：由于 $A = AB \cup A\overline{B}$ 且 $AB$ 与 $A\overline{B}$ 互斥，有 $P(A) = P(AB) + P(A\overline{B})$ 。因为 $A, B$ 独立， $P(AB) = P(A)P(B)$ 。所以 $P(A\overline{B}) = P(A) - P(A)P(B) = P(A)(1 - P(B)) = P(A)P(\overline{B})$ 。根据定义， $A$ 与 $\overline{B}$ 独立。

6. 伯努利试验

伯努利试验是概率论中最简单也最重要的一种随机试验模型。

定义 伯努利试验（Bernoulli Trial）如果一个随机试验只有两个可能的结果，通常称为“成功”和“失败”，则称该试验为伯努利试验。设成功的概率为 $p$ （ $0 < p < 1$ ），则失败的概率为 $q = 1-p$ 。

定义 $n$ 重伯努利试验（ $n$ Bernoulli Trials）将一个伯努利试验在相同条件下独立地重复进行 $n$ 次，这种试验序列称为 $n$ 重伯努利试验。

在 $n$ 重伯努利试验中，事件 $A$ （成功）在 $n$ 次试验中恰好发生 $k$ 次的概率为：

P_n(k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n

这就是著名的二项概率公式。

6.1 最概然值

在 $n$ 次试验中，出现次数 $k$ 的概率 $P_n(k)$ 并不相等。使得 $P_n(k)$ 达到最大的 $k$ 称为最概然值。可以通过考察比值 $\frac{P_n(k)}{P_n(k-1)}$ 来确定。结论是：若 $(n+1)p$ 不是整数，则最概然值为 $k = \lfloor (n+1)p \rfloor$ 。若 $(n+1)p$ 是整数，则在 $k = (n+1)p$ 和 $k = (n+1)p - 1$ 处概率同时达到最大。

例：某射击运动员每发子弹命中目标的概率为 0.8。求：

独立射击 5 次，恰好命中 3 次的概率。
独立射击 5 次，至少命中 1 次的概率。

解：这是一个 $n=5, p=0.8$ 的 $n$ 重伯努利试验。

$P_5(3) = \binom{5}{3} 0.8^3 (1-0.8)^{5-3} = 10 \times 0.512 \times 0.04 = 0.2048$ 。
至少命中 1 次的对立事件是“一次都没命中”。 $P(\text{至少 1 次}) = 1 - P_5(0) = 1 - \binom{5}{0} 0.8^0 (0.2)^5 = 1 - 0.00032 = 0.99968$ 。可见，多次射击可以显著提高命中目标（至少一次）的总概率。

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

条件概率与独立性

1. 条件概率

2. 乘法公式

3. 全概率公式

4. 贝叶斯公式

5. 事件的独立性

5.1 独立性与互斥性的区别

5.2 多个事件的独立性

6. 伯努利试验

6.1 最概然值

条件概率与独立性 ​

1. 条件概率 ​

2. 乘法公式 ​

3. 全概率公式 ​

4. 贝叶斯公式 ​

5. 事件的独立性 ​

5.1 独立性与互斥性的区别 ​

5.2 多个事件的独立性 ​

6. 伯努利试验 ​

6.1 最概然值 ​

条件概率与独立性

1. 条件概率

2. 乘法公式

3. 全概率公式

4. 贝叶斯公式

5. 事件的独立性

5.1 独立性与互斥性的区别

5.2 多个事件的独立性

6. 伯努利试验

6.1 最概然值