随机变量及其分布

在概率论的前两章中，我们讨论了随机试验、样本空间以及事件的概率。虽然这些概念能够描述随机现象，但直接使用集合来描述随机事件在数学处理上存在诸多不便。例如，“掷一枚硬币出现正面” 和 “测量一个零件的直径在 10.0mm 到 10.1mm 之间” 是完全不同的物理过程。为了使用统一的数学工具（如微积分、函数分析）来研究这些现象，我们需要将随机试验的结果数量化。

1. 随机变量的概念

随机变量的引入是概率论发展史上的里程碑，它建立了从随机试验的样本空间到实数集的映射关系。

定义 随机变量（Random Variable）设随机试验的样本空间为 $\Omega$ ，如果对于每个 $\omega \in \Omega$ ，都有一个实数 $X(\omega)$ 与之对应，则称 $X$ 为随机变量。

随机变量 $X$ 实际上是一个定义在 $\Omega$ 上的实值函数 $X: \Omega \to \mathbb{R}$ 。

1.1 引入随机变量的意义

数量化：将抽象的试验结果（如“正面”、“合格”）转化为具体的数值。
分析工具：一旦结果变成了实数，我们就可以利用微积分、级数等数学工具来研究随机现象。
事件的表示：随机事件可以用随机变量的取值范围来表示。例如 $\{ X \leqslant x \}$ 表示所有使得 $X(\omega) \leqslant x$ 的样本点 $\omega$ 组成的集合。

1.2 符号约定

通常用大写字母 $X, Y, Z$ 表示随机变量。
用小写字母 $x, y, z$ 表示随机变量可能取到的具体实数值。
事件 $X$ 取值在集合 $B$ 内记作 $\{ X \in B \}$ 。

1.3 举例

掷骰子：样本空间 $\Omega = \{ 1, 2, 3, 4, 5, 6 \}$ 。定义 $X(\omega) = \omega$ ，则 $X$ 就是一个随机变量，表示点数。
零件测量：测量零件直径， $X$ 表示测量得到的具体数值。

2. 分布函数

为了全面描述随机变量的统计规律，我们引入分布函数的概念。它不仅适用于离散型随机变量，也适用于连续型随机变量。

定义 分布函数（Cumulative Distribution Function, CDF）对于随机变量 $X$ ，称 $F(x) = P(X \leqslant x) \quad (-\infty < x < +\infty)$ 为 $X$ 的分布函数。

2.1 分布函数的性质

分布函数 $F(x)$ 具有以下三个基本性质：

单调不减性：若 $x_1 < x_2$ ，则 $F(x_1) \leqslant F(x_2)$ 。

证明

因为 $\{ X \leqslant x_1 \} \subset \{ X \leqslant x_2 \}$ ，根据概率的单调性， $P(X \leqslant x_1) \leqslant P(X \leqslant x_2)$ ，即 $F(x_1) \leqslant F(x_2)$ 。

有界性： $0 \leqslant F(x) \leqslant 1$ ，且满足：
- $F(-\infty) = \lim_{x \to -\infty} F(x) = 0$
- $F(+\infty) = \lim_{x \to +\infty} F(x) = 1$
右连续性：对于任意 $x_0$ ，有 $F(x_0^+) = \lim_{x \to x_0^+} F(x) = F(x_0)$ 。

2.2 用分布函数计算概率

利用分布函数，我们可以方便地计算随机变量落在任意区间内的概率：

$P(a < X \leqslant b) = F(b) - F(a)$
$P(X > a) = 1 - P(X \leqslant a) = 1 - F(a)$
$P(X < a) = F(a^-)$ （左极限）
$P(X = a) = F(a) - F(a^-)$

对于离散型随机变量，其分布函数通常呈现阶梯状，在取值点处发生跳跃，跳跃的高度即为在该点取值的概率。

3. 离散型随机变量

有些随机变量的取值是可以一一列举出来的，这种类型被称为离散型。

定义 离散型随机变量（Discrete Random Variable）如果随机变量 $X$ 的全部可能取值是有限个或可列无穷多个 $x_1, x_2, \ldots, x_n, \ldots$ ，则称 $X$ 为离散型随机变量。

定义 概率质量函数（Probability Mass Function, PMF）描述离散型随机变量在各取值点概率的函数称为概率质量函数，记为 $P(X = x_k) = p_k \quad (k = 1, 2, \ldots)$ 。

3.1 PMF 的性质

非负性： $p_k \geqslant 0$ 。
规范性： $\sum_{k} p_k = 1$ 。

定义 概率分布表 离散型随机变量的 PMF 通常用表格形式表示：

$X$	$x_1$	$x_2$	$\dots$	$x_n$	$\dots$
$P$	$p_1$	$p_2$	$\dots$	$p_n$	$\dots$

3.2 离散型的分布函数

离散型随机变量的分布函数是一个阶梯函数，定义为：

F(x) = \sum_{x_k \leqslant x} p_k

3.3 示例：掷骰子

设 $X$ 为掷一枚均匀骰子出现的点值。其分布表为：

$X$	1	2	3	4	5	6
$P$	1/6	1/6	1/6	1/6	1/6	1/6

其分布函数为：

F(x) = \begin{cases} 0, & x < 1 \\ k/6, & k \leqslant x < k+1, k=1,\dots,5 \\ 1, & x \geqslant 6 \end{cases}

4. 连续型随机变量

对于取值充满整个区间（如长度、时间、重量）的随机变量，我们无法一一列举其取值，其在单点的概率往往为 0。

定义 连续型随机变量（Continuous Random Variable）对于随机变量 $X$ 的分布函数 $F(x)$ ，如果存在非负可积函数 $f(x)$ ，使得对于任意实数 $x$ ，有 $F(x) = \int_{-\infty}^{x} f(t) \, \mathrm{d}t$ ，则称 $X$ 为连续型随机变量。

定义 概率密度函数（Probability Density Function, PDF）上述定义中的函数 $f(x)$ 称为 $X$ 的概率密度函数。

4.1 PDF 的性质

非负性： $f(x) \geqslant 0$ 。
规范性： $\int_{-\infty}^{+\infty} f(x) \, \mathrm{d}x = 1$ 。
与分布函数的关系：在 $f(x)$ 的连续点处， $F'(x) = f(x)$ 。
区间概率： $P(a \leqslant X \leqslant b) = \int_a^b f(x) \, \mathrm{d}x$ 。

4.2 重要说明：单点概率为 0

对于连续型随机变量 $X$ ，对于任意实数 $a$ ，都有：

P(X = a) = \int_a^a f(x) \, \mathrm{d}x = 0

这说明：

概率为 0 的事件不一定是不可能事件。在连续型分布中，取到任何一个具体确切值的概率都是 0。
包含端点不影响概率： $P(a \leqslant X \leqslant b) = P(a < X \leqslant b) = P(a \leqslant X < b) = P(a < X < b)$ 。

5. 随机变量函数的分布

在实际应用中，我们常常需要根据已知随机变量 $X$ 的分布，去求其函数 $Y = g(X)$ 的分布。

5.1 离散型情况

若 $X$ 是离散型的，求 $Y = g(X)$ 的分布非常简单。只需列出 $X$ 的所有可能取值 $x_i$ 及其概率 $p_i$ ，计算相应的 $y_i = g(x_i)$ 。如果不同的 $x_i$ 对应相同的 $y_j$ ，则将它们的概率相加。

5.2 连续型情况：分布函数法

这是最通用的方法。

写出 $Y$ 的分布函数定义： $F_Y(y) = P(Y \leqslant y) = P(g(X) \leqslant y)$ 。
解不等式 $g(X) \leqslant y$ ，找到 $X$ 对应的取值范围 $D_y$ 。
利用 $X$ 的密度函数求积分： $F_Y(y) = \int_{D_y} f_X(x) \, \mathrm{d}x$ 。
对 $F_Y(y)$ 求导得到 $f_Y(y)$ 。

5.3 连续型情况：公式法

定义 单调函数密度公式 设 $X$ 是连续型随机变量，具有密度函数 $f_X(x)$ 。又设 $y = g(x)$ 是严格单调且处处可导的函数。设 $x = h(y)$ 是其反函数，则 $Y = g(X)$ 是连续型随机变量，其密度函数为：

f_Y(y) = \begin{cases} f_X(h(y)) |h'(y)|, & \text{当 } y \text{ 在 } g(X) \text{ 的取值范围内} \\ 0, & \text{其他} \end{cases}

证明

以 $g(x)$ 严格单增为例。此时反函数 $h(y)$ 也严格单增，且 $h'(y) > 0$ 。 $F_Y(y) = P(g(X) \leqslant y) = P(X \leqslant h(y)) = F_X(h(y))$ 对 $y$ 求导： $f_Y(y) = F_X'(h(y)) \cdot h'(y) = f_X(h(y)) h'(y)$ 若 $g(x)$ 严格单减，则 $F_Y(y) = P(X \geqslant h(y)) = 1 - F_X(h(y))$ ，求导后为 $-f_X(h(y)) h'(y)$ 。由于单减时 $h'(y) < 0$ ，合并后即为 $f_X(h(y)) |h'(y)|$ 。

5.4 例题分析

例题 1：线性变换 设 $X \sim N(\mu, \sigma^2)$ ，求 $Y = aX + b \quad (a \neq 0)$ 的分布。解： $g(x) = ax + b$ ，反函数 $x = h(y) = (y - b)/a$ 。导数 $h'(y) = 1/a$ 。已知 $f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 。代入公式：

f_Y(y) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(\frac{y-b}{a}-\mu)^2}{2\sigma^2}} \cdot |1/a| = \frac{1}{\sqrt{2\pi}(|a|\sigma)} e^{-\frac{(y-(a\mu+b))^2}{2(a\sigma)^2}}

由此可见， $Y \sim N(a\mu+b, (a\sigma)^2)$ 。正态变量的线性变换仍为正态变量。

例题 2：平方变换（单区间） 设 $X$ 在 $[0, 1]$ 上服从均匀分布，密度函数 $f_X(x) = 1 \quad (0 < x < 1)$ ，求 $Y = X^2$ 的分布。解：当 $x \in [0, 1]$ 时， $y = x^2 \in [0, 1]$ 。函数 $g(x) = x^2$ 在该区间严格单增。反函数 $x = \sqrt{y}$ ， $h'(y) = \frac{1}{2\sqrt{y}}$ 。

f_Y(y) = f_X(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} = 1 \cdot \frac{1}{2\sqrt{y}} = \frac{1}{2\sqrt{y}}, \quad 0 < y < 1

例题 3：平方变换（全实数） 设 $X \sim N(0, 1)$ ，求 $Y = X^2$ 的分布。解：注意此时 $g(x) = x^2$ 不是单调函数，必须使用分布函数法。对于 $y > 0$ ：

F_Y(y) = P(X^2 \leqslant y) = P(-\sqrt{y} \leqslant X \leqslant \sqrt{y}) = \Phi(\sqrt{y}) - \Phi(-\sqrt{y}) = 2\Phi(\sqrt{y}) - 1

其中 $\Phi(x)$ 是标准正态分布函数。求导：

f_Y(y) = 2 \cdot \phi(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} = \frac{1}{\sqrt{2\pi}} e^{-y/2} y^{-1/2}, \quad y > 0

这实际上是自由度为 1 的卡方分布 $\chi^2(1)$ 的概率密度函数。

6. 总结与对比

为了更好地理解这两类随机变量，我们进行简单的对比：

特性	离散型随机变量	连续型随机变量
取值	有限或可列无穷	充满一个或多个区间
概率描述	概率质量函数 (PMF) $p_k$	概率密度函数 (PDF) $f(x)$
分布函数	阶梯函数 $\sum p_k$	积分函数 $\int f(t) \mathrm{d}t$
单点概率	通常 $P(X=x_k) > 0$	$P(X=x) = 0$
规范性	$\sum p_k = 1$	$\int f(x) \mathrm{d}x = 1$

随机变量及其分布是概率论的核心基础。后续章节我们将讨论常见的几种分布模型，如二项分布、正态分布等，以及描述随机变量特征的数字特征（期望、方差）。

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

随机变量及其分布

1. 随机变量的概念

1.1 引入随机变量的意义

1.2 符号约定

1.3 举例

2. 分布函数

2.1 分布函数的性质

2.2 用分布函数计算概率

3. 离散型随机变量

3.1 PMF 的性质

3.2 离散型的分布函数

3.3 示例：掷骰子

4. 连续型随机变量

4.1 PDF 的性质

4.2 重要说明：单点概率为 0

5. 随机变量函数的分布

5.1 离散型情况

5.2 连续型情况：分布函数法

5.3 连续型情况：公式法

5.4 例题分析

6. 总结与对比

随机变量及其分布 ​

1. 随机变量的概念 ​

1.1 引入随机变量的意义 ​

1.2 符号约定 ​

1.3 举例 ​

2. 分布函数 ​

2.1 分布函数的性质 ​

2.2 用分布函数计算概率 ​

3. 离散型随机变量 ​

3.1 PMF 的性质 ​

3.2 离散型的分布函数 ​

3.3 示例：掷骰子 ​

4. 连续型随机变量 ​

4.1 PDF 的性质 ​

4.2 重要说明：单点概率为 0 ​

5. 随机变量函数的分布 ​

5.1 离散型情况 ​

5.2 连续型情况：分布函数法 ​

5.3 连续型情况：公式法 ​

5.4 例题分析 ​

6. 总结与对比 ​

随机变量及其分布

1. 随机变量的概念

1.1 引入随机变量的意义

1.2 符号约定

1.3 举例

2. 分布函数

2.1 分布函数的性质

2.2 用分布函数计算概率

3. 离散型随机变量

3.1 PMF 的性质

3.2 离散型的分布函数

3.3 示例：掷骰子

4. 连续型随机变量

4.1 PDF 的性质

4.2 重要说明：单点概率为 0

5. 随机变量函数的分布

5.1 离散型情况

5.2 连续型情况：分布函数法

5.3 连续型情况：公式法

5.4 例题分析

6. 总结与对比