Skip to content

随机变量及其分布

在概率论的前两章中,我们讨论了随机试验、样本空间以及事件的概率。虽然这些概念能够描述随机现象,但直接使用集合来描述随机事件在数学处理上存在诸多不便。例如,“掷一枚硬币出现正面” 和 “测量一个零件的直径在 10.0mm 到 10.1mm 之间” 是完全不同的物理过程。为了使用统一的数学工具(如微积分、函数分析)来研究这些现象,我们需要将随机试验的结果数量化

1. 随机变量的概念

随机变量的引入是概率论发展史上的里程碑,它建立了从随机试验的样本空间到实数集的映射关系。

定义 随机变量(Random Variable)设随机试验的样本空间为 Ω\Omega,如果对于每个 ωΩ\omega \in \Omega,都有一个实数 X(ω)X(\omega) 与之对应,则称 XX 为随机变量。

随机变量 XX 实际上是一个定义在 Ω\Omega 上的实值函数 X:ΩRX: \Omega \to \mathbb{R}

1.1 引入随机变量的意义

  1. 数量化:将抽象的试验结果(如“正面”、“合格”)转化为具体的数值。
  2. 分析工具:一旦结果变成了实数,我们就可以利用微积分、级数等数学工具来研究随机现象。
  3. 事件的表示:随机事件可以用随机变量的取值范围来表示。例如 {Xx}\{ X \leqslant x \} 表示所有使得 X(ω)xX(\omega) \leqslant x 的样本点 ω\omega 组成的集合。

1.2 符号约定

  • 通常用大写字母 X,Y,ZX, Y, Z 表示随机变量。
  • 用小写字母 x,y,zx, y, z 表示随机变量可能取到的具体实数值。
  • 事件 XX 取值在集合 BB 内记作 {XB}\{ X \in B \}

1.3 举例

  • 掷骰子:样本空间 Ω={1,2,3,4,5,6}\Omega = \{ 1, 2, 3, 4, 5, 6 \}。定义 X(ω)=ωX(\omega) = \omega,则 XX 就是一个随机变量,表示点数。
  • 零件测量:测量零件直径,XX 表示测量得到的具体数值。

2. 分布函数

为了全面描述随机变量的统计规律,我们引入分布函数的概念。它不仅适用于离散型随机变量,也适用于连续型随机变量。

定义 分布函数(Cumulative Distribution Function, CDF)对于随机变量 XX,称 F(x)=P(Xx)(<x<+)F(x) = P(X \leqslant x) \quad (-\infty < x < +\infty)XX 的分布函数。

2.1 分布函数的性质

分布函数 F(x)F(x) 具有以下三个基本性质:

  1. 单调不减性:若 x1<x2x_1 < x_2,则 F(x1)F(x2)F(x_1) \leqslant F(x_2)
证明

因为 {Xx1}{Xx2}\{ X \leqslant x_1 \} \subset \{ X \leqslant x_2 \},根据概率的单调性,P(Xx1)P(Xx2)P(X \leqslant x_1) \leqslant P(X \leqslant x_2),即 F(x1)F(x2)F(x_1) \leqslant F(x_2)

  1. 有界性0F(x)10 \leqslant F(x) \leqslant 1,且满足:

    • F()=limxF(x)=0F(-\infty) = \lim_{x \to -\infty} F(x) = 0
    • F(+)=limx+F(x)=1F(+\infty) = \lim_{x \to +\infty} F(x) = 1
  2. 右连续性:对于任意 x0x_0,有 F(x0+)=limxx0+F(x)=F(x0)F(x_0^+) = \lim_{x \to x_0^+} F(x) = F(x_0)

2.2 用分布函数计算概率

利用分布函数,我们可以方便地计算随机变量落在任意区间内的概率:

  • P(a<Xb)=F(b)F(a)P(a < X \leqslant b) = F(b) - F(a)
  • P(X>a)=1P(Xa)=1F(a)P(X > a) = 1 - P(X \leqslant a) = 1 - F(a)
  • P(X<a)=F(a)P(X < a) = F(a^-)(左极限)
  • P(X=a)=F(a)F(a)P(X = a) = F(a) - F(a^-)

对于离散型随机变量,其分布函数通常呈现阶梯状,在取值点处发生跳跃,跳跃的高度即为在该点取值的概率。

3. 离散型随机变量

有些随机变量的取值是可以一一列举出来的,这种类型被称为离散型。

定义 离散型随机变量(Discrete Random Variable)如果随机变量 XX 的全部可能取值是有限个或可列无穷多个 x1,x2,,xn,x_1, x_2, \ldots, x_n, \ldots,则称 XX 为离散型随机变量。

定义 概率质量函数(Probability Mass Function, PMF)描述离散型随机变量在各取值点概率的函数称为概率质量函数,记为 P(X=xk)=pk(k=1,2,)P(X = x_k) = p_k \quad (k = 1, 2, \ldots)

3.1 PMF 的性质

  1. 非负性pk0p_k \geqslant 0
  2. 规范性kpk=1\sum_{k} p_k = 1

定义 概率分布表 离散型随机变量的 PMF 通常用表格形式表示:

XXx1x_1x2x_2\dotsxnx_n\dots
PPp1p_1p2p_2\dotspnp_n\dots

3.2 离散型的分布函数

离散型随机变量的分布函数是一个阶梯函数,定义为:

F(x)=xkxpkF(x) = \sum_{x_k \leqslant x} p_k

3.3 示例:掷骰子

XX 为掷一枚均匀骰子出现的点值。 其分布表为:

XX123456
PP1/61/61/61/61/61/6

其分布函数为:

F(x)={0,x<1k/6,kx<k+1,k=1,,51,x6F(x) = \begin{cases} 0, & x < 1 \\ k/6, & k \leqslant x < k+1, k=1,\dots,5 \\ 1, & x \geqslant 6 \end{cases}

4. 连续型随机变量

对于取值充满整个区间(如长度、时间、重量)的随机变量,我们无法一一列举其取值,其在单点的概率往往为 0。

定义 连续型随机变量(Continuous Random Variable)对于随机变量 XX 的分布函数 F(x)F(x),如果存在非负可积函数 f(x)f(x),使得对于任意实数 xx,有 F(x)=xf(t)dtF(x) = \int_{-\infty}^{x} f(t) \, \mathrm{d}t,则称 XX 为连续型随机变量。

定义 概率密度函数(Probability Density Function, PDF)上述定义中的函数 f(x)f(x) 称为 XX 的概率密度函数。

4.1 PDF 的性质

  1. 非负性f(x)0f(x) \geqslant 0
  2. 规范性+f(x)dx=1\int_{-\infty}^{+\infty} f(x) \, \mathrm{d}x = 1
  3. 与分布函数的关系:在 f(x)f(x) 的连续点处,F(x)=f(x)F'(x) = f(x)
  4. 区间概率P(aXb)=abf(x)dxP(a \leqslant X \leqslant b) = \int_a^b f(x) \, \mathrm{d}x

4.2 重要说明:单点概率为 0

对于连续型随机变量 XX,对于任意实数 aa,都有:

P(X=a)=aaf(x)dx=0P(X = a) = \int_a^a f(x) \, \mathrm{d}x = 0

这说明:

  1. 概率为 0 的事件不一定是不可能事件。在连续型分布中,取到任何一个具体确切值的概率都是 0。
  2. 包含端点不影响概率P(aXb)=P(a<Xb)=P(aX<b)=P(a<X<b)P(a \leqslant X \leqslant b) = P(a < X \leqslant b) = P(a \leqslant X < b) = P(a < X < b)

5. 随机变量函数的分布

在实际应用中,我们常常需要根据已知随机变量 XX 的分布,去求其函数 Y=g(X)Y = g(X) 的分布。

5.1 离散型情况

XX 是离散型的,求 Y=g(X)Y = g(X) 的分布非常简单。只需列出 XX 的所有可能取值 xix_i 及其概率 pip_i,计算相应的 yi=g(xi)y_i = g(x_i)。如果不同的 xix_i 对应相同的 yjy_j,则将它们的概率相加。

5.2 连续型情况:分布函数法

这是最通用的方法。

  1. 写出 YY 的分布函数定义:FY(y)=P(Yy)=P(g(X)y)F_Y(y) = P(Y \leqslant y) = P(g(X) \leqslant y)
  2. 解不等式 g(X)yg(X) \leqslant y,找到 XX 对应的取值范围 DyD_y
  3. 利用 XX 的密度函数求积分:FY(y)=DyfX(x)dxF_Y(y) = \int_{D_y} f_X(x) \, \mathrm{d}x
  4. FY(y)F_Y(y) 求导得到 fY(y)f_Y(y)

5.3 连续型情况:公式法

定义 单调函数密度公式XX 是连续型随机变量,具有密度函数 fX(x)f_X(x)。又设 y=g(x)y = g(x) 是严格单调且处处可导的函数。设 x=h(y)x = h(y) 是其反函数,则 Y=g(X)Y = g(X) 是连续型随机变量,其密度函数为:

fY(y)={fX(h(y))h(y),当 y 在 g(X) 的取值范围内0,其他f_Y(y) = \begin{cases} f_X(h(y)) |h'(y)|, & \text{当 } y \text{ 在 } g(X) \text{ 的取值范围内} \\ 0, & \text{其他} \end{cases}

证明

g(x)g(x) 严格单增为例。此时反函数 h(y)h(y) 也严格单增,且 h(y)>0h'(y) > 0FY(y)=P(g(X)y)=P(Xh(y))=FX(h(y))F_Y(y) = P(g(X) \leqslant y) = P(X \leqslant h(y)) = F_X(h(y))yy 求导: fY(y)=FX(h(y))h(y)=fX(h(y))h(y)f_Y(y) = F_X'(h(y)) \cdot h'(y) = f_X(h(y)) h'(y)g(x)g(x) 严格单减,则 FY(y)=P(Xh(y))=1FX(h(y))F_Y(y) = P(X \geqslant h(y)) = 1 - F_X(h(y)),求导后为 fX(h(y))h(y)-f_X(h(y)) h'(y)。 由于单减时 h(y)<0h'(y) < 0,合并后即为 fX(h(y))h(y)f_X(h(y)) |h'(y)|

5.4 例题分析

例题 1:线性变换XN(μ,σ2)X \sim N(\mu, \sigma^2),求 Y=aX+b(a0)Y = aX + b \quad (a \neq 0) 的分布。 解:g(x)=ax+bg(x) = ax + b,反函数 x=h(y)=(yb)/ax = h(y) = (y - b)/a。导数 h(y)=1/ah'(y) = 1/a。 已知 fX(x)=12πσe(xμ)22σ2f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}。 代入公式:

fY(y)=12πσe(ybaμ)22σ21/a=12π(aσ)e(y(aμ+b))22(aσ)2f_Y(y) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(\frac{y-b}{a}-\mu)^2}{2\sigma^2}} \cdot |1/a| = \frac{1}{\sqrt{2\pi}(|a|\sigma)} e^{-\frac{(y-(a\mu+b))^2}{2(a\sigma)^2}}

由此可见,YN(aμ+b,(aσ)2)Y \sim N(a\mu+b, (a\sigma)^2)。正态变量的线性变换仍为正态变量。

例题 2:平方变换(单区间)XX[0,1][0, 1] 上服从均匀分布,密度函数 fX(x)=1(0<x<1)f_X(x) = 1 \quad (0 < x < 1),求 Y=X2Y = X^2 的分布。 解:当 x[0,1]x \in [0, 1] 时,y=x2[0,1]y = x^2 \in [0, 1]。函数 g(x)=x2g(x) = x^2 在该区间严格单增。 反函数 x=yx = \sqrt{y}h(y)=12yh'(y) = \frac{1}{2\sqrt{y}}

fY(y)=fX(y)12y=112y=12y,0<y<1f_Y(y) = f_X(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} = 1 \cdot \frac{1}{2\sqrt{y}} = \frac{1}{2\sqrt{y}}, \quad 0 < y < 1

例题 3:平方变换(全实数)XN(0,1)X \sim N(0, 1),求 Y=X2Y = X^2 的分布。 解:注意此时 g(x)=x2g(x) = x^2 不是单调函数,必须使用分布函数法。 对于 y>0y > 0

FY(y)=P(X2y)=P(yXy)=Φ(y)Φ(y)=2Φ(y)1F_Y(y) = P(X^2 \leqslant y) = P(-\sqrt{y} \leqslant X \leqslant \sqrt{y}) = \Phi(\sqrt{y}) - \Phi(-\sqrt{y}) = 2\Phi(\sqrt{y}) - 1

其中 Φ(x)\Phi(x) 是标准正态分布函数。求导:

fY(y)=2ϕ(y)12y=12πey/2y1/2,y>0f_Y(y) = 2 \cdot \phi(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} = \frac{1}{\sqrt{2\pi}} e^{-y/2} y^{-1/2}, \quad y > 0

这实际上是自由度为 1 的卡方分布 χ2(1)\chi^2(1) 的概率密度函数。

6. 总结与对比

为了更好地理解这两类随机变量,我们进行简单的对比:

特性离散型随机变量连续型随机变量
取值有限或可列无穷充满一个或多个区间
概率描述概率质量函数 (PMF) pkp_k概率密度函数 (PDF) f(x)f(x)
分布函数阶梯函数 pk\sum p_k积分函数 f(t)dt\int f(t) \mathrm{d}t
单点概率通常 P(X=xk)>0P(X=x_k) > 0P(X=x)=0P(X=x) = 0
规范性pk=1\sum p_k = 1f(x)dx=1\int f(x) \mathrm{d}x = 1

随机变量及其分布是概率论的核心基础。后续章节我们将讨论常见的几种分布模型,如二项分布、正态分布等,以及描述随机变量特征的数字特征(期望、方差)。