Skip to content

随机变量的数字特征

在前面的章节中,我们学习了随机变量及其分布。分布函数、概率分布列或概率密度函数能够完整地描述随机变量的统计规律。但在实际应用中,有时我们并不需要或者无法得到完整的分布信息,而仅仅关心随机变量的某些特定特征,例如它的平均值是多少,取值的离散程度如何,或者两个随机变量之间是否存在线性相关关系。这些能够描述随机变量分布某些侧面特征的数值被称为 数字特征(Numerical Characteristics)。

1. 数学期望

数学期望是随机变量最重要的数字特征,它反映了随机变量取值的平均水平。

定义 数学期望(Mathematical Expectation)或 均值(Mean)设随机变量 XX 的分布为:

  1. XX 为离散型随机变量,其概率分布为 P(X=xk)=pkP(X = x_k) = p_kk=1,2,k = 1, 2, \ldots),若级数 kxkpk\sum_k x_k p_k 绝对收敛,则称该级数的和为 XX 的数学期望,记为:

    E[X]=kxkpkE[X] = \sum_k x_k p_k

  2. XX 为连续型随机变量,其概率密度函数为 f(x)f(x),若积分 +xf(x)dx\int_{-\infty}^{+\infty} x f(x) \, \mathrm{d}x 绝对收敛,则称该积分为 XX 的数学期望,记为:

    E[X]=+xf(x)dxE[X] = \int_{-\infty}^{+\infty} x f(x) \, \mathrm{d}x

注意:若级数或积分不绝对收敛,则称 XX 的数学期望不存在。

定义 随机变量函数的期望(Expectation of a Function of a Random Variable)设 Y=g(X)Y = g(X) 是随机变量 XX 的函数:

  1. XX 为离散型,则:

    E[g(X)]=kg(xk)pkE[g(X)] = \sum_k g(x_k) p_k

  2. XX 为连续型,则:

    E[g(X)]=+g(x)f(x)dxE[g(X)] = \int_{-\infty}^{+\infty} g(x) f(x) \, \mathrm{d}x

    对于二维随机向量 (X,Y)(X, Y) 的函数 Z=g(X,Y)Z = g(X, Y),其期望为:

    E[g(X,Y)]=R2g(x,y)f(x,y)dxdyijg(xi,yj)pijE[g(X, Y)] = \iint_{\mathbb{R}^2} g(x, y) f(x, y) \, \mathrm{d}x \mathrm{d}y \quad \text{或} \quad \sum_i \sum_j g(x_i, y_j) p_{ij}

    这一公式的重要意义在于:计算 g(X)g(X) 的期望时,不需要先求出 g(X)g(X) 的分布,直接利用 XX 的分布即可计算。

1.1 数学期望的性质

  1. 常数的期望:设 cc 是常数,则 E[c]=cE[c] = c
  2. 线性性质(齐次性):设 cc 是常数,则 E[cX]=cE[X]E[cX] = cE[X]
  3. 可加性E[X+Y]=E[X]+E[Y]E[X + Y] = E[X] + E[Y]
    说明

    注意,期望的可加性对于任意两个随机变量 XXYY 都成立,不需要独立性条件。这是期望非常优良的性质。

  4. 独立变量乘积的期望:若 XXYY 相互独立,则 E[XY]=E[X]E[Y]E[XY] = E[X]E[Y]
  5. 单调性:若 X0X \geqslant 0,则 E[X]0E[X] \geqslant 0;进一步,若 XYX \geqslant Y,则 E[X]E[Y]E[X] \geqslant E[Y]

1.2 常见分布的数学期望

分布名称参数数学期望 E[X]E[X]
0-1 分布pppp
二项分布 B(n,p)B(n, p)n,pn, pnpnp
泊松分布 P(λ)P(\lambda)λ\lambdaλ\lambda
几何分布 Geo(p)\mathrm{Geo}(p)pp1/p1/p
均匀分布 U(a,b)U(a, b)a,ba, b(a+b)/2(a+b)/2
指数分布 Exp(λ)\mathrm{Exp}(\lambda)λ\lambda1/λ1/\lambda
正态分布 N(μ,σ2)N(\mu, \sigma^2)μ,σ\mu, \sigmaμ\mu
伽马分布 Γ(α,λ)\Gamma(\alpha, \lambda)α,λ\alpha, \lambdaα/λ\alpha/\lambda

2. 方差

数学期望虽然描述了随机变量的中心位置,但无法反映取值的波动程度。

定义 方差(Variance)设 XX 是一个随机变量,若 E[(XE[X])2]E[(X - E[X])^2] 存在,则称其为 XX 的方差,记为 Var(X)\mathrm{Var}(X)D(X)D(X)

Var(X)=E[(XE[X])2]\mathrm{Var}(X) = E[(X - E[X])^2]

定义 标准差(Standard Deviation)称方差的算术平方根为 XX 的标准差或均方差,记为 σ(X)\sigma(X)

σ(X)=Var(X)\sigma(X) = \sqrt{\mathrm{Var}(X)}

2.1 方差的计算与性质

在实际计算中,利用以下公式通常更为简便:

Var(X)=E[X2](E[X])2\mathrm{Var}(X) = E[X^2] - (E[X])^2

证明

Var(X)=E[(XE[X])2]=E[X22XE[X]+(E[X])2]=E[X2]2E[X]E[X]+(E[X])2=E[X2](E[X])2\begin{aligned} \mathrm{Var}(X) &= E[(X - E[X])^2] \\ &= E[X^2 - 2X E[X] + (E[X])^2] \\ &= E[X^2] - 2E[X]E[X] + (E[X])^2 \\ &= E[X^2] - (E[X])^2 \end{aligned}

方差的性质

  1. 常数的方差Var(c)=0\mathrm{Var}(c) = 0
  2. 线性性质Var(cX)=c2Var(X)\mathrm{Var}(cX) = c^2 \mathrm{Var}(X)
  3. 平移不变性Var(X+c)=Var(X)\mathrm{Var}(X + c) = \mathrm{Var}(X)
  4. 独立变量和的方差:若 XXYY 相互独立,则 Var(X+Y)=Var(X)+Var(Y)\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)
  5. 非负性Var(X)0\mathrm{Var}(X) \geqslant 0,且 Var(X)=0\mathrm{Var}(X) = 0 的充分必要条件是 P(X=E[X])=1P(X = E[X]) = 1(即 XX 以概率 1 取常数值)。

2.2 常见分布的方差

分布名称参数方差 Var(X)\mathrm{Var}(X)
0-1 分布ppp(1p)p(1-p)
二项分布 B(n,p)B(n, p)n,pn, pnp(1p)np(1-p)
泊松分布 P(λ)P(\lambda)λ\lambdaλ\lambda
几何分布 Geo(p)\mathrm{Geo}(p)pp(1p)/p2(1-p)/p^2
均匀分布 U(a,b)U(a, b)a,ba, b(ba)2/12(b-a)^2/12
指数分布 Exp(λ)\mathrm{Exp}(\lambda)λ\lambda1/λ21/\lambda^2
正态分布 N(μ,σ2)N(\mu, \sigma^2)μ,σ\mu, \sigmaσ2\sigma^2
伽马分布 Γ(α,λ)\Gamma(\alpha, \lambda)α,λ\alpha, \lambdaα/λ2\alpha/\lambda^2

2.3 切比雪夫不等式

如果我们只知道随机变量的期望和方差,就可以利用切比雪夫不等式来估计随机变量偏离其均值的概率。

定义 切比雪夫不等式(Chebyshev's Inequality)设随机变量 XX 的数学期望 E[X]E[X] 和方差 Var(X)\mathrm{Var}(X) 均存在,则对任意 ε>0\varepsilon > 0,有:

P(XE[X]ε)Var(X)ε2P(|X - E[X]| \geqslant \varepsilon) \leqslant \frac{\mathrm{Var}(X)}{\varepsilon^2}

证明

以连续型为例,设 XX 的密度函数为 f(x)f(x),则:

P(XE[X]ε)=xE[X]εf(x)dxxE[X]ε(xE[X])2ε2f(x)dx1ε2+(xE[X])2f(x)dx=Var(X)ε2\begin{aligned} P(|X - E[X]| \geqslant \varepsilon) &= \int_{|x - E[X]| \geqslant \varepsilon} f(x) \, \mathrm{d}x \\ &\leqslant \int_{|x - E[X]| \geqslant \varepsilon} \frac{(x - E[X])^2}{\varepsilon^2} f(x) \, \mathrm{d}x \\ &\leqslant \frac{1}{\varepsilon^2} \int_{-\infty}^{+\infty} (x - E[X])^2 f(x) \, \mathrm{d}x \\ &= \frac{\mathrm{Var}(X)}{\varepsilon^2} \end{aligned}

切比雪夫不等式的意义在于:它给出了在分布未知的情况下,通过期望和方差对随机变量取值概率的一个粗略上界估计。即使分布形式完全不知道,只要方差越小,随机变量集中在均值附近的概率就越大。

3. 协方差与相关系数

对于二维随机变量 (X,Y)(X, Y),除了各自的期望和方差外,我们还需要描述它们之间的相互关系。

定义 协方差(Covariance)称 E[(XE[X])(YE[Y])]E[(X - E[X])(Y - E[Y])] 为随机变量 XXYY 的协方差,记为 Cov(X,Y)\mathrm{Cov}(X, Y)

Cov(X,Y)=E[(XE[X])(YE[Y])]\mathrm{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]

常用的计算公式为:

Cov(X,Y)=E[XY]E[X]E[Y]\mathrm{Cov}(X, Y) = E[XY] - E[X]E[Y]

协方差的性质

  1. Cov(X,X)=Var(X)\mathrm{Cov}(X, X) = \mathrm{Var}(X)
  2. 对称性Cov(X,Y)=Cov(Y,X)\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)
  3. 线性性Cov(aX,bY)=abCov(X,Y)\mathrm{Cov}(aX, bY) = ab \mathrm{Cov}(X, Y)
  4. 可加性Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)\mathrm{Cov}(X_1 + X_2, Y) = \mathrm{Cov}(X_1, Y) + \mathrm{Cov}(X_2, Y)
  5. 和的方差公式

Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)\mathrm{Var}(X \pm Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) \pm 2\mathrm{Cov}(X, Y)

X,YX, Y 独立时,Cov(X,Y)=0\mathrm{Cov}(X, Y) = 0,上式简化为方差的可加性。

定义 相关系数(Correlation Coefficient)称

ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}}

为随机变量 XXYY 的相关系数。

相关系数的性质

  1. 有界性ρXY1|\rho_{XY}| \leqslant 1
    证明

    利用 Cauchy-Schwarz 不等式。设 X=XE[X]X' = X - E[X]Y=YE[Y]Y' = Y - E[Y],则 Cov(X,Y)=E[XY]\mathrm{Cov}(X, Y) = E[X' Y']。根据 Cauchy-Schwarz 不等式:

    (E[XY])2E[X2]E[Y2]=Var(X)Var(Y)(E[X' Y'])^2 \leqslant E[X'^2] E[Y'^2] = \mathrm{Var}(X) \mathrm{Var}(Y)

    ρXY1|\rho_{XY}| \leqslant 1

  2. 线性相关性ρXY=1|\rho_{XY}| = 1 的充分必要条件是存在常数 a,ba, ba0a \neq 0),使得 P(Y=aX+b)=1P(Y = aX + b) = 1
  3. 不相关:若 ρXY=0\rho_{XY} = 0,称 XXYY 不相关(Uncorrelated)。

3.1 独立与不相关的关系

这是一个非常关键的概念,需要明确区分:

  1. 独立 \Rightarrow 不相关:如果 XXYY 相互独立,则 E[XY]=E[X]E[Y]E[XY] = E[X]E[Y],从而 Cov(X,Y)=0\mathrm{Cov}(X, Y) = 0,故 ρXY=0\rho_{XY} = 0
  2. 不相关 ⇏\not\Rightarrow 独立:不相关仅仅说明两者之间不存在 线性 相关关系,但可能存在非线性的函数关系。 例:XN(0,1)X \sim N(0, 1)Y=X2Y = X^2。虽然 YY 严格由 XX 决定,但可以计算出 Cov(X,Y)=E[X3]E[X]E[X2]=00=0\mathrm{Cov}(X, Y) = E[X^3] - E[X]E[X^2] = 0 - 0 = 0(正态分布奇数阶矩为 0),即 XXYY 不相关,但显然不独立。
  3. 特例:对于 二维正态分布,独立性与不相关性是等价的。

4. 矩与协方差矩阵

定义 kk 阶原点矩kk-th Moment)称 E[Xk]E[X^k]XXkk 阶原点矩(k=1,2,k = 1, 2, \ldots)。 定义 kk 阶中心矩kk-th Central Moment)称 E[(XE[X])k]E[(X - E[X])^k]XXkk 阶中心矩。

显然,期望是一阶原点矩,方差是二阶中心矩。

定义 矩母函数(Moment Generating Function, MGF)设 XX 是随机变量,若对于 tt 在 0 附近的某个邻域内,期望 E[etX]E[e^{tX}] 存在,则称

MX(t)=E[etX]M_X(t) = E[e^{tX}]

XX 的矩母函数。

矩母函数的性质

  1. 生成矩MX(t)M_X(t)t=0t = 0 处的 kk 阶导数等于 XXkk 阶原点矩:

    MX(k)(0)=E[Xk]M_X^{(k)}(0) = E[X^k]

  2. 唯一性:如果两个随机变量的矩母函数在 0 的某个邻域内相等,则它们的分布相同。

定义 协方差矩阵(Covariance Matrix)对于 nn 维随机向量 X=(X1,X2,,Xn)\boldsymbol{X} = (X_1, X_2, \ldots, X_n)^{\top},其协方差矩阵定义为 Σ=(σij)n×n\boldsymbol{\Sigma} = (\sigma_{ij})_{n \times n},其中 σij=Cov(Xi,Xj)\sigma_{ij} = \mathrm{Cov}(X_i, X_j)

Σ=[Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn)]\boldsymbol{\Sigma} = \begin{bmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1, X_2) & \cdots & \mathrm{Cov}(X_1, X_n) \\ \mathrm{Cov}(X_2, X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n, X_1) & \mathrm{Cov}(X_n, X_2) & \cdots & \mathrm{Var}(X_n) \end{bmatrix}

协方差矩阵具有对称性和半正定性。在多维正态分布 N(μ,Σ)N(\boldsymbol{\mu}, \boldsymbol{\Sigma}) 中,协方差矩阵 Σ\boldsymbol{\Sigma} 完整地描述了各分量之间的相关关系。