随机变量的数字特征

在前面的章节中，我们学习了随机变量及其分布。分布函数、概率分布列或概率密度函数能够完整地描述随机变量的统计规律。但在实际应用中，有时我们并不需要或者无法得到完整的分布信息，而仅仅关心随机变量的某些特定特征，例如它的平均值是多少，取值的离散程度如何，或者两个随机变量之间是否存在线性相关关系。这些能够描述随机变量分布某些侧面特征的数值被称为 数字特征（Numerical Characteristics）。

1. 数学期望

数学期望是随机变量最重要的数字特征，它反映了随机变量取值的平均水平。

定义 数学期望（Mathematical Expectation）或均值（Mean）设随机变量 $X$ 的分布为：

若 $X$ 为离散型随机变量，其概率分布为 $P(X = x_k) = p_k$ （ $k = 1, 2, \ldots$ ），若级数 $\sum_k x_k p_k$ 绝对收敛，则称该级数的和为 $X$ 的数学期望，记为： $E[X] = \sum_k x_k p_k$
若 $X$ 为连续型随机变量，其概率密度函数为 $f(x)$ ，若积分 $\int_{-\infty}^{+\infty} x f(x) \, \mathrm{d}x$ 绝对收敛，则称该积分为 $X$ 的数学期望，记为： $E[X] = \int_{-\infty}^{+\infty} x f(x) \, \mathrm{d}x$

注意：若级数或积分不绝对收敛，则称 $X$ 的数学期望不存在。

定义 随机变量函数的期望（Expectation of a Function of a Random Variable）设 $Y = g(X)$ 是随机变量 $X$ 的函数：

若 $X$ 为离散型，则： $E[g(X)] = \sum_k g(x_k) p_k$
若 $X$ 为连续型，则： $E[g(X)] = \int_{-\infty}^{+\infty} g(x) f(x) \, \mathrm{d}x$ 对于二维随机向量 $(X, Y)$ 的函数 $Z = g(X, Y)$ ，其期望为： $E[g(X, Y)] = \iint_{\mathbb{R}^2} g(x, y) f(x, y) \, \mathrm{d}x \mathrm{d}y \quad \text{或} \quad \sum_i \sum_j g(x_i, y_j) p_{ij}$ 这一公式的重要意义在于：计算 $g(X)$ 的期望时，不需要先求出 $g(X)$ 的分布，直接利用 $X$ 的分布即可计算。

1.1 数学期望的性质

常数的期望：设 $c$ 是常数，则 $E[c] = c$ 。
线性性质（齐次性）：设 $c$ 是常数，则 $E[cX] = cE[X]$ 。
可加性： $E[X + Y] = E[X] + E[Y]$ 。
说明
注意，期望的可加性对于任意两个随机变量 $X$ 和 $Y$ 都成立，不需要独立性条件。这是期望非常优良的性质。
独立变量乘积的期望：若 $X$ 与 $Y$ 相互独立，则 $E[XY] = E[X]E[Y]$ 。
单调性：若 $X \geqslant 0$ ，则 $E[X] \geqslant 0$ ；进一步，若 $X \geqslant Y$ ，则 $E[X] \geqslant E[Y]$ 。

1.2 常见分布的数学期望

分布名称	参数	数学期望 $E[X]$
0-1 分布	$p$	$p$
二项分布 $B(n, p)$	$n, p$	$np$
泊松分布 $P(\lambda)$	$\lambda$	$\lambda$
几何分布 $\mathrm{Geo}(p)$	$p$	$1/p$
均匀分布 $U(a, b)$	$a, b$	$(a+b)/2$
指数分布 $\mathrm{Exp}(\lambda)$	$\lambda$	$1/\lambda$
正态分布 $N(\mu, \sigma^2)$	$\mu, \sigma$	$\mu$
伽马分布 $\Gamma(\alpha, \lambda)$	$\alpha, \lambda$	$\alpha/\lambda$

2. 方差

数学期望虽然描述了随机变量的中心位置，但无法反映取值的波动程度。

定义方差（Variance）设 $X$ 是一个随机变量，若 $E[(X - E[X])^2]$ 存在，则称其为 $X$ 的方差，记为 $\mathrm{Var}(X)$ 或 $D(X)$ ：

\mathrm{Var}(X) = E[(X - E[X])^2]

定义 标准差（Standard Deviation）称方差的算术平方根为 $X$ 的标准差或均方差，记为 $\sigma(X)$ ：

\sigma(X) = \sqrt{\mathrm{Var}(X)}

2.1 方差的计算与性质

在实际计算中，利用以下公式通常更为简便：

\mathrm{Var}(X) = E[X^2] - (E[X])^2

证明

\begin{aligned} \mathrm{Var}(X) &= E[(X - E[X])^2] \\ &= E[X^2 - 2X E[X] + (E[X])^2] \\ &= E[X^2] - 2E[X]E[X] + (E[X])^2 \\ &= E[X^2] - (E[X])^2 \end{aligned}

方差的性质：

常数的方差： $\mathrm{Var}(c) = 0$ 。
线性性质： $\mathrm{Var}(cX) = c^2 \mathrm{Var}(X)$ 。
平移不变性： $\mathrm{Var}(X + c) = \mathrm{Var}(X)$ 。
独立变量和的方差：若 $X$ 与 $Y$ 相互独立，则 $\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)$ 。
非负性： $\mathrm{Var}(X) \geqslant 0$ ，且 $\mathrm{Var}(X) = 0$ 的充分必要条件是 $P(X = E[X]) = 1$ （即 $X$ 以概率 1 取常数值）。

2.2 常见分布的方差

分布名称	参数	方差 $\mathrm{Var}(X)$
0-1 分布	$p$	$p(1-p)$
二项分布 $B(n, p)$	$n, p$	$np(1-p)$
泊松分布 $P(\lambda)$	$\lambda$	$\lambda$
几何分布 $\mathrm{Geo}(p)$	$p$	$(1-p)/p^2$
均匀分布 $U(a, b)$	$a, b$	$(b-a)^2/12$
指数分布 $\mathrm{Exp}(\lambda)$	$\lambda$	$1/\lambda^2$
正态分布 $N(\mu, \sigma^2)$	$\mu, \sigma$	$\sigma^2$
伽马分布 $\Gamma(\alpha, \lambda)$	$\alpha, \lambda$	$\alpha/\lambda^2$

2.3 切比雪夫不等式

如果我们只知道随机变量的期望和方差，就可以利用切比雪夫不等式来估计随机变量偏离其均值的概率。

定义 切比雪夫不等式（Chebyshev's Inequality）设随机变量 $X$ 的数学期望 $E[X]$ 和方差 $\mathrm{Var}(X)$ 均存在，则对任意 $\varepsilon > 0$ ，有：

P(|X - E[X]| \geqslant \varepsilon) \leqslant \frac{\mathrm{Var}(X)}{\varepsilon^2}

证明

以连续型为例，设 $X$ 的密度函数为 $f(x)$ ，则：

\begin{aligned} P(|X - E[X]| \geqslant \varepsilon) &= \int_{|x - E[X]| \geqslant \varepsilon} f(x) \, \mathrm{d}x \\ &\leqslant \int_{|x - E[X]| \geqslant \varepsilon} \frac{(x - E[X])^2}{\varepsilon^2} f(x) \, \mathrm{d}x \\ &\leqslant \frac{1}{\varepsilon^2} \int_{-\infty}^{+\infty} (x - E[X])^2 f(x) \, \mathrm{d}x \\ &= \frac{\mathrm{Var}(X)}{\varepsilon^2} \end{aligned}

切比雪夫不等式的意义在于：它给出了在分布未知的情况下，通过期望和方差对随机变量取值概率的一个粗略上界估计。即使分布形式完全不知道，只要方差越小，随机变量集中在均值附近的概率就越大。

3. 协方差与相关系数

对于二维随机变量 $(X, Y)$ ，除了各自的期望和方差外，我们还需要描述它们之间的相互关系。

定义 协方差（Covariance）称 $E[(X - E[X])(Y - E[Y])]$ 为随机变量 $X$ 与 $Y$ 的协方差，记为 $\mathrm{Cov}(X, Y)$ ：

\mathrm{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]

常用的计算公式为：

\mathrm{Cov}(X, Y) = E[XY] - E[X]E[Y]

协方差的性质：

$\mathrm{Cov}(X, X) = \mathrm{Var}(X)$ 。
对称性： $\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)$ 。
线性性： $\mathrm{Cov}(aX, bY) = ab \mathrm{Cov}(X, Y)$ 。
可加性： $\mathrm{Cov}(X_1 + X_2, Y) = \mathrm{Cov}(X_1, Y) + \mathrm{Cov}(X_2, Y)$ 。
和的方差公式：

\mathrm{Var}(X \pm Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) \pm 2\mathrm{Cov}(X, Y)

当 $X, Y$ 独立时， $\mathrm{Cov}(X, Y) = 0$ ，上式简化为方差的可加性。

定义 相关系数（Correlation Coefficient）称

\rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}}

为随机变量 $X$ 与 $Y$ 的相关系数。

相关系数的性质：

有界性： $|\rho_{XY}| \leqslant 1$ 。
证明
利用 Cauchy-Schwarz 不等式。设 $X' = X - E[X]$ ， $Y' = Y - E[Y]$ ，则 $\mathrm{Cov}(X, Y) = E[X' Y']$ 。根据 Cauchy-Schwarz 不等式：
$(E[X' Y'])^2 \leqslant E[X'^2] E[Y'^2] = \mathrm{Var}(X) \mathrm{Var}(Y)$
故 $|\rho_{XY}| \leqslant 1$ 。
线性相关性： $|\rho_{XY}| = 1$ 的充分必要条件是存在常数 $a, b$ （ $a \neq 0$ ），使得 $P(Y = aX + b) = 1$ 。
不相关：若 $\rho_{XY} = 0$ ，称 $X$ 与 $Y$ 不相关（Uncorrelated）。

3.1 独立与不相关的关系

这是一个非常关键的概念，需要明确区分：

独立 $\Rightarrow$ 不相关：如果 $X$ 与 $Y$ 相互独立，则 $E[XY] = E[X]E[Y]$ ，从而 $\mathrm{Cov}(X, Y) = 0$ ，故 $\rho_{XY} = 0$ 。
不相关 $\not\Rightarrow$ 独立：不相关仅仅说明两者之间不存在线性相关关系，但可能存在非线性的函数关系。例：设 $X \sim N(0, 1)$ ， $Y = X^2$ 。虽然 $Y$ 严格由 $X$ 决定，但可以计算出 $\mathrm{Cov}(X, Y) = E[X^3] - E[X]E[X^2] = 0 - 0 = 0$ （正态分布奇数阶矩为 0），即 $X$ 与 $Y$ 不相关，但显然不独立。
特例：对于 二维正态分布，独立性与不相关性是等价的。

4. 矩与协方差矩阵

定义 $k$ 阶原点矩（ $k$ -th Moment）称 $E[X^k]$ 为 $X$ 的 $k$ 阶原点矩（ $k = 1, 2, \ldots$ ）。定义 $k$ 阶中心矩（ $k$ -th Central Moment）称 $E[(X - E[X])^k]$ 为 $X$ 的 $k$ 阶中心矩。

显然，期望是一阶原点矩，方差是二阶中心矩。

定义 矩母函数（Moment Generating Function, MGF）设 $X$ 是随机变量，若对于 $t$ 在 0 附近的某个邻域内，期望 $E[e^{tX}]$ 存在，则称

M_X(t) = E[e^{tX}]

为 $X$ 的矩母函数。

矩母函数的性质：

生成矩： $M_X(t)$ 在 $t = 0$ 处的 $k$ 阶导数等于 $X$ 的 $k$ 阶原点矩： $M_X^{(k)}(0) = E[X^k]$
唯一性：如果两个随机变量的矩母函数在 0 的某个邻域内相等，则它们的分布相同。

定义 协方差矩阵（Covariance Matrix）对于 $n$ 维随机向量 $\boldsymbol{X} = (X_1, X_2, \ldots, X_n)^{\top}$ ，其协方差矩阵定义为 $\boldsymbol{\Sigma} = (\sigma_{ij})_{n \times n}$ ，其中 $\sigma_{ij} = \mathrm{Cov}(X_i, X_j)$ ：

\boldsymbol{\Sigma} = \begin{bmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1, X_2) & \cdots & \mathrm{Cov}(X_1, X_n) \\ \mathrm{Cov}(X_2, X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n, X_1) & \mathrm{Cov}(X_n, X_2) & \cdots & \mathrm{Var}(X_n) \end{bmatrix}

协方差矩阵具有对称性和半正定性。在多维正态分布 $N(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 中，协方差矩阵 $\boldsymbol{\Sigma}$ 完整地描述了各分量之间的相关关系。

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

随机变量的数字特征

1. 数学期望

1.1 数学期望的性质

1.2 常见分布的数学期望

2. 方差

2.1 方差的计算与性质

2.2 常见分布的方差

2.3 切比雪夫不等式

3. 协方差与相关系数

3.1 独立与不相关的关系

4. 矩与协方差矩阵

随机变量的数字特征 ​

1. 数学期望 ​

1.1 数学期望的性质 ​

1.2 常见分布的数学期望 ​

2. 方差 ​

2.1 方差的计算与性质 ​

2.2 常见分布的方差 ​

2.3 切比雪夫不等式 ​

3. 协方差与相关系数 ​

3.1 独立与不相关的关系 ​

4. 矩与协方差矩阵 ​

随机变量的数字特征

1. 数学期望

1.1 数学期望的性质

1.2 常见分布的数学期望

2. 方差

2.1 方差的计算与性质

2.2 常见分布的方差

2.3 切比雪夫不等式

3. 协方差与相关系数

3.1 独立与不相关的关系

4. 矩与协方差矩阵