描述统计

描述统计是数据分析的第一步，它的核心目标是通过图表、表格和数值指标，对收集到的数据进行整理、组织和概括，从而揭示数据内部蕴含的规律。在实际研究中，原始数据往往是杂乱无章的，描述统计能帮助我们直观地理解数据的分布特征、集中趋势以及离散程度，为后续的推断统计奠定基础。

1. 数据的收集与整理

在进行统计分析之前，我们首先需要明确数据的类型。

1.1 数据类型

统计数据通常分为 定性数据（Qualitative Data）和 定量数据（Quantitative Data）。定性数据描述事物的属性或类别，如性别、颜色；定量数据则描述事物的数量特征，如身高、收入。定量数据进一步分为 离散型（Discrete）和 连续型（Continuous）。离散型数据取值通常为整数，如家庭人口数；连续型数据可以在某个区间内取任何值，如考试成绩或测量时间。

1.2 频率分布

为了从宏观上把握数据的分布情况，我们需要对原始数据进行归纳。

定义 频率分布（Frequency Distribution）是将数据按照取值大小或类别进行分组，并列出各组中观测值出现的次数（频数）及其占总观测次数比例（频率）的一种整理方式。

对于定量数据，构造频率分布表与频率直方图的步骤如下：

确定极差 $R = x_{max} - x_{min}$ ；
确定组数 $k$ 和组距 $d \approx R/k$ ；
确定各组的边界，确保数据不重不漏；
统计各组的频数 $f_i$ ；
计算频率 $w_i = f_i / n$ 。

1.3 频率直方图

频率直方图是频率分布的图形表示。在直角坐标系中，横轴表示数据的取值区间，纵轴为“频率/组距”。

频率直方图的一个重要性质是：所有矩形的面积之和等于 $1$ 。

\sum_{i=1}^k (w_i / d) \cdot d = \sum_{i=1}^k w_i = 1

这使得直方图的面积可以直接对应于数据落在某个区间的比例，这与概率密度函数的概念非常相似。

2. 中心趋势的度量

中心趋势描述了数据分布的“中心”位置，即数据倾向于向哪个数值聚集。

定义 样本均值（Sample Mean）是所有观测值的算术平均值。设样本容量为 $n$ ，样本观测值为 $x_1, x_2, \dots, x_n$ ，则样本均值定义为：

\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i

定义 中位数（Median）是将样本观测值按大小顺序排列后，位于中间位置的数值。若 $n$ 为奇数，则中位数为第 $(n+1)/2$ 个观测值；若 $n$ 为偶数，则为中间两个观测值的平均值。中位数对异常值（Outliers）具有鲁棒性。

定义众数（Mode）是样本中出现频率最高的数值。一个分布可能有多个众数，也可能没有众数。

2.1 三者的比较

在对称分布中，均值、中位数和众数通常重合。但在 偏态分布（Skewed Distribution）中，它们会产生分离。对于右偏分布（长尾在右），通常有：均值 > 中位数 > 众数。在实际应用中，如果数据中存在极端值（如人均收入统计），中位数往往比均值更能代表“普通人”的水平。

定义 加权平均（Weighted Mean）是给不同观测值分配不同权重的平均值，计算公式为：

\bar{x}_w = \frac{\sum w_i x_i}{\sum w_i}

定义 截尾均值（Trimmed Mean）是为了消除异常值影响，在排序后去掉两端一定比例（如上下各 5% ）的数据后计算得到的均值。

3. 离散程度的度量

仅有中心趋势是不够的，我们还需要知道数据分布的疏密程度。

定义极差（Range）是样本中最大值与最小值之差， $R = x_{max} - x_{min}$ 。它计算简单，但极易受极端值影响。

定义 四分位距（Interquartile Range, IQR）是第三四分位数与第一四分位数之差， $IQR = Q_3 - Q_1$ 。它反映了中间 50% 数据的波动范围。

定义 样本方差（Sample Variance）描述了观测值偏离均值的平均程度，定义为：

s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2

为什么分母是

n-1

而不是

n

？

这是为了保证样本方差是总体方差的无偏估计。在计算方差时，我们使用了样本均值 $\bar{x}$ ，这消耗了一个自由度。如果除以 $n$ ，计算出的方差会系统性地偏小。关于无偏性的严格证明，可以参考第一章的相关推导。

定义 样本标准差（Sample Standard Deviation）是样本方差的算术平方根 $s = \sqrt{s^2}$ 。它的单位与原观测值相同，更易于解释。

定义 变异系数（Coefficient of Variation）是标准差与均值的比值，通常以百分比表示：

CV = \frac{s}{\bar{x}}

变异系数消除了量纲的影响，常用于比较均值差异较大的两组数据的离散程度（如比较大象和老鼠的体重波动）。

4. 分位数与箱线图

分位数将有序数据集划分为等分的区间。

定义 分位数（Quantile）又称分位点。对于 $p \in (0, 1)$ ， $p$ 分位数是这样一个值，它使得至少有 $np$ 个观测值小于或等于该值，且至少有 $n(1-p)$ 个观测值大于或等于该值。

常用的四分位数包括：

$Q_1$ （第一四分位数，25 分位数）
$Q_2$ （中位数，50 分位数）
$Q_3$ （第三四分位数，75 分位数）

定义 箱线图（Box Plot）是一种基于五数概括（最小值、 $Q_1$ 、 $Q_2$ 、 $Q_3$ 、最大值）展示数据分布的图形工具。其核心是一个覆盖 $Q_1$ 到 $Q_3$ 的矩形“箱子”，并在中位数处画一条线。

异常值判定：在箱线图中，通常将落在区间 $[Q_1 - 1.5 \cdot IQR, Q_3 + 1.5 \cdot IQR]$ 之外的数据点定义为异常值。箱线图能直观地显示数据的偏斜程度和离散度，并识别潜在的错误数据。

5. 分布形状的度量

除了中心和散布，我们还需要定量的指标来描述分布的几何形状。

定义偏度（Skewness）描述分布的不对称性。设样本的 $k$ 阶中心矩为 $m_k = \frac{1}{n} \sum (x_i - \bar{x})^k$ ，则样本偏度定义为：

g_1 = \frac{m_3}{m_2^{3/2}} = \frac{\frac{1}{n} \sum (x_i - \bar{x})^3}{\left[\frac{1}{n} \sum (x_i - \bar{x})^2\right]^{3/2}}

$g_1 = 0$ ：分布对称（如正态分布）；
$g_1 > 0$ ：右偏（正偏），长尾在右侧；
$g_1 < 0$ ：左偏（负偏），长尾在左侧。

定义峰度（Kurtosis）描述分布形态的尖锐或平坦程度。样本超额峰度定义为：

g_2 = \frac{m_4}{m_2^2} - 3 = \frac{\frac{1}{n} \sum (x_i - \bar{x})^4}{\left[\frac{1}{n} \sum (x_i - \bar{x})^2\right]^2} - 3

$g_2 = 0$ ：分布的尖峭程度与正态分布一致；
$g_2 > 0$ ：尖峰分布（Leptokurtic），相比正态分布更瘦高，尾部更厚；
$g_2 < 0$ ：扁平分布（Platykurtic），分布较矮胖。

6. 多变量描述统计

当我们同时研究两个或多个变量时，需要考察它们之间的关联性。

定义 样本协方差（Sample Covariance）衡量两个变量 $x$ 和 $y$ 共同变动的方向：

s_{xy} = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})

定义 样本相关系数（Sample Correlation Coefficient）通常指 Pearson 相关系数，它是协方差的标准化形式：

r = \frac{s_{xy}}{s_x s_y} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}

相关系数 $r$ 的取值范围在 $[-1, 1]$ 之间。 $r=1$ 表示完全正相关， $r=-1$ 表示完全负相关， $r=0$ 表示无线性相关。关于理论性质的深入探讨，请参考概率论中的数字特征章节。

6.1 例题：考试成绩分析

某班级 10 名同学的数学成绩如下：85, 92, 78, 88, 90, 85, 82, 95, 85, 100。

均值 $\bar{x} = 88$ ；
众数：85（出现 3 次）；
排序后：78, 82, 85, 85, 85, 88, 90, 92, 95, 100。中位数为 $(85+88)/2 = 86.5$ 。
极差 $R = 100 - 78 = 22$ 。

6.2 例题：异常值检测

某组身高数据（单位：cm）的 $Q_1 = 160, Q_3 = 175$ 。则 $IQR = 175 - 160 = 15$ 。内限下界 = $160 - 1.5 \cdot 15 = 137.5$ ；内限上界 = $175 + 1.5 \cdot 15 = 197.5$ 。若观测到身高为 210cm 的数据，根据箱线图准则应判定为异常值。

参考文献

陈希孺. 概率论与数理统计. 中国科学技术大学出版社, 2009.
盛骤, 谢式千, 潘承毅. 概率论与数理统计. 高等教育出版社, 2008.
Freedman, D., Pisani, R., & Purves, R. Statistics. W. W. Norton & Company, 2007.

组合数学

不等式

线性代数

数列

数论

概率论

集合论

统计学

三角学

描述统计

1. 数据的收集与整理

1.1 数据类型

1.2 频率分布

1.3 频率直方图

2. 中心趋势的度量

2.1 三者的比较

3. 离散程度的度量

4. 分位数与箱线图

5. 分布形状的度量

6. 多变量描述统计

6.1 例题：考试成绩分析

6.2 例题：异常值检测

参考文献

描述统计 ​

1. 数据的收集与整理 ​

1.1 数据类型 ​

1.2 频率分布 ​

1.3 频率直方图 ​

2. 中心趋势的度量 ​

2.1 三者的比较 ​

3. 离散程度的度量 ​

4. 分位数与箱线图 ​

5. 分布形状的度量 ​

6. 多变量描述统计 ​

6.1 例题：考试成绩分析 ​

6.2 例题：异常值检测 ​

参考文献 ​

描述统计

1. 数据的收集与整理

1.1 数据类型

1.2 频率分布

1.3 频率直方图

2. 中心趋势的度量

2.1 三者的比较

3. 离散程度的度量

4. 分位数与箱线图

5. 分布形状的度量

6. 多变量描述统计

6.1 例题：考试成绩分析

6.2 例题：异常值检测

参考文献