Skip to content

描述统计

描述统计是数据分析的第一步,它的核心目标是通过图表、表格和数值指标,对收集到的数据进行整理、组织和概括,从而揭示数据内部蕴含的规律。在实际研究中,原始数据往往是杂乱无章的,描述统计能帮助我们直观地理解数据的分布特征、集中趋势以及离散程度,为后续的推断统计奠定基础。

1. 数据的收集与整理

在进行统计分析之前,我们首先需要明确数据的类型。

1.1 数据类型

统计数据通常分为 定性数据(Qualitative Data)和 定量数据(Quantitative Data)。定性数据描述事物的属性或类别,如性别、颜色;定量数据则描述事物的数量特征,如身高、收入。定量数据进一步分为 离散型(Discrete)和 连续型(Continuous)。离散型数据取值通常为整数,如家庭人口数;连续型数据可以在某个区间内取任何值,如考试成绩或测量时间。

1.2 频率分布

为了从宏观上把握数据的分布情况,我们需要对原始数据进行归纳。

定义 频率分布(Frequency Distribution)是将数据按照取值大小或类别进行分组,并列出各组中观测值出现的次数(频数)及其占总观测次数比例(频率)的一种整理方式。

对于定量数据,构造频率分布表与频率直方图的步骤如下:

  1. 确定极差 R=xmaxxminR = x_{max} - x_{min}
  2. 确定组数 kk 和组距 dR/kd \approx R/k
  3. 确定各组的边界,确保数据不重不漏;
  4. 统计各组的频数 fif_i
  5. 计算频率 wi=fi/nw_i = f_i / n

1.3 频率直方图

频率直方图是频率分布的图形表示。在直角坐标系中,横轴表示数据的取值区间,纵轴为“频率/组距”。

频率直方图的一个重要性质是:所有矩形的面积之和等于 11

i=1k(wi/d)d=i=1kwi=1\sum_{i=1}^k (w_i / d) \cdot d = \sum_{i=1}^k w_i = 1

这使得直方图的面积可以直接对应于数据落在某个区间的比例,这与概率密度函数的概念非常相似。

2. 中心趋势的度量

中心趋势描述了数据分布的“中心”位置,即数据倾向于向哪个数值聚集。

定义 样本均值(Sample Mean)是所有观测值的算术平均值。设样本容量为 nn ,样本观测值为 x1,x2,,xnx_1, x_2, \dots, x_n ,则样本均值定义为:

xˉ=1ni=1nxi\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i

定义 中位数(Median)是将样本观测值按大小顺序排列后,位于中间位置的数值。若 nn 为奇数,则中位数为第 (n+1)/2(n+1)/2 个观测值;若 nn 为偶数,则为中间两个观测值的平均值。中位数对异常值(Outliers)具有鲁棒性。

定义 众数(Mode)是样本中出现频率最高的数值。一个分布可能有多个众数,也可能没有众数。

2.1 三者的比较

在对称分布中,均值、中位数和众数通常重合。但在 偏态分布(Skewed Distribution)中,它们会产生分离。对于右偏分布(长尾在右),通常有:均值 > 中位数 > 众数。在实际应用中,如果数据中存在极端值(如人均收入统计),中位数往往比均值更能代表“普通人”的水平。

定义 加权平均(Weighted Mean)是给不同观测值分配不同权重的平均值,计算公式为:

xˉw=wixiwi\bar{x}_w = \frac{\sum w_i x_i}{\sum w_i}

定义 截尾均值(Trimmed Mean)是为了消除异常值影响,在排序后去掉两端一定比例(如上下各 5% )的数据后计算得到的均值。

3. 离散程度的度量

仅有中心趋势是不够的,我们还需要知道数据分布的疏密程度。

定义 极差(Range)是样本中最大值与最小值之差,R=xmaxxminR = x_{max} - x_{min} 。它计算简单,但极易受极端值影响。

定义 四分位距(Interquartile Range, IQR)是第三四分位数与第一四分位数之差,IQR=Q3Q1IQR = Q_3 - Q_1 。它反映了中间 50% 数据的波动范围。

定义 样本方差(Sample Variance)描述了观测值偏离均值的平均程度,定义为:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2

为什么分母是 n1n-1 而不是 nn

这是为了保证样本方差是总体方差的无偏估计。在计算方差时,我们使用了样本均值 xˉ\bar{x} ,这消耗了一个自由度。如果除以 nn,计算出的方差会系统性地偏小。关于无偏性的严格证明,可以参考 第一章 的相关推导。

定义 样本标准差(Sample Standard Deviation)是样本方差的算术平方根 s=s2s = \sqrt{s^2} 。它的单位与原观测值相同,更易于解释。

定义 变异系数(Coefficient of Variation)是标准差与均值的比值,通常以百分比表示:

CV=sxˉCV = \frac{s}{\bar{x}}

变异系数消除了量纲的影响,常用于比较均值差异较大的两组数据的离散程度(如比较大象和老鼠的体重波动)。

4. 分位数与箱线图

分位数将有序数据集划分为等分的区间。

定义 分位数(Quantile)又称分位点。对于 p(0,1)p \in (0, 1)pp 分位数是这样一个值,它使得至少有 npnp 个观测值小于或等于该值,且至少有 n(1p)n(1-p) 个观测值大于或等于该值。

常用的四分位数包括:

  • Q1Q_1 (第一四分位数,25 分位数)
  • Q2Q_2 (中位数,50 分位数)
  • Q3Q_3 (第三四分位数,75 分位数)

定义 箱线图(Box Plot)是一种基于五数概括(最小值、Q1Q_1Q2Q_2Q3Q_3、最大值)展示数据分布的图形工具。其核心是一个覆盖 Q1Q_1Q3Q_3 的矩形“箱子”,并在中位数处画一条线。

异常值判定:在箱线图中,通常将落在区间 [Q11.5IQR,Q3+1.5IQR][Q_1 - 1.5 \cdot IQR, Q_3 + 1.5 \cdot IQR] 之外的数据点定义为异常值。箱线图能直观地显示数据的偏斜程度和离散度,并识别潜在的错误数据。

5. 分布形状的度量

除了中心和散布,我们还需要定量的指标来描述分布的几何形状。

定义 偏度(Skewness)描述分布的不对称性。设样本的 kk 阶中心矩为 mk=1n(xixˉ)km_k = \frac{1}{n} \sum (x_i - \bar{x})^k ,则样本偏度定义为:

g1=m3m23/2=1n(xixˉ)3[1n(xixˉ)2]3/2g_1 = \frac{m_3}{m_2^{3/2}} = \frac{\frac{1}{n} \sum (x_i - \bar{x})^3}{\left[\frac{1}{n} \sum (x_i - \bar{x})^2\right]^{3/2}}

  • g1=0g_1 = 0 :分布对称(如正态分布);
  • g1>0g_1 > 0 :右偏(正偏),长尾在右侧;
  • g1<0g_1 < 0 :左偏(负偏),长尾在左侧。

定义 峰度(Kurtosis)描述分布形态的尖锐或平坦程度。样本超额峰度定义为:

g2=m4m223=1n(xixˉ)4[1n(xixˉ)2]23g_2 = \frac{m_4}{m_2^2} - 3 = \frac{\frac{1}{n} \sum (x_i - \bar{x})^4}{\left[\frac{1}{n} \sum (x_i - \bar{x})^2\right]^2} - 3

  • g2=0g_2 = 0 :分布的尖峭程度与正态分布一致;
  • g2>0g_2 > 0 :尖峰分布(Leptokurtic),相比正态分布更瘦高,尾部更厚;
  • g2<0g_2 < 0 :扁平分布(Platykurtic),分布较矮胖。

6. 多变量描述统计

当我们同时研究两个或多个变量时,需要考察它们之间的关联性。

定义 样本协方差(Sample Covariance)衡量两个变量 xxyy 共同变动的方向:

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})

定义 样本相关系数(Sample Correlation Coefficient)通常指 Pearson 相关系数,它是协方差的标准化形式:

r=sxysxsy=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2r = \frac{s_{xy}}{s_x s_y} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}

相关系数 rr 的取值范围在 [1,1][-1, 1] 之间。r=1r=1 表示完全正相关,r=1r=-1 表示完全负相关,r=0r=0 表示无线性相关。关于理论性质的深入探讨,请参考概率论中的数字特征章节。

6.1 例题:考试成绩分析

某班级 10 名同学的数学成绩如下:85, 92, 78, 88, 90, 85, 82, 95, 85, 100。

  • 均值 xˉ=88\bar{x} = 88
  • 众数:85(出现 3 次);
  • 排序后:78, 82, 85, 85, 85, 88, 90, 92, 95, 100。中位数为 (85+88)/2=86.5(85+88)/2 = 86.5
  • 极差 R=10078=22R = 100 - 78 = 22

6.2 例题:异常值检测

某组身高数据(单位:cm)的 Q1=160,Q3=175Q_1 = 160, Q_3 = 175 。 则 IQR=175160=15IQR = 175 - 160 = 15 。 内限下界 = 1601.515=137.5160 - 1.5 \cdot 15 = 137.5 ; 内限上界 = 175+1.515=197.5175 + 1.5 \cdot 15 = 197.5 。 若观测到身高为 210cm 的数据,根据箱线图准则应判定为异常值。

参考文献

  1. 陈希孺. 概率论与数理统计. 中国科学技术大学出版社, 2009.
  2. 盛骤, 谢式千, 潘承毅. 概率论与数理统计. 高等教育出版社, 2008.
  3. Freedman, D., Pisani, R., & Purves, R. Statistics. W. W. Norton & Company, 2007.