描述统计
描述统计是数据分析的第一步,它的核心目标是通过图表、表格和数值指标,对收集到的数据进行整理、组织和概括,从而揭示数据内部蕴含的规律。在实际研究中,原始数据往往是杂乱无章的,描述统计能帮助我们直观地理解数据的分布特征、集中趋势以及离散程度,为后续的推断统计奠定基础。
1. 数据的收集与整理
在进行统计分析之前,我们首先需要明确数据的类型。
1.1 数据类型
统计数据通常分为 定性数据(Qualitative Data)和 定量数据(Quantitative Data)。定性数据描述事物的属性或类别,如性别、颜色;定量数据则描述事物的数量特征,如身高、收入。定量数据进一步分为 离散型(Discrete)和 连续型(Continuous)。离散型数据取值通常为整数,如家庭人口数;连续型数据可以在某个区间内取任何值,如考试成绩或测量时间。
1.2 频率分布
为了从宏观上把握数据的分布情况,我们需要对原始数据进行归纳。
定义 频率分布(Frequency Distribution)是将数据按照取值大小或类别进行分组,并列出各组中观测值出现的次数(频数)及其占总观测次数比例(频率)的一种整理方式。
对于定量数据,构造频率分布表与频率直方图的步骤如下:
- 确定极差 ;
- 确定组数 和组距 ;
- 确定各组的边界,确保数据不重不漏;
- 统计各组的频数 ;
- 计算频率 。
1.3 频率直方图
频率直方图是频率分布的图形表示。在直角坐标系中,横轴表示数据的取值区间,纵轴为“频率/组距”。
频率直方图的一个重要性质是:所有矩形的面积之和等于 。
这使得直方图的面积可以直接对应于数据落在某个区间的比例,这与概率密度函数的概念非常相似。
2. 中心趋势的度量
中心趋势描述了数据分布的“中心”位置,即数据倾向于向哪个数值聚集。
定义 样本均值(Sample Mean)是所有观测值的算术平均值。设样本容量为 ,样本观测值为 ,则样本均值定义为:
定义 中位数(Median)是将样本观测值按大小顺序排列后,位于中间位置的数值。若 为奇数,则中位数为第 个观测值;若 为偶数,则为中间两个观测值的平均值。中位数对异常值(Outliers)具有鲁棒性。
定义 众数(Mode)是样本中出现频率最高的数值。一个分布可能有多个众数,也可能没有众数。
2.1 三者的比较
在对称分布中,均值、中位数和众数通常重合。但在 偏态分布(Skewed Distribution)中,它们会产生分离。对于右偏分布(长尾在右),通常有:均值 > 中位数 > 众数。在实际应用中,如果数据中存在极端值(如人均收入统计),中位数往往比均值更能代表“普通人”的水平。
定义 加权平均(Weighted Mean)是给不同观测值分配不同权重的平均值,计算公式为:
定义 截尾均值(Trimmed Mean)是为了消除异常值影响,在排序后去掉两端一定比例(如上下各 5% )的数据后计算得到的均值。
3. 离散程度的度量
仅有中心趋势是不够的,我们还需要知道数据分布的疏密程度。
定义 极差(Range)是样本中最大值与最小值之差, 。它计算简单,但极易受极端值影响。
定义 四分位距(Interquartile Range, IQR)是第三四分位数与第一四分位数之差, 。它反映了中间 50% 数据的波动范围。
定义 样本方差(Sample Variance)描述了观测值偏离均值的平均程度,定义为:
为什么分母是 而不是 ?
这是为了保证样本方差是总体方差的无偏估计。在计算方差时,我们使用了样本均值 ,这消耗了一个自由度。如果除以 ,计算出的方差会系统性地偏小。关于无偏性的严格证明,可以参考 第一章 的相关推导。
定义 样本标准差(Sample Standard Deviation)是样本方差的算术平方根 。它的单位与原观测值相同,更易于解释。
定义 变异系数(Coefficient of Variation)是标准差与均值的比值,通常以百分比表示:
变异系数消除了量纲的影响,常用于比较均值差异较大的两组数据的离散程度(如比较大象和老鼠的体重波动)。
4. 分位数与箱线图
分位数将有序数据集划分为等分的区间。
定义 分位数(Quantile)又称分位点。对于 , 分位数是这样一个值,它使得至少有 个观测值小于或等于该值,且至少有 个观测值大于或等于该值。
常用的四分位数包括:
- (第一四分位数,25 分位数)
- (中位数,50 分位数)
- (第三四分位数,75 分位数)
定义 箱线图(Box Plot)是一种基于五数概括(最小值、、、、最大值)展示数据分布的图形工具。其核心是一个覆盖 到 的矩形“箱子”,并在中位数处画一条线。
异常值判定:在箱线图中,通常将落在区间 之外的数据点定义为异常值。箱线图能直观地显示数据的偏斜程度和离散度,并识别潜在的错误数据。
5. 分布形状的度量
除了中心和散布,我们还需要定量的指标来描述分布的几何形状。
定义 偏度(Skewness)描述分布的不对称性。设样本的 阶中心矩为 ,则样本偏度定义为:
- :分布对称(如正态分布);
- :右偏(正偏),长尾在右侧;
- :左偏(负偏),长尾在左侧。
定义 峰度(Kurtosis)描述分布形态的尖锐或平坦程度。样本超额峰度定义为:
- :分布的尖峭程度与正态分布一致;
- :尖峰分布(Leptokurtic),相比正态分布更瘦高,尾部更厚;
- :扁平分布(Platykurtic),分布较矮胖。
6. 多变量描述统计
当我们同时研究两个或多个变量时,需要考察它们之间的关联性。
定义 样本协方差(Sample Covariance)衡量两个变量 和 共同变动的方向:
定义 样本相关系数(Sample Correlation Coefficient)通常指 Pearson 相关系数,它是协方差的标准化形式:
相关系数 的取值范围在 之间。 表示完全正相关, 表示完全负相关, 表示无线性相关。关于理论性质的深入探讨,请参考概率论中的数字特征章节。
6.1 例题:考试成绩分析
某班级 10 名同学的数学成绩如下:85, 92, 78, 88, 90, 85, 82, 95, 85, 100。
- 均值 ;
- 众数:85(出现 3 次);
- 排序后:78, 82, 85, 85, 85, 88, 90, 92, 95, 100。中位数为 。
- 极差 。
6.2 例题:异常值检测
某组身高数据(单位:cm)的 。 则 。 内限下界 = ; 内限上界 = 。 若观测到身高为 210cm 的数据,根据箱线图准则应判定为异常值。
参考文献
- 陈希孺. 概率论与数理统计. 中国科学技术大学出版社, 2009.
- 盛骤, 谢式千, 潘承毅. 概率论与数理统计. 高等教育出版社, 2008.
- Freedman, D., Pisani, R., & Purves, R. Statistics. W. W. Norton & Company, 2007.