频数分布
相关的统计学指标
描述集中趋势
算数均数
「算术均数」简称为「均数」。
总体均数:$\mu$
样本均数:$\bar X$均数计算包括「直接法」和「加权法」。
直接法:$\bar X = \frac{\Sigma X}{n}$
加权法:$\bar X = \frac{\Sigma fx}{n}$只有频数分布表的时候,只能使用加权法计算均数。此时:$x_k = (本组段下限 + 本组段上限)/2$
几何均数
我讨厌这个东西。「几何均数」常用于血清学和微生物学中。一些「偏态分布」的资料,经过对数变换后,呈「对称分布」,可以用几何均数描述平均水平。
需要注意,观察值中不能有0或复数。
几何均数:$G$
计算方法:$G = \sqrt[n]{X_1 X_2 \ldots X_n}$
更方便的计算方法:$G = lg^{-1}(\frac{\Sigma lgX}{n})$
只有频数分布表的计算方法:$G = lg^{-1}(\frac{\Sigma flgx}{n})$一般而言,几何均数$G$小于算术均数$\bar X$。
百分位数
「百分位数」的符号为$P_x$,表示前$x$%的数据小于$P_x$,后$1-x$%的数据大于$P_x$。
常常多个百分位数结合使用描述数据。比如用$P_{75} - P_{75}$描述数据的分散程度,用$P_{2.5}$和$P_{97.5}$规定95%的医学参考值范围。
百分位数:$P_x$
计算方法:$P_x = L+\frac{i_x}{f_x}*(nx $%$ -f_L)$
参数说明:
- $L$ - $P_x$所在组段的下限。
- $i_x$ - 组距。
- $f_x$ - 频数。
- $f_L$ - $P_x$所在组段之前的累计频数。
中位数:$M$
计算方法:$M = L+\frac{i_M}{f_M}*(n \times 50 $%$ -f_L)$
参数说明:
- $L$ - $M$所在组段的下限。
- $i_M$ - 组距。
- $f_M$ - 频数。
- $f_L$ - $M$所在组段之前的累计频数。
众数
「众数」是指一组数据中出现最多次的原始数值。频数分布图的高峰位置即为众数。
描述变异程度
衡量变异大小的指标大体可以分为两类:按间距计算,比如极差和四分位数间距;按平均差距计算,比如方差、标准差和变异系数。
极差
「极差」也称为「全距」。
极差:$R$
计算方法:$R = X_{max} - X_{min}$
四分位数间距
极差容易受到极端值影响,这个时候可以使用「四分位数间距」。四分位数间距可以用于描述明显偏态分布资料的变异特征,并结合统计图应用。
四分位数间距:$IQR$
计算方法:$IQR = P_{75} - P_{25}$
方差
「方差」可以衡量数据的变异程度。方差越大,数据变异程度越大。
总体方差:$\sigma^2$
样本方差:$S^2$计算方法:$S^2 = \frac{\Sigma(X - \bar X)^2}{n-1}$
其中,$\Sigma(X - \bar X)^2$称为「离均差平方和」。
可推导:$\Sigma(X - \bar X)^2 = \Sigma X^2 - \frac{(\Sigma X)^2}{n}$
分母$n-1$称为「自由度」。自由度表示在所有的n个离均差平方项中,由于样本均数的限制,只有n-1个离均差平方项是独立的。进而,可以认为——方差相当于对离均差平方和取平均值,方差值越大说明数据的变异越大。
标准差
「标准差」,即将方差取算术平方根,还原成与原始观察值单位相同的变异量度。
总体标准差:$\sigma$
样本标准差:$S$或$SD$计算方法:$S = \sqrt{\frac{\Sigma(X - \bar X)^2}{n-1}} = \sqrt{\frac{\Sigma X^2 - (\Sigma X)^2/n}{n - 1}}$
对频数表的计算方法:$S = \sqrt{\frac{\Sigma fx^2 - (\Sigma fx)^2/n}{n - 1}}$变异系数
「变异系数」用于对均数相差较大或单位不同的「几组观察值」的变异程度进行比较。
变异系数:$CV$
计算方法:$CV = \frac{S}{\bar X} \times 100$%
例
测得某地成年人舒张压的均数为77.5mmHg,标准差为10.7mmHg;收缩压的均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。
舒张压和收缩压是两个不同的指标,如直接比较两个标准差,会得出收缩压变异较大的结论。可以使用「变异系数」比较。
舒张压:
$$
CV = \frac{10.7}{77.5} = 0.1381
$$收缩压:
$$
CV = \frac{17.1}{122.9} = 0.1391
$$因此可以认为两种指标的变异度几乎没有什么差别。