频数分布

相关的统计学指标

描述集中趋势

  1. 算数均数

    「算术均数」简称为「均数」。

    总体均数:$\mu$
    样本均数:$\bar X$

    均数计算包括「直接法」和「加权法」。

    直接法:$\bar X = \frac{\Sigma X}{n}$
    加权法:$\bar X = \frac{\Sigma fx}{n}$

    只有频数分布表的时候,只能使用加权法计算均数。此时:$x_k = (本组段下限 + 本组段上限)/2$

  2. 几何均数

    我讨厌这个东西。

    「几何均数」常用于血清学微生物学中。一些「偏态分布」的资料,经过对数变换后,呈「对称分布」,可以用几何均数描述平均水平。

    需要注意,观察值中不能有0或复数。

    几何均数:$G$

    计算方法:$G = \sqrt[n]{X_1 X_2 \ldots X_n}$
    更方便的计算方法:$G = lg^{-1}(\frac{\Sigma lgX}{n})$
    只有频数分布表的计算方法:$G = lg^{-1}(\frac{\Sigma flgx}{n})$

    一般而言,几何均数$G$小于算术均数$\bar X$。

  3. 百分位数

    「百分位数」的符号为$P_x$,表示前$x$%的数据小于$P_x$,后$1-x$%的数据大于$P_x$。

    常常多个百分位数结合使用描述数据。比如用$P_{75} - P_{75}$描述数据的分散程度,用$P_{2.5}$和$P_{97.5}$规定95%的医学参考值范围

    百分位数:$P_x$

    计算方法:$P_x = L+\frac{i_x}{f_x}*(nx $%$ -f_L)$

    参数说明:

    • $L$ - $P_x$所在组段的下限
    • $i_x$ - 组距
    • $f_x$ - 频数
    • $f_L$ - $P_x$所在组段之前的累计频数
    其中,比较特殊的是「中位数」,即$P_{50}$,用$M$表示。

    中位数:$M$

    计算方法:$M = L+\frac{i_M}{f_M}*(n \times 50 $%$ -f_L)$

    参数说明:

    • $L$ - $M$所在组段的下限
    • $i_M$ - 组距
    • $f_M$ - 频数
    • $f_L$ - $M$所在组段之前的累计频数
  4. 众数

    「众数」是指一组数据中出现最多次的原始数值。频数分布图的高峰位置即为众数。

描述变异程度

衡量变异大小的指标大体可以分为两类:按间距计算,比如极差和四分位数间距;按平均差距计算,比如方差、标准差和变异系数。

  1. 极差

    「极差」也称为「全距」。

    极差:$R$

    计算方法:$R = X_{max} - X_{min}$

  2. 四分位数间距

    极差容易受到极端值影响,这个时候可以使用「四分位数间距」。四分位数间距可以用于描述明显偏态分布资料的变异特征,并结合统计图应用。

    四分位数间距:$IQR$

    计算方法:$IQR = P_{75} - P_{25}$

  3. 方差

    「方差」可以衡量数据的变异程度。方差越大,数据变异程度越大

    总体方差:$\sigma^2$
    样本方差:$S^2$

    计算方法:$S^2 = \frac{\Sigma(X - \bar X)^2}{n-1}$

    其中,$\Sigma(X - \bar X)^2$称为「离均差平方和」。
    可推导:$\Sigma(X - \bar X)^2 = \Sigma X^2 - \frac{(\Sigma X)^2}{n}$
    分母$n-1$称为「自由度」。自由度表示在所有的n个离均差平方项中,由于样本均数的限制,只有n-1个离均差平方项是独立的。

    进而,可以认为——方差相当于对离均差平方和取平均值,方差值越大说明数据的变异越大。

  4. 标准差

    「标准差」,即将方差取算术平方根,还原成与原始观察值单位相同的变异量度。

    总体标准差:$\sigma$
    样本标准差:$S$或$SD$

    计算方法:$S = \sqrt{\frac{\Sigma(X - \bar X)^2}{n-1}} = \sqrt{\frac{\Sigma X^2 - (\Sigma X)^2/n}{n - 1}}$
    对频数表的计算方法:$S = \sqrt{\frac{\Sigma fx^2 - (\Sigma fx)^2/n}{n - 1}}$

  5. 变异系数

    「变异系数」用于对均数相差较大单位不同的「几组观察值」的变异程度进行比较。

    变异系数:$CV$

    计算方法:$CV = \frac{S}{\bar X} \times 100$%

    测得某地成年人舒张压的均数为77.5mmHg,标准差为10.7mmHg;收缩压的均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。

    舒张压和收缩压是两个不同的指标,如直接比较两个标准差,会得出收缩压变异较大的结论。可以使用「变异系数」比较。

    舒张压:
    $$
    CV = \frac{10.7}{77.5} = 0.1381
    $$

    收缩压:
    $$
    CV = \frac{17.1}{122.9} = 0.1391
    $$

    因此可以认为两种指标的变异度几乎没有什么差别