• 抽样误差
    • 概念:由于个体差异导致的样本统计量与总体参数之间的差异。
    • 均数的标准误:反映样本均数之间变异的标准差,计算公式为 $ S_{\bar{X}} = \frac{S}{\sqrt{n}} $。
    • 率的标准误:样本率的标准差,计算公式为 $ S_{P} = \sqrt{\frac{P(1-P)}{n}} $。

参数估计

「参数估计」指由样本统计量估计总体参数。常用的估计方式包括「点估计」和「区间估计」。

  • 点估计:用相应样本统计量简单直接的作为总体参数的估计值,如用$\bar X$估计$\mu$,用$S$估计$\sigma$,用$p$估计$\pi$。
  • 区间估计:按预先给定的概率$(1-\alpha)$,计算一个范围,这个范围包括未知的总体参数。
    • $(1-\alpha)$:置信度(通常取0.95或0.99)
    • 这个范围:置信区间(CI)

置信区间

  • 总体均数的区间估计
    • 当总体标准差σ已知时,使用标准正态分布计算可信区间。
    • 当总体标准差σ未知时,使用t分布计算可信区间,计算公式为 $ \bar{X} \pm t_{\frac{\alpha}{2}, n-1} \times SE_{\bar{X}} $。
  1. $\sigma$已知

如果$X$~$N(\mu,\sigma^2)$,则

$z = \frac{\bar X - \mu}{\sigma/\sqrt n}$符合标准正态分布。

即$z$~$N(0,1)$

则$z$的95%置信区间为$(-1.96,1.96)$,即$P(-1.96 \leq z \leq 1.96)=0.96$。

从而得到$X$的95%置信区间:$(\bar X - 1.96\sigma_{\bar X},\bar X + 1.96\sigma_{\bar X})$

  1. $\sigma$未知

此时可以用样本标准差$S$代替$\sigma$,此时

$z = \frac{\bar X - \mu}{S/\sqrt n}$符合「t分布」。

关于t分布

t分布:t分布曲线与「自由度($v = n-1$)」有关。
$v\uparrow$ ==> t分布曲线接近标准正态分布曲线
$v \rightarrow +\infty$ ==> t分布的极限就是标准正态分布

因此,应该通过「查找t界值」来计算置信区间。
如$v=24$,双侧概率$\alpha = 0.05$时,查得$t_{0.05/2, 24} = 2.064$,
此处2.064即为两侧尾部概率各位0.025的t界值。

则$z$的95%置信区间为$(-t_{\alpha/2, v},t_{\alpha/2, v})$,即$P(-t_{\alpha/2, v} \leq z \leq t_{\alpha/2, v})=0.96$。

从而得到$X$的95%置信区间:$(\bar X - t_{\alpha/2, v}\sigma_{\bar X},\bar X + t_{\alpha/2, v}\sigma_{\bar X})$

大样本情况下($n > 50$),t分布逼近标准正态分布。可以直接按照正态分布计算。

假设检验

从总体中随机抽样,由样本信息推断总体特征,除前面所讲的参数估计方法外,在实际应用中还会遇到这样的问题:「某一样本均数是否来自于某已知数的总体?两个不同样本均数是否来自均数不相等的总体?」等等。要回答这类问题,除可用前面参数估计的方法外,更多的是用统计推断的另一方面——假设检验 (Hypothesis test)。

假设检验(hypothesis test)」亦称「显著性检验(significant test)」,目的是定性比较总体参数之间有无差别总体分布是否相同

主要做法是假设样本来自参数相等的同一个总体,再推断是否可以猫很小的风险拒绝这一假设

主要利用小概率和反证法思想

基本步骤

  1. 建立假设和确定检验水准
  • 有两种假设:

    1. $H_0$ - 原假设,也称为无效假设或零假设。
      $H_0:\mu = \mu_0$

    2. $H_1$ - 备择假设,也成为对立假设。是与$H_0$互斥的假设(也就是在$H_0$被拒绝的情况下而接受的假设)。
      $H_0:\mu = \mu_0$

建立两个检验假设的同时,还必须给出检验水准。「检验水准」亦称「显著性水平」,用「$\alpha$」表示,是预先规定的一个小概率值,一般取「$\alpha = 0.05$」——如果真实情况是$H_0$成立,则拒绝$H_0$的概率不超过$0.05$。

  1. 选择检验方法和计算检验统计量

常用的检验方法包括t检验、z检验、F检验、卡方检验等。

  1. 根据$P$值做出统计推断

确定$P$值,需要先按前述$\alpha$水准查$t$界值表,得到检验用的临界值$t_{\alpha/2,v}$,然后将算得的$t$统计量与$t_{\alpha/2,v}$比较,$t$统计量所对应的尾部概率称为$P$值,概率$\alpha$所对应的区域称为拒绝域,$1-\alpha$为接受域。

假设检验中的两类错误

  • Ⅰ类错误:拒绝实际上成立的H0,其概率的最大值为α。
  • Ⅱ类错误:不拒绝实际上不成立的H0,当样本含量一定时,给定检验水准α值越小,出现Ⅱ类错误的概率越大。

假设检验与区间估计的区别

  • 假设检验:对两总体关系的一个定性决策,用于推断总体均数间是否不同。
  • 区间估计:对参数关系的定量概率描述,用于推断总体均数的具体数量范围,同时提示差别是否具有实际意义。