你是否困惑于为什么样本方差的分母是$n-1$呢?如果是,那就往下看吧。
样本与总体
生活中有很多统计学问题,比如说高中生的身高分布等。在处理相关问题时,一定要区分开样本与整体的概念。为了反映问题的分布特征,常常考虑的量为数学期望与方差。理想情况下,只需要取得问题内的所有数据,就可以求出期望与方差。但是,很多情况下,这是不可能的,因为数据量太大了。而我们更常用的方法是,取这个总体中的一定数量的样本,对这些样本进行分析,用这些部分样本的特征反映总体的特征。
因此,当你取不同的样本的时候,得到的期望和方差往往是不同的。所以不仅仅样本是随机变量,得到的期望和方差也是随机变量。那么,这就引入了一个问题,什么样的样本期望和样本方差能够更好的反映整体呢?这就需要引入无偏估计的概念。
无偏估计
无偏估计的定义为:估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性。概念是很好理解的,下面具体说明一下。
对于一个问题,这个问题是有一个理论的期望和方差的,记为$\mu$和$\sigma^2$,这两个值为真实值。假如你取得了一组样本,为$x_1,x_2,...,x_n$,那么我们可以通过计算得出样本期望$\bar{x}$和样本方差$s^2$,为估计值。取不同的样本时,$\bar{x}$和$s$会在真实值附近来回摆动,那么什么情况是最好的呢?显然,当$\bar{x}$和$s$的数学期望等于真实值时,那么可以最好的反映总体特征,满足这个条件,就称为无偏估计量。
我们知道,总体期望和总体方差的计算公式为:
$$
\mu=\frac{1}{n}\sum_{i=1}^{n}x_i
$$
$$
\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2
$$
注意,上面的n为问题所涉及到的样本的总数。
显然,我们可以发现,样本平均值$\bar{x}$为总体期望$\mu$的无偏估计量。
$$
\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i
$$
样本方差
我们知道,方差是二次项求和,于是可以本能的想到,样本方差就没有样本期望那么简单了。我们先将样本按照总体方差的公式得到一个值,计算一下它的期望,看它是不是等于总体方差。
$$
\begin{aligned}
E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right] &= E\left[\frac{1}{n}\sum_{i=1}^{n}\left((x_i-\mu)-(\bar{x}-\mu)\right)^2 \right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{x}-\mu) + \frac{1}{n}\sum_{i=1}^{n}(\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}(x_i-\mu) + \frac{1}{n}\sum_{i=1}^{n}(\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -2(\bar{x}-\mu)^2 + (\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -(\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right] -E\left[(\bar{x}-\mu)^2 \right] \\
&= \sigma^2-E\left[(\bar{x}-\mu)^2 \right]
\end{aligned}
$$
由于$\bar{x}\ne \mu$,左边并不等于真实值$\sigma^2$,因此我们可以得出结论,$\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$并不是总体方差的无偏估计。那么总体方差的无偏估计是什么呢?首先对多余的那一项进行处理。
$$
E\left[(\bar{x}-\mu)^2 \right]=E\left[\frac{1}{n}\sum_{i=1}^{n}(\bar{x}-\mu)^2 \right]
$$
右边这个是$\bar{x}$的方差,我们记为$\sigma_\bar{x}^2=D(\bar{x})$。将其转化到$x$上去,根据方差的性质进行化简:
$$
\begin{aligned}
D(\bar{x})&=D\left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) \\
&=\frac{1}{n^2}D\left(\sum_{i=1}^{n}x_i \right) \\
&=\frac{1}{n^2}\sum_{i=1}^{n}D(x_i) \\
&=\frac{1}{n^2}\sum_{i=1}^{n}\sigma^2 \\
&=\frac{1}{n^2}n\sigma^2 \\
&=\frac{1}{n}\sigma^2
\end{aligned}
$$
其中,第三步是由于样本与样本之间是独立的。
代入到之前的式子中,可以得到:
$$
E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right]=\sigma^2-\frac{1}{n}\sigma^2=\frac{n-1}{n}\sigma^2
$$
那么,我们将$\frac{n-1}{n}$移至左边,可以得到:
$$
E\left[\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right]=\sigma^2
$$
于是我们可以发现,总体方差的无偏估计量出现了!那就是:
$$
s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$
而这就是样本方差的公式,前面的分母为$n-1$,无偏性的要求正是为什么样本方差分母为$n-1$的原因。
写在最后
最近在准备期末考试,复习到误差理论时,被这个$n-1$困惑了很久,于是上网找了找资料终于搞清楚原因了,特此记录一下。
由于我很久没有学过概率论了,因此本文可能没有那么严谨,如有错误欢迎指正。