样本方差和总体方差
本文最后更新于506 天前,其中的信息可能已经过时,如有错误请发送邮件到lysun26@163.com

你是否困惑于为什么样本方差的分母是$n-1$呢?如果是,那就往下看吧。


样本与总体

生活中有很多统计学问题,比如说高中生的身高分布等。在处理相关问题时,一定要区分开样本与整体的概念。为了反映问题的分布特征,常常考虑的量为数学期望与方差。理想情况下,只需要取得问题内的所有数据,就可以求出期望与方差。但是,很多情况下,这是不可能的,因为数据量太大了。而我们更常用的方法是,取这个总体中的一定数量的样本,对这些样本进行分析,用这些部分样本的特征反映总体的特征

因此,当你取不同的样本的时候,得到的期望和方差往往是不同的。所以不仅仅样本是随机变量,得到的期望和方差也是随机变量。那么,这就引入了一个问题,什么样的样本期望和样本方差能够更好的反映整体呢?这就需要引入无偏估计的概念。

无偏估计

无偏估计的定义为:估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性。概念是很好理解的,下面具体说明一下。

对于一个问题,这个问题是有一个理论的期望和方差的,记为$\mu$和$\sigma^2$,这两个值为真实值。假如你取得了一组样本,为$x_1,x_2,...,x_n$,那么我们可以通过计算得出样本期望$\bar{x}$和样本方差$s^2$,为估计值。取不同的样本时,$\bar{x}$和$s$会在真实值附近来回摆动,那么什么情况是最好的呢?显然,当$\bar{x}$和$s$的数学期望等于真实值时,那么可以最好的反映总体特征,满足这个条件,就称为无偏估计量。

我们知道,总体期望和总体方差的计算公式为:

$$
\mu=\frac{1}{n}\sum_{i=1}^{n}x_i
$$

$$
\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2
$$

注意,上面的n为问题所涉及到的样本的总数。

显然,我们可以发现,样本平均值$\bar{x}$为总体期望$\mu$的无偏估计量

$$
\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i
$$

样本方差

我们知道,方差是二次项求和,于是可以本能的想到,样本方差就没有样本期望那么简单了。我们先将样本按照总体方差的公式得到一个值,计算一下它的期望,看它是不是等于总体方差。

$$
\begin{aligned}
E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right] &= E\left[\frac{1}{n}\sum_{i=1}^{n}\left((x_i-\mu)-(\bar{x}-\mu)\right)^2 \right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{x}-\mu) + \frac{1}{n}\sum_{i=1}^{n}(\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}(x_i-\mu) + \frac{1}{n}\sum_{i=1}^{n}(\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -2(\bar{x}-\mu)^2 + (\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 -(\bar{x}-\mu)^2\right] \\
&= E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right] -E\left[(\bar{x}-\mu)^2 \right] \\
&= \sigma^2-E\left[(\bar{x}-\mu)^2 \right]
\end{aligned}
$$

由于$\bar{x}\ne \mu$,左边并不等于真实值$\sigma^2$,因此我们可以得出结论,$\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$并不是总体方差的无偏估计。那么总体方差的无偏估计是什么呢?首先对多余的那一项进行处理。

$$
E\left[(\bar{x}-\mu)^2 \right]=E\left[\frac{1}{n}\sum_{i=1}^{n}(\bar{x}-\mu)^2 \right]
$$

右边这个是$\bar{x}$的方差,我们记为$\sigma_\bar{x}^2=D(\bar{x})$。将其转化到$x$上去,根据方差的性质进行化简:

$$
\begin{aligned}
D(\bar{x})&=D\left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) \\
&=\frac{1}{n^2}D\left(\sum_{i=1}^{n}x_i \right) \\
&=\frac{1}{n^2}\sum_{i=1}^{n}D(x_i) \\
&=\frac{1}{n^2}\sum_{i=1}^{n}\sigma^2 \\
&=\frac{1}{n^2}n\sigma^2 \\
&=\frac{1}{n}\sigma^2
\end{aligned}
$$

其中,第三步是由于样本与样本之间是独立的

代入到之前的式子中,可以得到:

$$
E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right]=\sigma^2-\frac{1}{n}\sigma^2=\frac{n-1}{n}\sigma^2
$$

那么,我们将$\frac{n-1}{n}$移至左边,可以得到:

$$
E\left[\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right]=\sigma^2
$$

于是我们可以发现,总体方差的无偏估计量出现了!那就是:

$$
s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$

而这就是样本方差的公式,前面的分母为$n-1$,无偏性的要求正是为什么样本方差分母为$n-1$的原因


写在最后

最近在准备期末考试,复习到误差理论时,被这个$n-1$困惑了很久,于是上网找了找资料终于搞清楚原因了,特此记录一下。

由于我很久没有学过概率论了,因此本文可能没有那么严谨,如有错误欢迎指正。

有问题可以留言哦~ 觉得有帮助也可以投喂一下博主,感谢~
文章链接:https://www.corrain.top/yangbenfangcha/
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明文章地址及作者
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
( ゜- ゜)つロ
_(:з」∠)_
(⌒▽⌒)
( ̄▽ ̄)
(=・ω・=)
(*°▽°*)八(*°▽°*)♪
✿ヽ(°▽°)ノ✿
(¦3【▓▓】
눈_눈
(ಡωಡ)
_(≧∇≦」∠)_
━━━∑(゚□゚*川━
(`・ω・´)
( ̄3 ̄)
✧(≖ ◡ ≖✿)
(・∀・)
(〜 ̄△ ̄)〜
→_→
(°∀°)ノ
╮( ̄▽ ̄)╭
( ´_ゝ`)
←_←
(;¬_¬)
(゚Д゚≡゚д゚)!?
( ´・・)ノ(._.`)
Σ(゚д゚;)
Σ(  ̄□ ̄||)<
(´;ω;`)
(/TДT)/
(^・ω・^)
(。・ω・。)
(● ̄(エ) ̄●)
ε=ε=(ノ≧∇≦)ノ
(´・_・`)
(-_-#)
( ̄へ ̄)
( ̄ε(# ̄) Σ
(╯°口°)╯(┴—┴
ヽ(`Д´)ノ
("▔□▔)/
(º﹃º )
(๑>؂<๑)
。゚(゚´Д`)゚。
(∂ω∂)
(┯_┯)
(・ω< )★
( ๑ˊ•̥▵•)੭₎₎
¥ㄟ(´・ᴗ・`)ノ¥
Σ_(꒪ཀ꒪」∠)_
٩(๛ ˘ ³˘)۶❤
(๑‾᷅^‾᷅๑)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
小黄脸
热词系列一
tv_小电视
上一篇
下一篇