统计量
不含有任何位置参数的样本函数称为统计量。
例如,数据的算数平均数称为样本均值。
\(\overline x = \frac{1}{n} \sum_{i=1}^{n}x_i\)
估计量
用于估计未知参数的统计量称为点估计量。 参数\(\theta\)的估计量常用\(\hat \theta=\hat \theta(x_1,x_2,...x_n)\),表示,参数的可能取值范围是参数空间,记为\(\Theta = (\theta)\)。
这里的参数常常只如下几种: * 分布中所含有的位置参数; * 分布中的期望,方差,标准差,分位数,和特征值; * 某事件的概率; 一个参数的估计量通常不止一个,如何判断优劣?常用的标准有多个。如无偏性,有效性,均方误差最小,相合性等等。
设\(\hat \theta =\hat \theta(x_1,x_2,...x_n)\)是参数\(\theta\)的一个估计,对于参数空间\(\Theta=\theta\)中任意一个\(\theta\) 都有 \[ E(\hat \theta) = \theta, \forall \theta \in \Theta \] 则称\(\hat \theta\)为\(\theta\)的无偏估计,否则称为\(\theta\)有偏估计。
样本方差
统计学中常用的三个统计量是:
- 样本均值:\(\overline x = \frac{1}{n} \sum_{i=1}^{n}x_i\)
- 样本方差:\(s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\overline x)\)
- 样本标准差:\(s = \sqrt{s^2}\)
- 样本均值\(\overline x\)总位于数据中部,他是总体均值\(\mu\)的无偏估计,即\(E(\overline x) = \mu\)
- \(x_i\)对\(\overline x\)的偏差\(x_i-\overline x\)可正可负,其和恒为零,\(\sum_{i=1}^{n}(x_i-\overline x) = 0\) 这个等式表明: n个偏差中只有n-1个是独立的,第n个可以根据其和为0的公式计算得出。 在统计中独立偏差的个数称为自由度,记为\(f\),故n个偏差有n-1个自由度,即\(f= n-1\)。
- 全部的偏差之和恒为零,故样本偏差只和不能累加起来,不能直接用来度量样本散布大小,而改为样本偏差平方和\(Q\). \[ Q = \sum_{i=1}^{n}(x_i-\overline x)^2 \]
在样本量不同的场合,偏差平方和\(Q\)失去了比较样本散布大小的公平性。为了消除样本量大小对偏差平方和的干扰,改用平均偏差平方和\(s_n^2\)来度量, \[ s_n^2 = \frac{Q}{n} = \frac{1}{n} \sum_{i=1}^{n}(x_i-\overline x)^2 \] 样本方差\(s_n^2\)是总体方差\(\sigma^2\)的一个估计。
\(s_n^2\)的改进。无论从理论还是实际使用中,用样本方差\(s_n^2\)估计总体方差\(\sigma^2\)多数情况下是偏小的。 证明如下:
\[\begin{equation} \begin{aligned} s_n^2 & = \frac{1}{n}\sum_{i=1}{n}(x_i-\overline x)^2 \\ &= \frac{1}{n}\sum_{i=1}^{n}(x_i^2 - 2x_i\overline x + \overline x^2) \\ & = \frac{1}{n}\sum_{i=1}^{n}x_i^2 - 2\frac{1}{n}\sum_{i=1}^{n}x_i \cdot \overline x + \overline x^2 \\ & = \frac{1}{n}\sum_{i=1}^{n}x_i^2 - \overline x^2 \\ \end{aligned} \end{equation}\]
为了求\(E(s_n^2)\),先求\(E(x_i^2),E(\overline x^2)\),
根据方差基本性质,方差和均值关系证明, 样本均值是总体期望的无偏估计,
- \(E(x_i^2) = Var(x_i) + (E(x_i))^2=\sigma^2 + \mu^2\)
- \(E(\overline x^2) = Var(\overline x) + (E(\overline x))^2 = Var(\frac{\sum x_i}{n})+\mu^2=\frac{1}{n^2}Var(\sum x_i) + \mu^2 = \frac{n\sigma^2}{n^2} + \mu^2 = \frac{\sigma^2}{n} + \mu^2\)
所以 \[ E(s_n^2) = \frac{1}{n}\sum_{i=1}^{n}(\sigma^2+\mu^2) - (\frac{\sigma^2}{n} + \mu^2) = (1-\frac{1}{n})\sigma^2 \le \sigma^2 \]
\(s_n^2\)是总体方差\(\sigma^2\)的有偏估计。
\[ s^2 = \frac{Q}{f} = \frac{1}{n-1}\sum_{i=1}{n}(x_i-\overline x)^2 \] \(s^2\)是总体方差的无偏估计,自由度是n-1。
证明: \[ E(s^2) = E(\frac{n}{n-1}s_n^2) = \frac{n}{n-1}(1-\frac{1}{n})\sigma^2 = \sigma^2 \]