## 樣本平均數、變異數和共變異數

\displaystyle\begin{aligned} E(a)&=\frac{1}{n-1}\sum_{i=1}^n(x_i-a)^2=\frac{1}{n-1}\begin{bmatrix} x_1-a&\cdots&x_n-a \end{bmatrix}\begin{bmatrix} x_1-a\\ \vdots\\ x_n-a \end{bmatrix}\\ &=\frac{1}{n-1}(\mathbf{x}-a\mathbf{1})^T(\mathbf{x}-a\mathbf{1})=\frac{1}{n-1}\Vert \mathbf{x}-a\mathbf{1}\Vert^2,\end{aligned}

$m$ 表示滿足最小化均方誤差的 $a$ 值。投影後的殘餘量 $\mathbf{x}-m\mathbf{1}$ 與直線 $\mathcal{L}$ 的指向向量 $\mathbf{1}$ 正交，即

$\displaystyle (\mathbf{x}-m\mathbf{1})^T\mathbf{1}=\sum_{i=1}^n(x_i-m)=0$

$\displaystyle m=\frac{1}{n}\sum_{i=1}^nx_i$

$\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-m)^2=\frac{1}{n-1}\Vert\mathbf{x}-m\mathbf{1}\Vert^2$

$\mathbf{x}-m\mathbf{1}=c_1\mathbf{v}_1+\cdots+c_{n-1}\mathbf{v}_{n-1}$

\begin{aligned} \Vert\mathbf{x}-m\mathbf{1}\Vert^2&=(c_1\mathbf{v}_1+\cdots+c_{n-1}\mathbf{v}_{n-1})^T(c_1\mathbf{v}_1+\cdots+c_{n-1}\mathbf{v}_{n-1})\\ &=c_1^2\mathbf{v}_1^T\mathbf{v}_1+\cdots+c_{n-1}^2\mathbf{v}_{n-1}^T\mathbf{v}_{n-1}\\ &=c_1^2\Vert\mathbf{v}_1\Vert^2+\cdots+c_{n-1}^2\Vert\mathbf{v}_{n-1}\Vert^2\\ &=c_1^2+\cdots+c_{n-1}^2,\end{aligned}

$\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^{n-1}c_i^2$

$\displaystyle m_x=\frac{1}{n}\sum_{i=1}^nx_i,~~m_y=\frac{1}{n}\sum_{i=1}^ny_i$

$\displaystyle s^2_x=\frac{1}{n-1}\sum_{i=1}^n(x_i-m_x)^2,~~s^2_y=\frac{1}{n-1}\sum_{i=1}^n(y_i-m_y)^2$

$\displaystyle s_{xy}=\frac{1}{n-1}\sum_{i=1}^n(x_i-m_x)(y_i-m_y)$

$\displaystyle s_{xy}=\frac{1}{n-1}(\mathbf{x}-m_x\mathbf{1})^T(\mathbf{y}-m_y\mathbf{1})$

$\mathbf{x}-m_x\mathbf{1}$$\mathbf{y}-m_y\mathbf{1}$ 寫成 $\{\mathbf{v}_1,\ldots,\mathbf{v}_{n-1}\}$ 的線性組合：

\begin{aligned} \mathbf{x}-m_x\mathbf{1}&=c_1\mathbf{v}_1+\cdots+c_{n-1}\mathbf{v}_{n-1},\\ \mathbf{y}-m_y\mathbf{1}&=d_1\mathbf{v}_1+\cdots+d_{n-1}\mathbf{v}_{n-1}, \end{aligned}

\displaystyle\begin{aligned} (\mathbf{x}-m_x\mathbf{1})^T(\mathbf{y}-m_y\mathbf{1})&=(c_1\mathbf{v}_1+\cdots+c_{n-1}\mathbf{v}_{n-1})^T(d_1\mathbf{v}_1+\cdots+d_{n-1}\mathbf{v}_{n-1})\\ &=c_1d_1+\cdots+c_{n-1}d_{n-1},\end{aligned}

$\displaystyle E(a,b)=\frac{1}{n-1}\sum_{i=1}^n(y_i-a-bx_i)^2$

$\begin{bmatrix} n&\sum_{i=1}^nx_i\\ \sum_{i=1}^nx_i&\sum_{i=1}^nx_i^2 \end{bmatrix}\begin{bmatrix} a\\ b \end{bmatrix}=\begin{bmatrix} \sum_{i=1}^ny_i\\ \sum_{i=1}^nx_iy_i \end{bmatrix}$

$\displaystyle E(\tilde{a},b)=\frac{1}{n-1}\sum_{i=1}^n((y_i-m_y)-\tilde{a}-b(x_i-m_x))^2$

$\begin{bmatrix} n&\sum_{i=1}^n(x_i-m_x)\\ \sum_{i=1}^n(x_i-m_x)&\sum_{i=1}^n(x_i-m_x)^2 \end{bmatrix}\begin{bmatrix} \tilde{a}\\ b \end{bmatrix}=\begin{bmatrix} \sum_{i=1}^n(y_i-m_y)\\ \sum_{i=1}^n(x_i-m_x)(y_i-m_y) \end{bmatrix}$

$\begin{bmatrix} \frac{n}{n-1}&0\\ 0&s_x^2 \end{bmatrix}\begin{bmatrix} \tilde{a}\\ b \end{bmatrix}=\begin{bmatrix} 0\\ s_{xy} \end{bmatrix}$

$\displaystyle y=m_y+\frac{s_{xy}}{s_x^2}(x-m_x)$

\displaystyle\begin{aligned} E\left(0,\frac{s_{xy}}{s_x^2}\right)&=\frac{1}{n-1}\sum_{i=1}^n\left((y_i-m_y)-\frac{s_{xy}}{s_x^2}(x_i-m_x)\right)^2\\ &=\frac{1}{n-1}\sum_{i=1}^n\left((y_i-m_y)^2-2\frac{s_{xy}}{s_x^2}(y_i-m_y)(x_i-m_x)+\frac{s_{xy}^2}{s_x^4}(x_i-m_x)^2\right)\\ &=\frac{1}{n-1}\sum_{i=1}^n(y_i-m_y)^2-2\frac{s_{xy}}{s_x^2}\frac{1}{n-1}\sum_{i=1}^n(y_i-m_y)(x_i-m_x)+\frac{s_{xy}^2}{s_x^4}\frac{1}{n-1}\sum_{i=1}^n(x_i-m_x)^2\\ &=s_y^2-\frac{s_{xy}^2}{s_x^2}\\ &=s_y^2(1-r_{xy}^2),\end{aligned}

$\displaystyle r_{xy}=\frac{s_{xy}}{s_xs_y}$

$\displaystyle \frac{y-m_y}{s_y}=r_{xy}\left(\frac{x-m_x}{s_x}\right)$

$\displaystyle \cos\theta=\frac{(\mathbf{x}-m_x\mathbf{1})^T(\mathbf{y}-m_y\mathbf{1})}{\Vert\mathbf{x}-m_x\mathbf{1}\Vert\cdot\Vert\mathbf{y}-m_y\mathbf{1}\Vert}$

[1] 令 $m$ 表示使得均方誤差 $E(a)$ 最小化的 $a$ 值。對均方誤差 $E(a)$ 求導，

\displaystyle \begin{aligned} \frac{dE}{da}&=\frac{d}{da}\left(\frac{1}{n-1}\sum_{i=1}^n(x_i-a)^2\right)\\ &=\frac{1}{n-1}\sum_{i=1}^n\frac{d}{da}(x_i-a)^2\\ &=\frac{2}{n-1}\sum_{i=1}^n(a-x_i)\\ &=\frac{2}{n-1}\left(na-\sum_{i=1}^nx_i\right). \end{aligned}

[2] 令 $m=\frac{1}{n}\sum_{i=1}^nx_i$。寫出

\displaystyle\begin{aligned} \sum_{i=1}^n(x_i-a)^2&=\sum_{i=1}^n\left((x_i-m)+(m-a)\right)^2\\ &=\sum_{i=1}^n\left((x_i-m)^2+(m-a)^2+2(x_i-m)(m-a)\right)\\ &=\sum_{i=1}^n(x_i-m)^2+n(m-a)^2+2\left(\sum_{i=1}^nx_i-nm\right)(m-a).\\ \end{aligned}

$\displaystyle \sum_{i=1}^n(x_i-a)^2=\sum_{i=1}^n(x_i-m)^2+n(m-a)^2$

This entry was posted in 機率統計 and tagged , , , , , , , . Bookmark the permalink.

### 15 則回應給 樣本平均數、變異數和共變異數

1. Chenlogy 說：

看完這篇,有種萬物同源的感覺.

• ccjou 說：

或者這麼說：線性代數已佔據應用數學的中心地帶。

2. 延伸寸 說：

正在修數理統計。這篇佳作 comes just in time.
(1) 自由度 n-1 有沒有更 intuitive 的解釋？
(2) 有沒有類似文章的參考？

• ccjou 說：

(1) 就我個人而言，線性代數觀點(或者說幾何觀點)是最具直覺的解釋。一般統計學常見的說法是這樣：$x_1,x_2,\ldots,x_n$ 共有 $n$ 個自由度，扣除樣本平均數 $m=\frac{1}{n}\sum_ix_i$ 此一個限制後，剩下 $n-1$ 個自由度。或者說，你可以隨意選擇 $x_1,x_2,\ldots,x_{n-1}$，但是最後 $x_n$ 僅有唯一選擇，因為要符合平均數是 $m$ 此一限制。
(2) http://www.math.uah.edu/stat/index.html
請見 5. Random samples

3. Watt Lin 說：

25年前，我在高中時期，也曾經思考「自由度」為何是 n-1 ？
假如 n 很大， n 與 n-1的差別不顯著。
若 n=3，舉個例子：7, 8, 9三個數字，平均值為8，
7與8差1，
9與8也是差1，
直覺看來，標準差是1。
上例當中，7, 8, 9三個數字，使用計算標準差的公式，除以 (n-1) ，恰好得到與直覺相同的答案。
當年，聽高中老師講「自由度」，實際上，我沒聽懂，也不敢在課堂上發問，只好自己擬個「直覺」方法。不知其他同學的看法如何？高中課程，進度很趕，學生能夠記住公式，就很好了！大概沒有多餘的時間去探究「為什麼？」
現在看到大俠解說，心裡多年的疑問，算是得到釋懷。

• ccjou 說：

David Salsburg 寫了一本科普著作：The lady tasting tea: how statistics revolutionized science in the 20th century，中譯《統計改變了世界》，2001，天下文化出版，其中67頁說道：「自由度的新觀念」是費雪(英國統計學家)發現的，這與他特有的幾何洞察力，以及他把數學問題轉化成多維空間幾何的能力有直接關係。

我猜費雪所稱的自由度應該源於線性代數的子空間維度。或許目前修我的研究所課程的學生中也有些人仍不明白自由度是甚麼意思。

4. idleft 說：

老师，关于除以(n-1)的部分，我有一点不明白，希望您能帮我解答一下。您给出的（n-1）个自由度的解释，是不是说，其实这个变异数是在（n-1）个方向上的平均值？
另外，我之前也因为这个问题纠结了很久，之前查资料的到的结果是，对于采样数据对数据整体进行估计的话，记样本均值为$\mu_s$，变异数为$\sigma_s$，对$\sigma_s$求期望，如果用$\sum(x-\mu)^2$ 来统计的话，那么$E(\sigma_s)$是不等于 $\sigma$，也就是实际数据的分布的，所以才要除以(n-1)，对于这种解释，老师您怎么看？

• ccjou 說：

我將你的迴響編輯過以正確顯示LaTeX，方式是在LaTex語言，如 \mu，之前加入符號$latex並填入一空格，之後再以符號$結束，即呈現 $\mu$

從幾何角度來看，除以(n-1)的原因是離差位於一個維度等於(n-1)的子空間($\mathbb{R}^n$ 的超平面)，所以真實的自由度(無限制的變數數目)僅有(n-1)。這就是你說的(n-1)個方向，只是線性代數稱為維度等於(n-1)的子空間，或者由(n-1)個基底向量擴張的子空間。

一般統計學的解釋這樣的：你已經知道平均數$m$，你可以任意選擇$x_1,\ldots,x_{n-1}$，但$x_n$必定等於$nm-\sum_{i=1}^{n-1}x_i$，所以你擁有的自由度是(n-1)。

從參數估計來看，如果樣本變異數$s^2$(它隨著樣本改變，故可視為一個隨機變數)的期望值$E[s^2]$等於母體參數，即變異數$\sigma^2$，則該估計稱為無偏估計(unbiased estimator)，否則稱為有偏估計。最大可能性(maximum likelihood)給出的變異數估計是$\hat{\sigma}^2=\frac{1}{n}\sum_i(x_i-m)^2$，但它是一個有偏估計，因為$E[\hat{\sigma}^2]=\frac{n-1}{n}\sigma^2$。所以如果我們希望的是無偏估計，那麼要選擇$s^2=\frac{n}{n-1}\hat{\sigma}^2$。證明如下：
$E[s^2]=\frac{1}{n-1}E[\sum_{i}x_i^2-nm^2]=\frac{1}{n-1}(\sum_iE[x_i^2]-nE[m^2])=\frac{1}{n-1}(\sum_i(\sigma^2+\mu^2)-n(\sigma^2/n+\mu^2))=\sigma^2$

有空時我再另外寫些關於最大可能性估計的介紹。

• idleft 說：

谢谢回复

您的意思是不是说这两种做法是同一个问题的两种角度，而他们的结论是一致的？

• ccjou 說：

是的。這麼說吧，有些事情因為講者與聽者不屬於同一社群(因此沒有共同的認知與信仰)，講者只好發明多種支持其信念的論述。「平均量」意味等分配給群體中的所有個體，所以先要確定群體中的個體總數。但甚麼才是真實的個體總數呢？英國統計學家費雪說：自由度，即可以任意改變的變數總數，就是線性代數說的子空間維度。他們聲稱：樣本變異數必須除以(n-1)。另外一批人認為無偏估計才是理想的估計方法，剛巧他們發現$s^2=\frac{1}{n-1}\sum_i(x_i-m)^2$是變異數的無偏估計，故認可除以(n-1)是正確的。於是，這倆批人擁抱在一起──取暖也。此後世人漸漸接受了這個論點，有人索性將這些說法寫入課本，很久以後，大家便習以為常視之為真理，除非有一天發生科學革命。大致上，這就是孔恩(Thomas Samuel Kuhn)的看法。

• idleft 說：

我明白了！ 谢谢您的耐心回复！从来没有得到这么详细而且生动的解释，再次感谢~

• ccjou 說：

晚上多喝了幾杯啤酒，扯遠了。昨天紐約時報有篇報導：「啤酒有利於共建『文明社會』」
http://cn.nytimes.com/article/life-fashion/2013/04/16/c16beer/zh-hk/
裡面說：「有了這種全新的精神藥理學飲品，人類就可以壓制自己違背群體本能的焦慮。」起初(很久很久以前)我對於除以(n-1)這件事也很感冒(違背統計學家群體的焦慮)，漸漸也就習以為常，不以為意。所以說，革命是年輕人的事。

5. idleft 說：

哈哈哈，啤酒是好东西啊~黄汤下肚，烦恼全无啊。。。我喜欢开心的时候喝酒，不爽的时候反倒忍住不喝了，譬如前几天被女朋友甩了，哈哈哈，反倒觉得心情不好喝酒倒像是逃避了~其实有很多细枝末节的小问题，小学初中高中这么一路背下来了，到了研究生这会才算是真正搞清楚，哈哈，比起许多从小打好基础的人来说，我也已经老了。曾经也想就这么一直糊涂下去算了，但是后来想想，如果真要搞研究的话，遇到每一个问题都要搞清楚~革命不容易啊~不过看到有像老师这样不辞辛苦，写博客普及纯粹的数学知识的人，我心里才是真的佩服呢~

• ccjou 說：

謝謝，佩服不敢當。不過老實說，眾多讀者的鼓勵才是我持續寫下去的最大動力。先這樣了，老婆喊我去洗碗(還有收酒瓶)。

6. 這篇文章寫的好讚啊