共變異數矩陣的性質

本文的閱讀等級：初級

令 $\mathbf{x}=\begin{bmatrix} x_1\\ \vdots\\ x_p \end{bmatrix}$ 為一個隨機向量，其中 $x_1,\ldots,x_p$ 是隨機變數。共變異數矩陣 (covariance matrix) 定義如下：

$\displaystyle \text{cov}[\mathbf{x}]=E\left[ (\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]$ ，

其中 $E[\cdot]$ 是期望值算子， $E[\mathbf{x}]=\begin{bmatrix} E[x_1]\\ \vdots\\ E[x_p]\end{bmatrix}$ 。根據定義， $\text{cov}[\mathbf{x}]$ 為 $p\times p$ 階矩陣，具有下列形式：

$\displaystyle\begin{aligned} \text{cov}[\mathbf{x}]&=E\begin{bmatrix} (x_1-E[x_1])(x_1-E[x_1])&\cdots&(x_1-E[x_1])(x_p-E[x_p])\\ \vdots&\ddots&\vdots\\ (x_p-E[x_p])(x_1-E[x_1])&\cdots&(x_p-E[x_p])(x_p-E[x_p]) \end{bmatrix}\\ &=\begin{bmatrix} E\left[(x_1-E[x_1])^2\right]&\cdots&E\left[(x_1-E[x_1])(x_p-E[x_p])\right]\\ \vdots&\ddots&\vdots\\ E\left[(x_p-E[x_p])(x_1-E[x_1])\right]&\cdots&E\left[(x_p-E[x_p])^2\right] \end{bmatrix}\\ &=\begin{bmatrix} \text{var}[x_1]&\cdots&\text{cov}[x_1,x_p]\\ \vdots&\ddots&\vdots\\ \text{cov}[x_p,x_1]&\cdots&\text{var}[x_p] \end{bmatrix}. \end{aligned}$

共變異數矩陣 $\text{cov}[\mathbf{x}]$ 的 $(i,j)$ 元是 $x_i$ 和 $x_j$ 的共變異數 (covariance，或稱協方差) $\text{cov}[x_i,x_j]=E\left[(x_i-E[x_i])(x_j-E[x_j])\right]$ 。因為 $\text{cov}[x_i,x_i]=\text{var}[x_i]$ ，共變異數矩陣的主對角元即為隨機變數 $x_i$ 的變異數 (variance)。本文介紹共變異數矩陣的一些基本性質。

計算公式

對於隨機向量 $\mathbf{x}$ ，共變異數矩陣可由下列公式算得：

$\displaystyle \text{cov}[\mathbf{x}]=E\left[\mathbf{x}\mathbf{x}^T\right]-E[\mathbf{x}]E[\mathbf{x}]^T$ 。

使用定義， $E[\mathbf{x}^T]=E[\mathbf{x}]^T$ ，以及 $E[\cdot]$ 為線性算子，可得

$\displaystyle\begin{aligned} \text{cov}[\mathbf{x}]&=E\left[ (\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\\ &=E\left[\mathbf{x}\mathbf{x}^T-\mathbf{x}E[\mathbf{x}]^T-E[\mathbf{x}]\mathbf{x}^T+E[\mathbf{x}]E[\mathbf{x}]^T\right]\\ &=E\left[\mathbf{x}\mathbf{x}^T\right]-E[\mathbf{x}]E[\mathbf{x}]^T-E[\mathbf{x}]E[\mathbf{x}]^T+E[\mathbf{x}]E[\mathbf{x}]^T\\ &=E\left[\mathbf{x}\mathbf{x}^T\right]-E[\mathbf{x}]E[\mathbf{x}]^T. \end{aligned}$

若隨機向量 $\mathbf{x}$ 退化為隨機變數 $x$ ，則 $\text{cov}[x]=E[x^2]-(E[x])^2=\text{var}[x]$ ，此即我們熟悉的變異數公式。

常數向量加法

對於 $p$ 維隨機向量 $\mathbf{x}$ 和常數向量 $\mathbf{b}\in\mathbb{R}^p$ ，

$\displaystyle \text{cov}[\mathbf{x}+\mathbf{b}]=\text{cov}[\mathbf{x}]$ 。

使用期望算子性質 $E[\mathbf{x}+\mathbf{b}]=E[\mathbf{x}]+\mathbf{b}$ ，

$\displaystyle\begin{aligned} \text{cov}[\mathbf{x}+\mathbf{b}]&=E\left[(\mathbf{x}+\mathbf{b}-E[\mathbf{x}+\mathbf{b}])(\mathbf{x}+\mathbf{b}-E[\mathbf{x}+\mathbf{b}])^T\right]\\ &=E\left[(\mathbf{x}+\mathbf{b}-E[\mathbf{x}]-\mathbf{b})(\mathbf{x}+\mathbf{b}-E[\mathbf{x}]-\mathbf{b})^T\right]\\ &=E\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\\ &=\text{cov}[\mathbf{x}]. \end{aligned}$

常數矩陣乘法

對於 $p$ 維隨機向量 $\mathbf{x}$ 和 $q\times p$ 階常數矩陣 $A$ ，

$\displaystyle \text{cov}[A\mathbf{x}]=A\,\text{cov}[\mathbf{x}]A^T$ 。

使用期望算子性質 $E[A\mathbf{x}]=AE[\mathbf{x}]$ ，

$\displaystyle\begin{aligned} \text{cov}[A\mathbf{x}]&=E\left[(A\mathbf{x}-E[A\mathbf{x}])(A\mathbf{x}-E[A\mathbf{x}])^T\right]\\ &=E\left[(A\mathbf{x}-AE[\mathbf{x}])(A\mathbf{x}-AE[\mathbf{x}])^T\right]\\ &=E\left[A(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^TA^T\right]\\ &=AE\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]A^T\\ &=A\,\text{cov}[\mathbf{x}]A^T. \end{aligned}$

仿射變換

對於 $p$ 維隨機向量 $\mathbf{x}$ ，常數向量 $\mathbf{b}\in\mathbb{R}^q$ 和 $q\times p$ 階常數矩陣 $A$ ，合併前面兩個性質，可得仿射變換 $A\mathbf{x}+\mathbf{b}$ (見“仿射變換”) 的共變異數矩陣

$\displaystyle \text{cov}[A\mathbf{x}+\mathbf{b}]=\text{cov}[A\mathbf{x}]=A\,\text{cov}[\mathbf{x}]A^T$ 。

對稱

共變異數矩陣 $\text{cov}[\mathbf{x}]$ 是一個對稱矩陣，證明於下：

$\displaystyle\begin{aligned} \text{cov}[\mathbf{x}]^T &=E\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]^T\\ &=E\left[\left((\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right)^T\right]\\ &=E\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\\ &=\text{cov}[\mathbf{x}]. \end{aligned}$

半正定

共變異數矩陣 $\text{cov}[\mathbf{x}]$ 是半正定的 (見“半正定矩陣的判別方法”)，也就是說，對於任一 $\mathbf{w}=\begin{bmatrix} w_1\\ \vdots\\ w_p\end{bmatrix}$ ，

$\displaystyle \mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{w}\ge 0$ 。

將 $\mathbf{w}$ 視為 $p\times 1$ 階矩陣，套用常數矩陣乘法性質，

$\displaystyle \mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{w}=\text{cov}[\mathbf{w}^T\mathbf{x}]=\text{var}[w_1x_1+\cdots+w_px_p]\ge 0$ ，

不等式成立係因任何隨機變數 (或隨機變數的組合) 的變異數必不為負值。

這裡補充說明 $x_1+\cdots+x_p$ 的變異數計算方式。若 $\mathbf{w}=\begin{bmatrix} 1\\ \vdots\\ 1\end{bmatrix}$ ，則

$\begin{aligned} \hbox{var}[x_1+\cdots+x_p]&=\begin{bmatrix} 1 &\cdots&1 \end{bmatrix}\begin{bmatrix} \hbox{var}[x_1]&\cdots&\hbox{cov}[x_1,x_p]\\ \vdots&\ddots&\vdots\\ \hbox{cov}[x_p,x_1]&\cdots&\hbox{var}[x_p] \end{bmatrix} \begin{bmatrix} 1\\ \vdots\\ 1 \end{bmatrix}\\ &=\sum_{i=1}^n\hbox{var}[x_i]+\sum_{i\neq j}\hbox{cov}[x_i,x_j].\end{aligned}$

所以， $\hbox{var}[x_1+\cdots+x_p]=\hbox{var}[x_1]+\cdots+\hbox{var}[x_p]$ 等價於 $\sum_{i\neq j}\hbox{cov}[x_i,x_j]=0$ 。若任意 $i\neq j$ 滿足 $\hbox{cov}[x_i,x_j]=0$ ，則 $\sum_{i\neq j}\hbox{cov}[x_i,x_j]=0$ 。但請特別注意反向推論不成立，譬如，

$\hbox{cov}[\mathbf{x}]=\left[\!\!\begin{array}{crr} 1&a&0\\ a&1&-a\\ 0&-a&1 \end{array}\!\!\right]$ ，

其中 $\vert a\vert<1/\sqrt{2}$ 。

相關係數

我們定義隨機變數 $x_i$ 和 $x_j$ 的相關係數 (correlation coefficient) 為

$\displaystyle \rho_{ij}=\frac{\text{cov}[x_i,x_j]}{\sqrt{\text{var}[x_i]}\sqrt{\text{var}[x_j]}}$ ，

其中 $\sqrt{\text{var}[x_i]}$ 和 $\sqrt{\text{var}[x_j]}$ 分別是 $x_i$ 和 $x_j$ 的標準差 (standard deviation)。因為 $\text{cov}[x_i,x_j]=\text{cov}[x_j,x_i]$ ，相關係數具有對稱性： $\rho_{ij}=\rho_{ji}$ 。半正定矩陣的任一主子陣都是半正定 (見“半正定矩陣的判別方法”)，即知

$\displaystyle \begin{bmatrix} \text{var}[x_i]&\text{cov}[x_i,x_j]\\ \text{cov}[x_j,x_i]&\text{var}[x_j] \end{bmatrix}$

是一個半正定矩陣。因此，

$\displaystyle \begin{vmatrix} \text{var}[x_i]&\text{cov}[x_i,x_j]\\ \text{cov}[x_j,x_i]&\text{var}[x_j] \end{vmatrix}=\text{var}[x_i]\text{var}[x_j](1-\rho_{ij}^2)\ge 0$ ，

推論 $-1\le \rho_{ij}\le 1$ 。相關係數的詳細討論請見“相關係數”。

線性組合的共變異數

考慮隨機變數 $x_1,\ldots,x_p$ 的兩個線性組合 $\mathbf{w}^T\mathbf{x}=w_1x_1+\cdots+w_px_p$ 和 $\mathbf{u}^T\mathbf{x}=u_1x_1+\cdots+u_px_p$ ，隨機變數 $\mathbf{w}^T\mathbf{x}$ 和 $\mathbf{u}^T\mathbf{x}$ 的共變異數可表示為雙線性形式 (bilinear form)

$\displaystyle \text{cov}[\mathbf{w}^T\mathbf{x},\mathbf{u}^T\mathbf{x}]=\mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{u}$ 。

證明於下：使用恆等式 $\mathbf{a}^T\mathbf{b}=\mathbf{b}^T\mathbf{a}$ ，

$\displaystyle\begin{aligned} \text{cov}[\mathbf{w}^T\mathbf{x},\mathbf{u}^T\mathbf{x}]&=E\left[(\mathbf{w}^T\mathbf{x}-E[\mathbf{w}^T\mathbf{x}])(\mathbf{u}^T\mathbf{x}-E[\mathbf{u}^T\mathbf{x}])\right]\\ &=E\left[\mathbf{w}^T(\mathbf{x}-E[\mathbf{x}])\mathbf{u}^T(\mathbf{x}-E[\mathbf{x}])\right]\\ &=E\left[\mathbf{w}^T(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\mathbf{u}\right]\\ &=\mathbf{w}^TE\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\mathbf{u}\\ &=\mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{u}. \end{aligned}$

最後舉一例說明共變異數矩陣的應用 (取自“Math Pro: 2014年台中二中教師甄選試題”)：某次數學測驗，總分100分，其中選擇題占60分，計算題占40分。甲班學生選擇題的平均分數為52分、標準差為8分，計算題的平均分數為18分、標準差為15分。若該班選擇題成績與計算題成績的相關係數為 $0.6$ ，則甲班學生數學測驗成績的標準差是多少？

令 $y=x_1+x_2$ 為數學測驗成績，其中 $x_1$ 代表選擇題成績， $x_2$ 代表計算題成績。從給定條件可知 $\text{cov}[x_1,x_2]=\rho_{12}\sqrt{\text{var}[x_1]}\sqrt{\text{var}[x_2]}=0.6\cdot 8\cdot 15=72$ ，隨機向量 $\mathbf{x}=\begin{bmatrix} x_1\\ x_2\end{bmatrix}$ 的共變異數矩陣則為

$\displaystyle \text{cov}[\mathbf{x}]=\begin{bmatrix} 8^2&72\\ 72&15^2 \end{bmatrix}$ 。

套用線性組合的共變異數公式，

$\displaystyle \text{var}[y]=\text{cov}[x_1+x_2,x_1+x_2]=\begin{bmatrix} 1&1 \end{bmatrix}\begin{bmatrix} 8^2&72\\ 72&15^2 \end{bmatrix}\begin{bmatrix} 1\\ 1 \end{bmatrix}=433$ ，

故數學測驗成績的標準差為 $\sqrt{\text{var}[y]}=\sqrt{433}$ 。另外，我們還可以回答：選擇題成績還是計算題成績與數學測驗成績的相關性較高？數學成績與選擇題成績的共變異數為

$\displaystyle \text{cov}[y,x_1]=\text{cov}[x_1+x_2,x_1]=\begin{bmatrix} 1&1 \end{bmatrix}\begin{bmatrix} 8^2&72\\ 72&15^2 \end{bmatrix}\begin{bmatrix} 1\\ 0 \end{bmatrix}=136$ ，

相關係數為

$\displaystyle \rho_{y,x_1}=\frac{\text{cov}[y,x_1]}{\sqrt{\text{var}[y]}\sqrt{\text{var}[x_1]}}=\frac{136}{\sqrt{433}\cdot 8}\approx 0.817$ 。

數學成績與計算題成績的共變異數為

$\displaystyle \text{cov}[y,x_2]=\text{cov}[x_1+x_2,x_2]=\begin{bmatrix} 1&1 \end{bmatrix}\begin{bmatrix} 8^2&72\\ 72&15^2 \end{bmatrix}\begin{bmatrix} 0\\ 1 \end{bmatrix}=297$ ，

相關係數為

$\displaystyle \rho_{y,x_2}=\frac{\text{cov}[y,x_2]}{\sqrt{\text{var}[y]}\sqrt{\text{var}[x_2]}}=\frac{297}{\sqrt{433}\cdot 15}\approx 0.952$ 。

結論：計算題雖然僅占40分，但因其標準差15分遠大於選擇題成績的標準差8分，使得數學測驗成績與計算題成績比選擇題成績有較高的相關性。

7 Responses to 共變異數矩陣的性質

小李 says:

09/04/2015 at 7:31 pm

平均數用不到是不是?那題目給平均數做啥

小李 says:

09/04/2015 at 7:59 pm

順便跟老師請教一下,變異數是恆正嗎?它和共變異數不是有差?是當共變異數相等時才能換嗎?想釐清觀念一下

- ccjou says:
  
  09/04/2015 at 8:04 pm
  
  平均數用不到是不是?那題目給平均數做啥–>我也不知道
  變異數是恆正嗎?–> $E[(x-E[x])^2]\ge 0$
  它和共變異數不是有差?–>不了解你的問題
  是當共變異數相等時才能換嗎?–>還是不懂你的問題
  
  I seek not to know the answers, but to understand the questions. 果真不假
  
小李 says:

09/04/2015 at 8:27 pm

我的意思是共變異數和變異數相等時是什麼情況?

- ccjou says:
  
  09/05/2015 at 6:33 am
  
  上文相關係數一節，共變異矩陣是半正定，可推論 $\hbox{Var}(x)\hbox{Var}(y)\ge\hbox{Cov}(x,y)^2$ 。若 $\hbox{Var}(x)=\hbox{Cov}(x,y)$ ，則 $\hbox{Var}(y)\ge \hbox{Cov}(x,y)$ 。又如果 $\hbox{Var}(x)=\hbox{Var}(y)=\hbox{Cov}(x,y)$ ，則相關係數等於1，表示 $x=y$ 。
  
Pingback: 維度縮減Dimension Reduction，通往線性代數的聖母峰 : 特徵值分解(Eigenvalue Decomposition)、奇異值分解(Singular Value Decomposition) 與主成分分析(Principal Component Analysis) – 服務科學的分子廚房 Molecular Ser
jming0307@gmail.com says:

09/29/2020 at 3:00 pm

如果X隨機向量為複數型，那在計算共變數時，要把轉至改成轉置共扼嗎

	jianglong on Strassen 演算法──分治矩陣乘法
	jianglong on Strassen 演算法──分治矩陣乘法
	xmj on 內積的定義
	Ning ChingSan on 線性代數的第一堂課──矩陣乘法的定義
	momo on 兩岸線性代數用詞參照
	訪客 on 克拉瑪公式的簡易幾何證明