共變異數矩陣的性質

本文的閱讀等級:初級

\mathbf{x}=\begin{bmatrix}  x_1\\  \vdots\\  x_p  \end{bmatrix} 為一個隨機向量,其中 x_1,\ldots,x_p 是隨機變數。共變異數矩陣 (covariance matrix) 定義如下:

\displaystyle  \text{cov}[\mathbf{x}]=E\left[  (\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]

其中 E[\cdot] 是期望值算子,E[\mathbf{x}]=\begin{bmatrix}  E[x_1]\\  \vdots\\  E[x_p]\end{bmatrix}。根據定義,\text{cov}[\mathbf{x}]p\times p 階矩陣,具有下列形式:

\displaystyle\begin{aligned}  \text{cov}[\mathbf{x}]&=E\begin{bmatrix}  (x_1-E[x_1])(x_1-E[x_1])&\cdots&(x_1-E[x_1])(x_p-E[x_p])\\  \vdots&\ddots&\vdots\\  (x_p-E[x_p])(x_1-E[x_1])&\cdots&(x_p-E[x_p])(x_p-E[x_p])  \end{bmatrix}\\  &=\begin{bmatrix}  E\left[(x_1-E[x_1])^2\right]&\cdots&E\left[(x_1-E[x_1])(x_p-E[x_p])\right]\\  \vdots&\ddots&\vdots\\  E\left[(x_p-E[x_p])(x_1-E[x_1])\right]&\cdots&E\left[(x_p-E[x_p])^2\right]  \end{bmatrix}\\  &=\begin{bmatrix}  \text{var}[x_1]&\cdots&\text{cov}[x_1,x_p]\\  \vdots&\ddots&\vdots\\  \text{cov}[x_p,x_1]&\cdots&\text{var}[x_p]  \end{bmatrix}.  \end{aligned}

共變異數矩陣 \text{cov}[\mathbf{x}](i,j) 元是 x_ix_j 的共變異數 (covariance,或稱協方差) \text{cov}[x_i,x_j]=E\left[(x_i-E[x_i])(x_j-E[x_j])\right]。因為 \text{cov}[x_i,x_i]=\text{var}[x_i],共變異數矩陣的主對角元即為隨機變數 x_i 的變異數 (variance)。本文介紹共變異數矩陣的一些基本性質。

 
計算公式

對於隨機向量 \mathbf{x},共變異數矩陣可由下列公式算得:

\displaystyle  \text{cov}[\mathbf{x}]=E\left[\mathbf{x}\mathbf{x}^T\right]-E[\mathbf{x}]E[\mathbf{x}]^T

使用定義,E[\mathbf{x}^T]=E[\mathbf{x}]^T,以及 E[\cdot] 為線性算子,可得

\displaystyle\begin{aligned}  \text{cov}[\mathbf{x}]&=E\left[  (\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\\  &=E\left[\mathbf{x}\mathbf{x}^T-\mathbf{x}E[\mathbf{x}]^T-E[\mathbf{x}]\mathbf{x}^T+E[\mathbf{x}]E[\mathbf{x}]^T\right]\\  &=E\left[\mathbf{x}\mathbf{x}^T\right]-E[\mathbf{x}]E[\mathbf{x}]^T-E[\mathbf{x}]E[\mathbf{x}]^T+E[\mathbf{x}]E[\mathbf{x}]^T\\  &=E\left[\mathbf{x}\mathbf{x}^T\right]-E[\mathbf{x}]E[\mathbf{x}]^T.  \end{aligned}

若隨機向量 \mathbf{x} 退化為隨機變數 x,則 \text{cov}[x]=E[x^2]-(E[x])^2=\text{var}[x],此即我們熟悉的變異數公式。

 
常數向量加法

對於 p 維隨機向量 \mathbf{x} 和常數向量 \mathbf{b}\in\mathbb{R}^p

\displaystyle  \text{cov}[\mathbf{x}+\mathbf{b}]=\text{cov}[\mathbf{x}]

使用期望算子性質 E[\mathbf{x}+\mathbf{b}]=E[\mathbf{x}]+\mathbf{b}

\displaystyle\begin{aligned}  \text{cov}[\mathbf{x}+\mathbf{b}]&=E\left[(\mathbf{x}+\mathbf{b}-E[\mathbf{x}+\mathbf{b}])(\mathbf{x}+\mathbf{b}-E[\mathbf{x}+\mathbf{b}])^T\right]\\  &=E\left[(\mathbf{x}+\mathbf{b}-E[\mathbf{x}]-\mathbf{b})(\mathbf{x}+\mathbf{b}-E[\mathbf{x}]-\mathbf{b})^T\right]\\  &=E\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\\  &=\text{cov}[\mathbf{x}].  \end{aligned}

 
常數矩陣乘法

對於 p 維隨機向量 \mathbf{x}q\times p 階常數矩陣 A

\displaystyle  \text{cov}[A\mathbf{x}]=A\,\text{cov}[\mathbf{x}]A^T

使用期望算子性質 E[A\mathbf{x}]=AE[\mathbf{x}]

\displaystyle\begin{aligned}  \text{cov}[A\mathbf{x}]&=E\left[(A\mathbf{x}-E[A\mathbf{x}])(A\mathbf{x}-E[A\mathbf{x}])^T\right]\\  &=E\left[(A\mathbf{x}-AE[\mathbf{x}])(A\mathbf{x}-AE[\mathbf{x}])^T\right]\\  &=E\left[A(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^TA^T\right]\\  &=AE\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]A^T\\  &=A\,\text{cov}[\mathbf{x}]A^T.  \end{aligned}

 
仿射變換

對於 p 維隨機向量 \mathbf{x},常數向量 \mathbf{b}\in\mathbb{R}^qq\times p 階常數矩陣 A,合併前面兩個性質,可得仿射變換 A\mathbf{x}+\mathbf{b} (見“仿射變換”) 的共變異數矩陣

\displaystyle  \text{cov}[A\mathbf{x}+\mathbf{b}]=\text{cov}[A\mathbf{x}]=A\,\text{cov}[\mathbf{x}]A^T

 
對稱

共變異數矩陣 \text{cov}[\mathbf{x}] 是一個對稱矩陣,證明於下:

\displaystyle\begin{aligned}  \text{cov}[\mathbf{x}]^T  &=E\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]^T\\  &=E\left[\left((\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right)^T\right]\\  &=E\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\\  &=\text{cov}[\mathbf{x}].  \end{aligned}

 
半正定

共變異數矩陣 \text{cov}[\mathbf{x}] 是半正定的 (見“半正定矩陣的判別方法”),也就是說,對於任一 \mathbf{w}=\begin{bmatrix}  w_1\\  \vdots\\  w_p\end{bmatrix}

\displaystyle  \mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{w}\ge 0

\mathbf{w} 視為 p\times 1 階矩陣,套用常數矩陣乘法性質,

\displaystyle  \mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{w}=\text{cov}[\mathbf{w}^T\mathbf{x}]=\text{var}[w_1x_1+\cdots+w_px_p]\ge 0

不等式成立係因任何隨機變數 (或隨機變數的組合) 的變異數必不為負值。

 
這裡補充說明 x_1+\cdots+x_p 的變異數計算方式。若 \mathbf{w}=\begin{bmatrix}  1\\  \vdots\\  1\end{bmatrix},則

\begin{aligned}  \hbox{var}[x_1+\cdots+x_p]&=\begin{bmatrix}  1 &\cdots&1  \end{bmatrix}\begin{bmatrix}  \hbox{var}[x_1]&\cdots&\hbox{cov}[x_1,x_p]\\  \vdots&\ddots&\vdots\\  \hbox{cov}[x_p,x_1]&\cdots&\hbox{var}[x_p]  \end{bmatrix}  \begin{bmatrix}  1\\  \vdots\\  1  \end{bmatrix}\\  &=\sum_{i=1}^n\hbox{var}[x_i]+\sum_{i\neq j}\hbox{cov}[x_i,x_j].\end{aligned}

所以,\hbox{var}[x_1+\cdots+x_p]=\hbox{var}[x_1]+\cdots+\hbox{var}[x_p] 等價於 \sum_{i\neq j}\hbox{cov}[x_i,x_j]=0。若任意 i\neq j 滿足 \hbox{cov}[x_i,x_j]=0,則 \sum_{i\neq j}\hbox{cov}[x_i,x_j]=0。但請特別注意反向推論不成立,譬如,

\hbox{cov}[\mathbf{x}]=\left[\!\!\begin{array}{crr}  1&a&0\\  a&1&-a\\  0&-a&1  \end{array}\!\!\right]

其中 \vert a\vert<1/\sqrt{2}

 
相關係數

我們定義隨機變數 x_ix_j 的相關係數 (correlation coefficient) 為

\displaystyle  \rho_{ij}=\frac{\text{cov}[x_i,x_j]}{\sqrt{\text{var}[x_i]}\sqrt{\text{var}[x_j]}}

其中 \sqrt{\text{var}[x_i]}\sqrt{\text{var}[x_j]} 分別是 x_ix_j 的標準差 (standard deviation)。因為 \text{cov}[x_i,x_j]=\text{cov}[x_j,x_i],相關係數具有對稱性:\rho_{ij}=\rho_{ji}。半正定矩陣的任一主子陣都是半正定 (見“半正定矩陣的判別方法”),即知

\displaystyle  \begin{bmatrix}  \text{var}[x_i]&\text{cov}[x_i,x_j]\\  \text{cov}[x_j,x_i]&\text{var}[x_j]  \end{bmatrix}

是一個半正定矩陣。因此,

\displaystyle  \begin{vmatrix}  \text{var}[x_i]&\text{cov}[x_i,x_j]\\  \text{cov}[x_j,x_i]&\text{var}[x_j]  \end{vmatrix}=\text{var}[x_i]\text{var}[x_j](1-\rho_{ij}^2)\ge 0

推論 -1\le \rho_{ij}\le 1。相關係數的詳細討論請見“相關係數”。

 
線性組合的共變異數

考慮隨機變數 x_1,\ldots,x_p 的兩個線性組合 \mathbf{w}^T\mathbf{x}=w_1x_1+\cdots+w_px_p\mathbf{u}^T\mathbf{x}=u_1x_1+\cdots+u_px_p,隨機變數 \mathbf{w}^T\mathbf{x}\mathbf{u}^T\mathbf{x} 的共變異數可表示為雙線性形式 (bilinear form)

\displaystyle  \text{cov}[\mathbf{w}^T\mathbf{x},\mathbf{u}^T\mathbf{x}]=\mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{u}

證明於下:使用恆等式 \mathbf{a}^T\mathbf{b}=\mathbf{b}^T\mathbf{a}

\displaystyle\begin{aligned}  \text{cov}[\mathbf{w}^T\mathbf{x},\mathbf{u}^T\mathbf{x}]&=E\left[(\mathbf{w}^T\mathbf{x}-E[\mathbf{w}^T\mathbf{x}])(\mathbf{u}^T\mathbf{x}-E[\mathbf{u}^T\mathbf{x}])\right]\\  &=E\left[\mathbf{w}^T(\mathbf{x}-E[\mathbf{x}])\mathbf{u}^T(\mathbf{x}-E[\mathbf{x}])\right]\\  &=E\left[\mathbf{w}^T(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\mathbf{u}\right]\\  &=\mathbf{w}^TE\left[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T\right]\mathbf{u}\\  &=\mathbf{w}^T\text{cov}[\mathbf{x}]\mathbf{u}.  \end{aligned}

 
最後舉一例說明共變異數矩陣的應用 (取自“Math Pro: 2014年台中二中教師甄選試題”):某次數學測驗,總分100分,其中選擇題占60分,計算題占40分。甲班學生選擇題的平均分數為52分、標準差為8分,計算題的平均分數為18分、標準差為15分。若該班選擇題成績與計算題成績的相關係數為 0.6,則甲班學生數學測驗成績的標準差是多少?

 
y=x_1+x_2 為數學測驗成績,其中 x_1 代表選擇題成績,x_2 代表計算題成績。從給定條件可知 \text{cov}[x_1,x_2]=\rho_{12}\sqrt{\text{var}[x_1]}\sqrt{\text{var}[x_2]}=0.6\cdot 8\cdot 15=72,隨機向量 \mathbf{x}=\begin{bmatrix}  x_1\\  x_2\end{bmatrix} 的共變異數矩陣則為

\displaystyle  \text{cov}[\mathbf{x}]=\begin{bmatrix}  8^2&72\\  72&15^2  \end{bmatrix}

套用線性組合的共變異數公式,

\displaystyle  \text{var}[y]=\text{cov}[x_1+x_2,x_1+x_2]=\begin{bmatrix}  1&1  \end{bmatrix}\begin{bmatrix}  8^2&72\\  72&15^2  \end{bmatrix}\begin{bmatrix}  1\\  1  \end{bmatrix}=433

故數學測驗成績的標準差為 \sqrt{\text{var}[y]}=\sqrt{433}。另外,我們還可以回答:選擇題成績還是計算題成績與數學測驗成績的相關性較高?數學成績與選擇題成績的共變異數為

\displaystyle  \text{cov}[y,x_1]=\text{cov}[x_1+x_2,x_1]=\begin{bmatrix}  1&1  \end{bmatrix}\begin{bmatrix}  8^2&72\\  72&15^2  \end{bmatrix}\begin{bmatrix}  1\\  0  \end{bmatrix}=136

相關係數為

\displaystyle  \rho_{y,x_1}=\frac{\text{cov}[y,x_1]}{\sqrt{\text{var}[y]}\sqrt{\text{var}[x_1]}}=\frac{136}{\sqrt{433}\cdot 8}\approx 0.817

數學成績與計算題成績的共變異數為

\displaystyle  \text{cov}[y,x_2]=\text{cov}[x_1+x_2,x_2]=\begin{bmatrix}  1&1  \end{bmatrix}\begin{bmatrix}  8^2&72\\  72&15^2  \end{bmatrix}\begin{bmatrix}  0\\  1  \end{bmatrix}=297

相關係數為

\displaystyle  \rho_{y,x_2}=\frac{\text{cov}[y,x_2]}{\sqrt{\text{var}[y]}\sqrt{\text{var}[x_2]}}=\frac{297}{\sqrt{433}\cdot 15}\approx 0.952

結論:計算題雖然僅占40分,但因其標準差15分遠大於選擇題成績的標準差8分,使得數學測驗成績與計算題成績比選擇題成績有較高的相關性。

延伸閱讀:
This entry was posted in 機率統計 and tagged , , . Bookmark the permalink.

7 Responses to 共變異數矩陣的性質

  1. 小李 says:

    平均數用不到是不是?那題目給平均數做啥

  2. 小李 says:

    順便跟老師請教一下,變異數是恆正嗎?它和共變異數不是有差?是當共變異數相等時才能換嗎?想釐清觀念一下

    • ccjou says:

      平均數用不到是不是?那題目給平均數做啥–>我也不知道
      變異數是恆正嗎?–>E[(x-E[x])^2]\ge 0
      它和共變異數不是有差?–>不了解你的問題
      是當共變異數相等時才能換嗎?–>還是不懂你的問題

      I seek not to know the answers, but to understand the questions. 果真不假

  3. 小李 says:

    我的意思是共變異數和變異數相等時是什麼情況?

    • ccjou says:

      上文相關係數一節,共變異矩陣是半正定,可推論 \hbox{Var}(x)\hbox{Var}(y)\ge\hbox{Cov}(x,y)^2。若 \hbox{Var}(x)=\hbox{Cov}(x,y),則 \hbox{Var}(y)\ge \hbox{Cov}(x,y)。又如果 \hbox{Var}(x)=\hbox{Var}(y)=\hbox{Cov}(x,y),則相關係數等於1,表示 x=y

  4. Pingback: 維度縮減Dimension Reduction,通往線性代數的聖母峰 : 特徵值分解(Eigenvalue Decomposition)、奇異值分解(Singular Value Decomposition) 與主成分分析(Principal Component Analysis) – 服務科學的分子廚房 Molecular Ser

  5. jming0307@gmail.com says:

    如果X隨機向量為複數型,那在計算共變數時,要把轉至改成轉置共扼嗎

Leave a comment