相關係數

本文的閱讀等級:中級

假設我們從實驗、研究或調查中獲得兩個變數 xy 的觀測記錄 (x_i,y_i)i=1,\ldots,n。若一個變數變化時,另一個變數也以某種相關方式變化,我們便稱這兩個變數彼此相關 (correlation)。如果兩個變數之間的關係是線性的,那麼要如何測量它們的相關程度呢?在實際應用中,皮爾生相關係數 (Pearson correlation coefficient) 是目前最普遍被採用的一種度量方式。本文從幾何觀點推導皮爾生相關係數並解釋其涵義。

 
將觀測記錄合併成向量 \mathbf{x}=(x_1,x_2,\ldots,x_n)^T\mathbf{y}=(y_1,y_2,\ldots,y_n)^T,變數 xy 的線性相關問題可以改為:給定 \mathbb{R}^n 空間二向量 \mathbf{x}\mathbf{y},如何測量 \mathbf{x}\mathbf{y} 的「線性相近」關係?若 yx 具有完美的線性關係,y_i=b_0+b_1x_ii=1,\ldots,n,則下列方程組是一致的 (見“曲線配適”):

\begin{bmatrix}  1&x_1\\    1&x_2\\    \vdots&\vdots\\    1&x_n    \end{bmatrix}\begin{bmatrix}    b_0\\    b_1    \end{bmatrix}=\begin{bmatrix}    y_1\\    y_2\\    \vdots\\    y_n    \end{bmatrix}

\mathbf{1}=(1,1,\ldots,1)^TX=\begin{bmatrix}    \mathbf{1}&\mathbf{x}    \end{bmatrix}。線性方程組可表示為 X\begin{bmatrix}    b_0\\    b_1    \end{bmatrix}=\mathbf{y}。在一般情況下,上述方程式常不存在解,但我們可以計算最佳近似解。定義殘差 (residual) e_i=y_i-b_0-b_1x_i,問題轉換成找出 b_0b_1 使殘差平方和 \sum_{i=1}^ne_i^2 得以最小化,即

\Vert\mathbf{e}\Vert^2=\Vert\mathbf{y}-\hat{\mathbf{y}}\Vert^2=\left\Vert\mathbf{y}-X\begin{bmatrix}  b_0\\  b_1  \end{bmatrix}\right\Vert^2

上式中 \mathbf{e}\hat{\mathbf{y}} 代表 e_i\hat{y}_i=b_0+b_1x_i 構成的 n 維實向量。根據正交原則,最小殘差 \mathbf{e} 必正交於 X 的行空間 C(X) (見“從線性變換解釋最小平方近似”),而 N(X^T)C(X) 的正交補餘,故知 \mathbf{e}\in N(X^T),就有 X^T\mathbf{e}=X^T\left(\mathbf{y}-X\begin{bmatrix}    b_0\\  b_1    \end{bmatrix}\right)=\mathbf{0},或寫為

X^TX\begin{bmatrix}  b_0\\    b_1    \end{bmatrix}=X^T\mathbf{y}

稱為正規方程式 (normal equation),它給出殘差最小化的必要條件。將矩陣式乘開可得

\begin{aligned}\displaystyle  nb_0+b_1\sum_{i=1}^nx_i&=\sum_{i=1}^ny_i\\  b_0\sum_{i=1}^nx_i+b_1\sum_{i=1}^nx_i^2&=\sum_{i=1}^nx_iy_i.\end{aligned}

若線性方程組是一致的,可解得最佳參數,以 \hat{b}_0\hat{b}_1 表示,故最佳直線為 \hat{y}=\hat{b}_0+\hat{b}_1x

 
接下來我們說明在最佳情況下,正規方程式的衍生結果。

(1) 由條件式 X^T\mathbf{e}=\begin{bmatrix}    \mathbf{1}^T\\    \mathbf{x}^T    \end{bmatrix}\mathbf{e}=\mathbf{0} 立得 \mathbf{1}^T\mathbf{e}=\sum_{i=1}^ne_i=0,即殘差的平均值為零,且 \mathbf{x}^T\mathbf{e}=0

(2) 因為 \hat{\mathbf{y}}=\hat{b}_0\mathbf{1}+\hat{b}_1\mathbf{x},由結果 (1) 可知 \hat{\mathbf{y}}^T\mathbf{e}=\hat{b}_0\mathbf{1}^T\mathbf{e}+\hat{b}_1\mathbf{x}^T\mathbf{e}=0

(3) 令 xy 的樣本平均數分別為 \bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i。將第一條正規方程式通除 n,即得 \hat{b}_0+\hat{b}_1\bar{x}=\bar{y},所以,

\hat{\mathbf{y}}-\bar{y}\mathbf{1}=\hat{b}_0\mathbf{1}+\hat{b}_1\mathbf{x}-(\hat{b}_0+\hat{b}_1\bar{x})\mathbf{1}=\hat{b}_1(\mathbf{x}-\bar{x}\mathbf{1})

再由結果 (1),推知 (\hat{\mathbf{y}}-\bar{y}\mathbf{1})^T\mathbf{e}=0

(4) 計算變數 y 的總變異,也就是所有離差 (偏離平均數的差) y_i-\bar{y} 的平方和,利用 (3),推得

\begin{aligned}\displaystyle  \sum_{i=1}^n(y_i-\bar{y})^2&=\Vert\mathbf{y}-\bar{y}\mathbf{1}\Vert^2\\  &=\Vert(\mathbf{y}-\hat{\mathbf{y}})+(\hat{\mathbf{y}}-\bar{y}\mathbf{1})\Vert^2\\  &=\Vert \mathbf{e}+(\hat{\mathbf{y}}-\bar{y}\mathbf{1})\Vert^2\\  &=\Vert\mathbf{e}\Vert^2+\Vert\hat{\mathbf{y}}-\bar{y}\mathbf{1}\Vert^2+2\mathbf{e}^T(\hat{\mathbf{y}}-\bar{y}\mathbf{1})\\    &=\Vert\mathbf{e}\Vert^2+\Vert\hat{\mathbf{y}}-\bar{y}\mathbf{1}\Vert^2,\end{aligned}

故變數 y 的總離差平方和可分解為殘差平方和和 \hat{y} 的離差平方和。

 
我們觀察出結果 (4) 不過就是畢氏定理,

\Vert\mathbf{y}-\bar{y}\mathbf{1}\Vert^2=\hat{b}_1^2\Vert \mathbf{x}-\bar{x}\mathbf{1}\Vert^2+\Vert\mathbf{e}\Vert^2

直角三角形的斜邊是 \mathbf{y}-\bar{y}\mathbf{1},而垂直兩股分別是 \hat{b}_1(\mathbf{x}-\bar{x}\mathbf{1})\mathbf{e}。令 \theta 為向量 \mathbf{y}-\bar{y}\mathbf{1}\mathbf{x}-\bar{x}\mathbf{1} 的夾角,由直角三角形關係可得

\cos^2\theta=\displaystyle\frac{\hat{b}_1^2\Vert \mathbf{x}-\bar{x}\mathbf{1}\Vert^2}{\Vert\mathbf{y}-\bar{y}\mathbf{1}\Vert^2}

由於 \hat{\mathbf{y}}=\hat{b}_0\mathbf{1}+\hat{b}_1\mathbf{x} 已充分表達了 xy 之間的線性關係,\cos^2\theta 可解讀為 y 的總變異被 x 所「解釋」的比例,故餘弦函數 \cos\theta 可用來測量兩變數之間的線性相關程度。從幾何觀點,兩向量夾角的餘弦函數代表兩向量的相似度;若兩向量指向相同方向,\cos\theta=1,表示正相關;若兩向量指向相反方向,\cos\theta=-1,表示負相關;又若兩向量指向相互垂直,\cos\theta=0,表示無關。欲求出 \cos\theta,我們無須解出 \hat{b}_1,向量 \mathbf{y}-\bar{y}\mathbf{1}\mathbf{x}-\bar{x}\mathbf{1} 的內積提供餘弦函數的直接計算方式 (見“內積的定義”):

\cos\theta=\displaystyle\frac{(\mathbf{y}-\bar{y}\mathbf{1})^T(\mathbf{x}-\bar{x}\mathbf{1})}{\Vert\mathbf{y}-\bar{y}\mathbf{1}\Vert\cdot\Vert \mathbf{x}-\bar{x}\mathbf{1}\Vert}=\frac{\sum_{i=1}^n(y_i-\bar{y})(x_i-\bar{x})}{\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}

此即為著名的皮爾生 (樣本) 相關係數。換句話說,樣本相關係數是離差向量 \mathbf{y}-\overline{y}\mathbf{1}\mathbf{x}-\overline{x}\mathbf{1} 所夾角的餘弦 (見“數據矩陣的列與行”)。統計學通常以下式定義樣本相關係數:

r=\displaystyle\frac{s_{xy}}{s_xs_y}

其中 s^2_xs^2_y 分別代表變數 xy 的樣本變異數:

\displaystyle  s_x^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2,~s^2_y=\frac{1}{n-1}\sum_{i=1}^n(y_i-\bar{y})^2

分子 s_{xy} 代表這兩個變數的樣本共變異數:

s_{xy}=\displaystyle\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})

附帶一提,前述最佳直線可表示為 (推導過程見“樣本平均數、變異數和共變異數”)

\displaystyle    \frac{\hat{y}-\bar{y}}{s_y}=r\left(\frac{x-\bar{x}}{s_x}\right)

下圖顯示四組資料散布圖並標示相關係數。如欲進一步了解相關係數大小與資料散布圖形的關係,請參考維基百科的圖文說明Correlation and dependence

Correlation

四組資料散布圖

相關閱讀:
廣告
本篇發表於 機率統計 並標籤為 , , , 。將永久鏈結加入書籤。

2 Responses to 相關係數

  1. 張盛東 說道:

    周老師,有空的話可否從線性代數的觀點說明一下偏相關係數(Partial Correlation Coefficient)與相關係數的關係呢?

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s