本文的閱讀等級:中級
假設我們從實驗、研究或調查中獲得兩個變數 ,
的觀測記錄
,
。若一個變數變化時,另一個變數也以某種相關方式變化,我們便稱這兩個變數彼此相關 (correlation)。如果兩個變數之間的關係是線性的,那麼要如何測量它們的相關程度呢?在實際應用中,皮爾生相關係數 (Pearson correlation coefficient) 是目前最普遍被採用的一種度量方式。本文從幾何觀點推導皮爾生相關係數並解釋其涵義。
將觀測記錄合併成向量 ,
,變數
和
的線性相關問題可以改為:給定
空間二向量
和
,如何測量
與
的「線性相近」關係?若
和
具有完美的線性關係,
,
,則下列方程組是一致的 (見“曲線配適”):
。
令 且
。線性方程組可表示為
。在一般情況下,上述方程式常不存在解,但我們可以計算最佳近似解。定義殘差 (residual)
,問題轉換成找出
和
使殘差平方和
得以最小化,即
,
上式中 和
代表
和
構成的
維實向量。根據正交原則,最小殘差
必正交於
的行空間
(見“從線性變換解釋最小平方近似”),而
為
的正交補餘,故知
,就有
,或寫為
,
稱為正規方程式 (normal equation),它給出殘差最小化的必要條件。將矩陣式乘開可得
若線性方程組是一致的,可解得最佳參數,以 和
表示,故最佳直線為
。
接下來我們說明在最佳情況下,正規方程式的衍生結果。
(1) 由條件式 立得
,即殘差的平均值為零,且
。
(2) 因為 ,由結果 (1) 可知
。
(3) 令 和
的樣本平均數分別為
,
。將第一條正規方程式通除
,即得
,所以,
,
再由結果 (1),推知 。
(4) 計算變數 的總變異,也就是所有離差 (偏離平均數的差)
的平方和,利用 (3),推得
故變數 的總離差平方和可分解為殘差平方和和
的離差平方和。
我們觀察出結果 (4) 不過就是畢氏定理,
。
直角三角形的斜邊是 ,而垂直兩股分別是
和
。令
為向量
與
的夾角,由直角三角形關係可得
。
由於 已充分表達了
和
之間的線性關係,
可解讀為
的總變異被
所「解釋」的比例,故餘弦函數
可用來測量兩變數之間的線性相關程度。從幾何觀點,兩向量夾角的餘弦函數代表兩向量的相似度;若兩向量指向相同方向,
,表示正相關;若兩向量指向相反方向,
,表示負相關;又若兩向量指向相互垂直,
,表示無關。欲求出
,我們無須解出
,向量
和
的內積提供餘弦函數的直接計算方式 (見“內積的定義”):
,
此即為著名的皮爾生 (樣本) 相關係數。換句話說,樣本相關係數是離差向量 和
所夾角的餘弦 (見“數據矩陣的列與行”)。統計學通常以下式定義樣本相關係數:
,
其中 和
分別代表變數
和
的樣本變異數:
,
分子 代表這兩個變數的樣本共變異數:
。
附帶一提,前述最佳直線可表示為 (推導過程見“樣本平均數、變異數和共變異數”)
。
下圖顯示四組資料散布圖並標示相關係數。如欲進一步了解相關係數大小與資料散布圖形的關係,請參考維基百科的圖文說明Correlation and dependence。
周老師,有空的話可否從線性代數的觀點說明一下偏相關係數(Partial Correlation Coefficient)與相關係數的關係呢?
好的,藉此順便也寫些多變量分析的主題。