本文的閱讀等級:高級
給定一份樣本大小為 的數據
,其中
是
維實向量,記錄
個變數的觀測值。所有的數據點
扣除平均數向量
可得
階離差矩陣 (deviation matrix)
,表示如下:
,
其中 是第
個數據點的第
個變數值,也就是說,
的每一列 (row) 對應一個數據點,每一行 (column) 對應一個變數。假設
不存在常數行,即每個變數總是存在若干變異。如欲將數據予以標準化 (每一變數的平均數等於
,變異數等於
),將
的每一行的所有元除以該變數的樣本標準差 (樣本變異數的平方根),即有
,
其中 是第
個變數的樣本變異數,
是第
個變數的樣本平均數 (見“樣本平均數、變異數和共變異數”)。令
。標準化後的離差矩陣可表示為
。當數據集的變數總數
很大或變數具有相關性時,主成分分析 (principal components analysis) 可產生一組由
個不具相關性的新變數構成的數據。主成分分析的詳細推導過程請見“主成分分析”,本文僅列舉主要結果與性質,接著介紹如何利用奇異值分解計算,最後解釋主成分分析所隱含的資料生成模型。
定義 階樣本共變異數矩陣
,
和樣本相關矩陣
。
以下討論限定為 ,只要將
替換成
,便可得到相應結果。實對稱矩陣
可正交對角化為
,
其中 是由單範正交 (orthonormal) 主成分 (特徵向量) 構成的
階正交矩陣,滿足
;
是特徵值矩陣,
。令
是數據點
所含主成分
的組合係數,稱為主成分係數,可由正交投影算得:
,
或合併成 階主成分係數矩陣
。
特徵值 是第
個主成分係數 (即
的第
行) 的樣本變異數,因此代表主成分
的權值。
在數值計算上,矩陣乘法運算可能因引進捨入或截斷誤差而造成破壞性的影響。例如,
,
其中 為極小數。若數值計算誤差使得
,交互乘積
變成秩-1矩陣,違反 。因為這個緣故,
的正交譜分解 (對角化) 僅可用於理論推導,不宜用於數值計算。奇異值分解提供了一個不涉及交互乘積的解決辦法。考慮離差矩陣
的「瘦」奇異值分解 (見“奇異值分解 (SVD)”)
,
其中 階矩陣
的行向量是單範正交左奇異向量
,
,但
不一定等於
;
,
是奇異值;
階矩陣
的行向量是單範正交右奇異向量
,
。提醒讀者,
和
的奇異值分解並不相同。將奇異值分解代入交互乘積,
,
故樣本共變異數矩陣可表示為
。
比較 的兩種正交對角化表達式,可得特徵值矩陣
,
主成分矩陣
,
以及主成分係數矩陣
。
奇異值分解的正交矩陣 即為主成分矩陣
,奇異值
決定特徵值
,矩陣
和奇異值
共同決定主成分係數
,那麼
本身具有甚麼意義呢?若
有線性獨立的行向量,即
,則
,
可逆,其中
。等式
右乘
,可得
因為第 個主成分係數的樣本變異數等於
,
就是 經過標準化的結果,稱為因素分數 (factor score) 矩陣,它的第
行
表示數據集在第
個主成分的得點,其平均數等於
,變異數等於
。
另外,我們想知道抽取出的主成分係數與原變數之間的相關性。令 是第
個變數與第
個主成分係數的相關係數 (見“相關係數”),稱為因素負荷 (factor loading),並令
為
階因素負荷矩陣。因為
和
包含標準化後的數據,立知
。
將 ,
,
,
代入上式,可得
如果以 取代
,因素負荷矩陣則為
,但
和
也隨之改變,因為
和
有不同的奇異值分解。
主成分分析提供了一個資料生成的描述模型。利用奇異值分解,離差矩陣 可用因素分數
與因素負荷
表達如下:
。
取轉置可得
。
上式可以這麼解讀:想像存在 個獨立 (無相關) 且強度相同的隨機訊號源,稱為因素 (factor)。每一因素產生平均數是
,變異數是
的訊號。因素分數 (轉置) 矩陣
儲存了對於
個因素的
次觀測結果,其中向量
記錄
個因素的第
次觀測值。訊號
先經過一個叫做因素負荷
的混合過程,其中
決定從第
個因素傳遞至第
個變數的載入權重 (即相關係數);接著
個變數通過伸縮過程
以放大或縮小其數值範圍 (即標準差);最後再平移
,產生我們觀測到的數據點
(見下圖,以
為例)。主成分分析的作用即在從接收的數據集
反推資料生成模型中獨立訊號的大小 (即因素分數
),並揭示各個變數所含的混合訊號權重 (即因素負荷
)。
老师您好,请问 UU^T 不一定等於 I_n
舉個例子可以幫助理解,比如
。
SVD分解中的U不是m*m的吗?
哦 谢谢老师 没看仔细 一个是In 一个是Ip