Tag Archives: 主成分分析

因素分析

本文的閱讀等級:高級 因素分析 (factor analysis) 是統計學中一種多變量分析法。因素分析與主成分分析具有一些相同的概念與技巧,但兩者的建模推理方向相反。假設可量測的隨機向量 服從一個未知的機率分布 ,期望值為 ,共變異數矩陣為 ,。主成分分析的主要功用是降維 (dimension reduction),我們從原始的變數 構築一組新變數 ,。具體地說,低維隨機向量 由離差 (deviation) 的線性映射產生: , 其中 是一個 階矩陣滿足 (見“主成分分析”)。在因素分析,我們設想隨機向量 的資料生成模型 (generative model) 為 , 其中 是一組無法量測的隱藏變數,稱為隱藏因素 (hidden factor)、共同因素 (common factor) 或簡稱因素, 是一個 階變換矩陣[1], 是代表雜音的隨機向量。本文討論的問題包括: 因素分析如何描述多隨機變數的產生? 如何估計因素分析的模型參數? 因素分析如何解釋隱藏因素的涵義? 因素分析如何應用於降維? … Continue reading

Posted in 機器學習 | Tagged , , , | Leave a comment

主成分分析與低秩矩陣近似

本文的閱讀等級:高級 假設我們有一筆維數等於 ,樣本大小為 的數據 ,也就是說每一個數據點 包含 個變數的量測值。沿用統計學與數據科學的慣例 (見“數據矩陣的列與行”),定義 階數據矩陣 , 其中 代表第 個變數的第 個量測值,,。在不造成混淆的情況下,以下用 表示第 個變數。如果數據包含大量的變數 ( 很大) 或者變數之間存在顯著的共線性關係[1],你可以設計一個從向量空間 映至 的線性映射,,數據點 經映射後的像 (image) 構築另一筆變數較少且兩兩變數不存在線性相關性的新數據,這個方法稱為主成分分析 (principal components analysis)。從統計學的觀點,主成分分析的目的是找到少量的新變數,稱為降維 (dimension reduction),同時盡可能地保留變數的總變異量。從線性代數的觀點,主成分分析其實是一種矩陣近似法,我們希望得到一個最近似於原數據矩陣 的低秩 (low rank) 同尺寸矩陣。本文證明證明主成分分析與低秩矩陣近似在本質上是相同的問題。

Posted in 線性代數專欄, 應用之道 | Tagged , , , , | Leave a comment

答Regan Yuan──關於主成分分析的奇異值分解算法

網友Regan Yuan留言: 老师您好,首先对您以往的支持和耐心详细的讲解,表示由衷的敬意和感谢!再次虚心请教老师一个问题,对于采用singular value decomposition的principal components analysis算法,最近总是有些搞不清,能否提供一个具体的例子呢?比如下面这个问题:五个学生 (5 cases or observations) 的跳高,跳远,乒乓球三门具有相关性的体育成绩 (3 variables or dimensions) 的 矩阵, , 用PCA进行降维度,具体解决方法如何?请明示,谢谢您!祝您开心每一天!

Posted in 答讀者問, 應用之道 | Tagged , , , | 31 Comments

古典多維標度法 (MDS)

本文的閱讀等級:中級 下圖顯示一份手寫數字的樣本,其中每一數字以大小為 像素 (pixel) 的灰階圖片儲存。讀者不妨想像樣本所含的200張數字圖片對應於 空間的200個數據點。我們提出下面的問題:給定這份樣本資料,如何「目視」數據點於高維空間的散佈?主成分分析 (principal components analysis) 是當今最常採行的一種降維技術 (見“主成分分析”)。在保留數據集的最大變異前提下,將高維數據點正交投影至一個特定的二維空間,此空間由對應樣本共變異數矩陣的最大兩個特徵值的特徵向量擴張而成。如此一來,我們可在平面上觀察所有數據點的投影位置 (稱為主成分係數)。   不過,在某些應用場合,我們僅知道任兩數據點的相異性 (dissimilarity)。舉例來說,手寫數字包含許多變異,如位移、旋轉、伸縮與形變,直接計算兩數字圖片於同一像素位置的灰階差距並不能反映實際的型態差異,我們必須先把兩圖放在可供比較的基準上。為了降低上述變異造成的影響,在比對圖片之前,我們容許一圖 (或兩圖) 些微調整轉變 (見“最小平方法於圖形比對的應用”),並採用各種複雜的圖片相異性算法。因為這些緣故,主成分分析不適用於手寫數字圖片的降維。本文介紹一個建立於數據點的相異性的降維方法,稱為多維標度法 (multidimensional scaling,簡稱 MDS)。下圖顯示手寫數字集經多維標度法處理後得到的二維標度散佈圖。根據相異性的定義,多維標度法可區分為公制 (metric) 與非公制 (nonmetric),前者採用歐幾里得距離 (簡稱歐氏距離),後者則泛指任何非歐氏距離[1]。本文將介紹公制,也稱古典多維標度法,並解說古典多維標度法與主成分分析的關係。

Posted in 機器學習 | Tagged , , , , | Leave a comment

主成分分析與奇異值分解

本文的閱讀等級:高級 給定一份樣本大小為 的數據 ,其中 是 維實向量,記錄 個變數的觀測值。所有的數據點 扣除平均數向量 可得 階離差矩陣 (deviation matrix) ,表示如下: , 其中 是第 個數據點的第 個變數值,也就是說, 的每一列 (row) 對應一個數據點,每一行 (column) 對應一個變數。假設 不存在常數行,即每個變數總是存在若干變異。如欲將數據予以標準化 (每一變數的平均數等於 ,變異數等於 ),將 的每一行的所有元除以該變數的樣本標準差 (樣本變異數的平方根),即有 , 其中 是第 個變數的樣本變異數, 是第 個變數的樣本平均數 (見“樣本平均數、變異數和共變異數”)。令 。標準化後的離差矩陣可表示為 。當數據集的變數總數 很大或變數具有相關性時,主成分分析 (principal … Continue reading

Posted in 線性代數專欄, 二次型 | Tagged , , , , , , , , , , | 4 Comments

主成分分析

本文的閱讀等級:高級 美國作家梭羅 (Henry D. Thoreau) 在《湖濱散記》談到他的幽居生活時,說道[1]: 我們的生活消耗在瑣碎之中。一個老實的人除了十指之外,便不必有更大的數字了,頂多加上十個足趾,其餘不妨勉強一下。簡單,簡單,簡單啊!我說,最好你的事祇兩三件,不要一百件或一千件;不必一百萬一百萬地計算,半打不夠計算嗎?總之,賬目可以記在大拇指甲上就好了。 我們也許不能複製梭羅在瓦爾登湖 (Walden) 的簡單生活,但是我們永遠可以通過化繁為簡來改善現況。處於資訊爆炸的時代,我們不免要面對變數很多且樣本數很大的資料。在分析高維度 (變數很多) 數據時,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis,簡稱 PCA) 由英國統計學家皮爾生 (Karl Pearson) 於1901年提出[2],是一種降低數據維度的有效技術。主成分分析的主要構想是分析共變異數矩陣 (covariance matrix) 的特徵性質 (見“共變異數矩陣與常態分布”),以得出數據的主成分 (即特徵向量) 與它們的權值 (即特徵值);透過保留低階主成分 (對應大特徵值),捨棄高階主成分 (對應小特徵值),達到減少數據集維度,同時保留最大數據集變異的目的。本文從線性代數觀點介紹主成分分析,並討論實際應用時可能遭遇的一些問題。

Posted in 機器學習 | Tagged , , , , , , , , , | 19 Comments

二次型與正定矩陣

本文的閱讀等級:中級 設 為 階實矩陣, 為 維實向量,具有以下形式的實函數稱為二次型 (quadratic form): 。

Posted in 線性代數專欄, 二次型 | Tagged , , , , , , , | 12 Comments

達文西的容貌

《蒙娜麗莎》可能是世人最熟識的面貌之一,但有多少人能夠辨識出達文西的容貌呢?荷蘭插畫家 Siegfried Woldhek 在2008年 TED 演講會發表了他的研究結果,他透過藝術家採用的人像分析技術,如同偵探辦案經由一連串的推理過程,從達文西畫的120張男性人像畫裡找出自畫像。不論各位是否接受 Siegfried Woldhek 的結論,這場短短五分鐘的演講確實非常生動精彩。

Posted in 無關線代 | Tagged , , , | Leave a comment