Tag Archives: 相關係數

主成分分析與低秩矩陣近似

本文的閱讀等級:高級 假設我們有一筆維數等於 ,樣本大小為 的數據 ,也就是說每一個數據點 包含 個變數的量測值。沿用統計學與數據科學的慣例 (見“數據矩陣的列與行”),定義 階數據矩陣 , 其中 代表第 個變數的第 個量測值,,。在不造成混淆的情況下,以下用 表示第 個變數。如果數據包含大量的變數 ( 很大) 或者變數之間存在顯著的共線性關係[1],你可以設計一個從向量空間 映至 的線性映射,,數據點 經映射後的像 (image) 構築另一筆變數較少且兩兩變數不存在線性相關性的新數據,這個方法稱為主成分分析 (principal components analysis)。從統計學的觀點,主成分分析的目的是找到少量的新變數,稱為降維 (dimension reduction),同時盡可能地保留變數的總變異量。從線性代數的觀點,主成分分析其實是一種矩陣近似法,我們希望得到一個最近似於原數據矩陣 的低秩 (low rank) 同尺寸矩陣。本文證明證明主成分分析與低秩矩陣近似在本質上是相同的問題。 Advertisements

Posted in 線性代數專欄, 應用之道 | Tagged , , , , | Leave a comment

答Yanjun Li──關於多隨機變數的兩個線性組合的共變異數

網友Yanjun Li留言: 近期拜讀了周老師寫的變異數矩陣,主成份分析,奇異值分解等專題,感覺對線性代數的一些知識有了重新認識。在閱讀過程中,產生了一些疑問,請周老師不吝賜教: 是兩兩互不相關的變量,另有 和 兩個變量,是 的線性組合: 如果 中的某一個係數明顯比其餘每一個係數大很多,同時 中的某一個係數明顯比其餘每一個係數大很多,並且兩組係數中,最大的 和 滿足 不等於 。當滿足上述條件時,是否可以認為, 和 的相關程度很低? 如果 中的某一個係數大於其餘每一個係數,同時 中的某一個係數大於其餘每一個係數,並且兩組係數中,最大的 和 滿足 不等於 。當滿足上述條件時,是否可以認為, 和 的相關程度不高? 與 之間的共變異數,是否可以用 和 ,以及 的變異數,計算出來? 感謝周老師在百忙之中閱讀我的問題!

Posted in 答讀者問, 機率統計 | Tagged , | Leave a comment

多變量常態分布

本文的閱讀等級:中級 在數學、統計學、物理和工程等領域,常態分佈 (normal distribution,Gaussian distribution) 是一個非常重要的連續型機率 (概率) 分布模型。本文將回答下列問題: 如何推導多變量常態分布的機率密度函數 (probability density function)? 怎麼證明服從常態分布的隨機向量的線性變換也為常態分布? 怎麼證明服從常態分布的多隨機變數的子集合亦為常態分布? 如何判別二組 (常態分布) 隨機變數集的獨立性? 具有常態分布的條件機率密度函數為何? 給定條件機率密度函數 ,如何計算 ? 為了避免繁瑣的積分運算,我們以動差生成函數 (moment generating function) 推演,這個方法的理論基礎在於動差生成函數唯一決定機率密度函數 (見“動差生成函數 (上)”)。下面先介紹標準多變量常態分布,隨後通過仿射變換 (affine transformation) 推廣至一般多變量常態分布。

Posted in 機率統計 | Tagged , , , , , , , , , | Leave a comment

共變異數矩陣的性質

本文的閱讀等級:初級 令 為一個隨機向量,其中 是隨機變數。共變異數矩陣 (covariance matrix) 定義如下: , 其中 是期望值算子,。根據定義, 為 階矩陣,具有下列形式: 共變異數矩陣 的 元是 和 的共變異數 (covariance,或稱協方差) 。因為 ,共變異數矩陣的主對角元即為隨機變數 的變異數 (variance)。本文介紹共變異數矩陣的一些基本性質。

Posted in 機率統計 | Tagged , , | 6 Comments

答Regan Yuan──關於主成分分析的奇異值分解算法

網友Regan Yuan留言: 老师您好,首先对您以往的支持和耐心详细的讲解,表示由衷的敬意和感谢!再次虚心请教老师一个问题,对于采用singular value decomposition的principal components analysis算法,最近总是有些搞不清,能否提供一个具体的例子呢?比如下面这个问题:五个学生 (5 cases or observations) 的跳高,跳远,乒乓球三门具有相关性的体育成绩 (3 variables or dimensions) 的 矩阵, , 用PCA进行降维度,具体解决方法如何?请明示,谢谢您!祝您开心每一天!

Posted in 答讀者問, 應用之道 | Tagged , , , | 31 Comments

數據矩陣的列與行

本文的閱讀等級:初級 數據分析始於對所採集到的樣本求取敘述統計量。假設我們有一筆包含 個變數,樣本大小 (量測總量) 為 的資料。沿用統計學的慣例,我們以粗體大寫英文字母表示 階數據矩陣,如下: , 其中 代表第 個變數的第 次量測值。在多數的應用中,量測值為實數。數據矩陣的每一行 (column) 對應一個變數,每一列 (row) 對應一組多變量觀測[1]。矩陣的行列提示了兩種解釋數據樣本幾何意義的觀點。如果採用列觀點,數據矩陣 記錄 空間中 個數據點,寫出 , 其中列向量座標 代表第 個數據點的 個量測值。倘若採用行觀點, 包含對應 個變數 維向量,如下: , 其中行向量 記錄第 個變數的 次量測值。在不造成混淆的情況下,我們以 表示第 個變數。

Posted in 機率統計 | Tagged , , , , | Leave a comment

主成分分析與奇異值分解

本文的閱讀等級:高級 給定一份樣本大小為 的數據 ,其中 是 維實向量,記錄 個變數的觀測值。所有的數據點 扣除平均數向量 可得 階離差矩陣 (deviation matrix) ,表示如下: , 其中 是第 個數據點的第 個變數值,也就是說, 的每一列 (row) 對應一個數據點,每一行 (column) 對應一個變數。假設 不存在常數行,即每個變數總是存在若干變異。如欲將數據予以標準化 (每一變數的平均數等於 ,變異數等於 ),將 的每一行的所有元除以該變數的樣本標準差 (樣本變異數的平方根),即有 , 其中 是第 個變數的樣本變異數, 是第 個變數的樣本平均數 (見“樣本平均數、變異數和共變異數”)。令 。標準化後的離差矩陣可表示為 。當數據集的變數總數 很大或變數具有相關性時,主成分分析 (principal … Continue reading

Posted in 線性代數專欄, 二次型 | Tagged , , , , , , , , , , | 4 Comments

主成分分析

本文的閱讀等級:高級 美國作家梭羅 (Henry D. Thoreau) 在《湖濱散記》談到他的幽居生活時,說道[1]: 我們的生活消耗在瑣碎之中。一個老實的人除了十指之外,便不必有更大的數字了,頂多加上十個足趾,其餘不妨勉強一下。簡單,簡單,簡單啊!我說,最好你的事祇兩三件,不要一百件或一千件;不必一百萬一百萬地計算,半打不夠計算嗎?總之,賬目可以記在大拇指甲上就好了。 我們也許不能複製梭羅在瓦爾登湖 (Walden) 的簡單生活,但是我們永遠可以通過化繁為簡來改善現況。處於資訊爆炸的時代,我們不免要面對變數很多且樣本數很大的資料。在分析高維度 (變數很多) 數據時,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis,簡稱 PCA) 由英國統計學家皮爾生 (Karl Pearson) 於1901年提出[2],是一種降低數據維度的有效技術。主成分分析的主要構想是分析共變異數矩陣 (covariance matrix) 的特徵性質 (見“共變異數矩陣與常態分布”),以得出數據的主成分 (即特徵向量) 與它們的權值 (即特徵值);透過保留低階主成分 (對應大特徵值),捨棄高階主成分 (對應小特徵值),達到減少數據集維度,同時保留最大數據集變異的目的。本文從線性代數觀點介紹主成分分析,並討論實際應用時可能遭遇的一些問題。

Posted in 機器學習 | Tagged , , , , , , , , , | 19 Comments

樣本平均數、變異數和共變異數

本文的閱讀等級:中級 在統計學中,我們感興趣的全部個體或項目所成的集合稱為母體 (population),譬如,某農場的羊群,某國家的人民。母體的一個未知或已知數值稱為參數 (parameter),通常用來定義統計模型,譬如,某農場羊寄生蟲的發病率,某國家人均所得變異數。為了估計母體的參數,我們從母體選出一組個體或項目稱為樣本 (sample)。只要不含未知參數,任何一個由樣本數據構成的函數都稱為統計量 (statistic)。所以參數用於母體,統計量則用於樣本。本文介紹線性代數觀點下的三個統計量:樣本平均數 (sample mean),樣本變異數 (sample variance) 和樣本共變異數 (sample covariance)。   假設我們從調查或實驗中獲得一組樣本數據 ,一般人最先想到的統計量是集中趨勢測度,也就是這組數據的中心值或典型值,設為 。我們用一個誤差函數來測量單一數值 代表整組數據 的適合性。在統計學與工程應用中,均方誤差 (mean squared error) 是最常被採用的誤差函數,如下: 其中 是樣本數據構成的實向量,。樣本數據 是從母體抽取的 個觀測值,或視為 空間的一個點,從這個幾何觀點得以切進線性代數。理想的中心值 應該具有最小的均方誤差,而此最小均方誤差值可用來表示樣本的離散 (偏離中心值) 趨勢。稍後我會解釋為何均方誤差不除以樣本數 ,而是除以 ,但不論除以哪個 (非零) 常數都不會改變使誤差函數最小化的中心值。至少有三個方法可解出使 最小化的 值:根據基礎微分學,最小均方誤差發生於 [1];從幾何直覺下手,正交原則給出最小均方誤差的一個充要條件;在幾何座標空間 中,當 等於 … Continue reading

Posted in 機率統計 | Tagged , , , , , , , | 15 Comments

相關係數

本文的閱讀等級:中級 假設我們從實驗、研究或調查中獲得兩個變數 , 的觀測記錄 ,。若一個變數變化時,另一個變數也以某種相關方式變化,我們便稱這兩個變數彼此相關 (correlation)。如果兩個變數之間的關係是線性的,那麼要如何測量它們的相關程度呢?在實際應用中,皮爾生相關係數 (Pearson correlation coefficient) 是目前最普遍被採用的一種度量方式。本文從幾何觀點推導皮爾生相關係數並解釋其涵義。

Posted in 機率統計 | Tagged , , , | 2 Comments