Tag Archives: 樣本變異數

主成分分析與低秩矩陣近似

本文的閱讀等級:高級 假設我們有一筆維數等於 ,樣本大小為 的數據 ,也就是說每一個數據點 包含 個變數的量測值。沿用統計學與數據科學的慣例 (見“數據矩陣的列與行”),定義 階數據矩陣 , 其中 代表第 個變數的第 個量測值,,。在不造成混淆的情況下,以下用 表示第 個變數。如果數據包含大量的變數 ( 很大) 或者變數之間存在顯著的共線性關係[1],你可以設計一個從向量空間 映至 的線性映射,,數據點 經映射後的像 (image) 構築另一筆變數較少且兩兩變數不存在線性相關性的新數據,這個方法稱為主成分分析 (principal components analysis)。從統計學的觀點,主成分分析的目的是找到少量的新變數,稱為降維 (dimension reduction),同時盡可能地保留變數的總變異量。從線性代數的觀點,主成分分析其實是一種矩陣近似法,我們希望得到一個最近似於原數據矩陣 的低秩 (low rank) 同尺寸矩陣。本文證明證明主成分分析與低秩矩陣近似在本質上是相同的問題。 Advertisements

Posted in 線性代數專欄, 應用之道 | Tagged , , , , | Leave a comment

數據矩陣的列與行

本文的閱讀等級:初級 數據分析始於對所採集到的樣本求取敘述統計量。假設我們有一筆包含 個變數,樣本大小 (量測總量) 為 的資料。沿用統計學的慣例,我們以粗體大寫英文字母表示 階數據矩陣,如下: , 其中 代表第 個變數的第 次量測值。在多數的應用中,量測值為實數。數據矩陣的每一行 (column) 對應一個變數,每一列 (row) 對應一組多變量觀測[1]。矩陣的行列提示了兩種解釋數據樣本幾何意義的觀點。如果採用列觀點,數據矩陣 記錄 空間中 個數據點,寫出 , 其中列向量座標 代表第 個數據點的 個量測值。倘若採用行觀點, 包含對應 個變數 維向量,如下: , 其中行向量 記錄第 個變數的 次量測值。在不造成混淆的情況下,我們以 表示第 個變數。

Posted in 機率統計 | Tagged , , , , | Leave a comment

主成分分析與奇異值分解

本文的閱讀等級:高級 給定一份樣本大小為 的數據 ,其中 是 維實向量,記錄 個變數的觀測值。所有的數據點 扣除平均數向量 可得 階離差矩陣 (deviation matrix) ,表示如下: , 其中 是第 個數據點的第 個變數值,也就是說, 的每一列 (row) 對應一個數據點,每一行 (column) 對應一個變數。假設 不存在常數行,即每個變數總是存在若干變異。如欲將數據予以標準化 (每一變數的平均數等於 ,變異數等於 ),將 的每一行的所有元除以該變數的樣本標準差 (樣本變異數的平方根),即有 , 其中 是第 個變數的樣本變異數, 是第 個變數的樣本平均數 (見“樣本平均數、變異數和共變異數”)。令 。標準化後的離差矩陣可表示為 。當數據集的變數總數 很大或變數具有相關性時,主成分分析 (principal … Continue reading

Posted in 線性代數專欄, 二次型 | Tagged , , , , , , , , , , | 4 Comments

樣本平均數、變異數和共變異數

本文的閱讀等級:中級 在統計學中,我們感興趣的全部個體或項目所成的集合稱為母體 (population),譬如,某農場的羊群,某國家的人民。母體的一個未知或已知數值稱為參數 (parameter),通常用來定義統計模型,譬如,某農場羊寄生蟲的發病率,某國家人均所得變異數。為了估計母體的參數,我們從母體選出一組個體或項目稱為樣本 (sample)。只要不含未知參數,任何一個由樣本數據構成的函數都稱為統計量 (statistic)。所以參數用於母體,統計量則用於樣本。本文介紹線性代數觀點下的三個統計量:樣本平均數 (sample mean),樣本變異數 (sample variance) 和樣本共變異數 (sample covariance)。   假設我們從調查或實驗中獲得一組樣本數據 ,一般人最先想到的統計量是集中趨勢測度,也就是這組數據的中心值或典型值,設為 。我們用一個誤差函數來測量單一數值 代表整組數據 的適合性。在統計學與工程應用中,均方誤差 (mean squared error) 是最常被採用的誤差函數,如下: 其中 是樣本數據構成的實向量,。樣本數據 是從母體抽取的 個觀測值,或視為 空間的一個點,從這個幾何觀點得以切進線性代數。理想的中心值 應該具有最小的均方誤差,而此最小均方誤差值可用來表示樣本的離散 (偏離中心值) 趨勢。稍後我會解釋為何均方誤差不除以樣本數 ,而是除以 ,但不論除以哪個 (非零) 常數都不會改變使誤差函數最小化的中心值。至少有三個方法可解出使 最小化的 值:根據基礎微分學,最小均方誤差發生於 [1];從幾何直覺下手,正交原則給出最小均方誤差的一個充要條件;在幾何座標空間 中,當 等於 … Continue reading

Posted in 機率統計 | Tagged , , , , , , , | 15 Comments

相關係數

本文的閱讀等級:中級 假設我們從實驗、研究或調查中獲得兩個變數 , 的觀測記錄 ,。若一個變數變化時,另一個變數也以某種相關方式變化,我們便稱這兩個變數彼此相關 (correlation)。如果兩個變數之間的關係是線性的,那麼要如何測量它們的相關程度呢?在實際應用中,皮爾生相關係數 (Pearson correlation coefficient) 是目前最普遍被採用的一種度量方式。本文從幾何觀點推導皮爾生相關係數並解釋其涵義。

Posted in 機率統計 | Tagged , , , | 2 Comments