Tag Archives: 樣本共變異數

多變量常態分布的最大似然估計

本文的閱讀等級:中級 令 為 維連續型隨機向量。若 服從 (非退化) 多變量常態分布,則機率 (概率) 密度函數完全由 維平均數向量 和 階共變異數矩陣 決定,如下: , 其中 (見“共變異數矩陣與常態分布”)。英國統計學家費雪 (Ronald Fisher) 認為機率分布只是一個抽象的數學模型,而我們所蒐集的數據僅能用來估計機率分布的參數。給定一筆取自常態分布的隨機樣本 ,如何估計模型參數,即平均數向量 和共變異數矩陣 ?本文介紹費雪提出的參數估計法,稱為最大似然估計 (maximum likelihood estimation)。根據共變異數矩陣的最大似然估計,我們引進皮爾生 (Pearson) 相關係數,並討論平均數向量的最大似然估計的分布。 Advertisements

Posted in 機率統計 | Tagged , , , , , | 3 Comments

數據矩陣的列與行

本文的閱讀等級:初級 數據分析始於對所採集到的樣本求取敘述統計量。假設我們有一筆包含 個變數,樣本大小 (量測總量) 為 的資料。沿用統計學的慣例,我們以粗體大寫英文字母表示 階數據矩陣,如下: , 其中 代表第 個變數的第 次量測值。在多數的應用中,量測值為實數。數據矩陣的每一行 (column) 對應一個變數,每一列 (row) 對應一組多變量觀測[1]。矩陣的行列提示了兩種解釋數據樣本幾何意義的觀點。如果採用列觀點,數據矩陣 記錄 空間中 個數據點,寫出 , 其中列向量座標 代表第 個數據點的 個量測值。倘若採用行觀點, 包含對應 個變數 維向量,如下: , 其中行向量 記錄第 個變數的 次量測值。在不造成混淆的情況下,我們以 表示第 個變數。

Posted in 機率統計 | Tagged , , , , | Leave a comment

主成分分析

本文的閱讀等級:高級 美國作家梭羅 (Henry D. Thoreau) 在《湖濱散記》談到他的幽居生活時,說道[1]: 我們的生活消耗在瑣碎之中。一個老實的人除了十指之外,便不必有更大的數字了,頂多加上十個足趾,其餘不妨勉強一下。簡單,簡單,簡單啊!我說,最好你的事祇兩三件,不要一百件或一千件;不必一百萬一百萬地計算,半打不夠計算嗎?總之,賬目可以記在大拇指甲上就好了。 我們也許不能複製梭羅在瓦爾登湖 (Walden) 的簡單生活,但是我們永遠可以通過化繁為簡來改善現況。處於資訊爆炸的時代,我們不免要面對變數很多且樣本數很大的資料。在分析高維度 (變數很多) 數據時,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis,簡稱 PCA) 由英國統計學家皮爾生 (Karl Pearson) 於1901年提出[2],是一種降低數據維度的有效技術。主成分分析的主要構想是分析共變異數矩陣 (covariance matrix) 的特徵性質 (見“共變異數矩陣與常態分布”),以得出數據的主成分 (即特徵向量) 與它們的權值 (即特徵值);透過保留低階主成分 (對應大特徵值),捨棄高階主成分 (對應小特徵值),達到減少數據集維度,同時保留最大數據集變異的目的。本文從線性代數觀點介紹主成分分析,並討論實際應用時可能遭遇的一些問題。

Posted in 機器學習 | Tagged , , , , , , , , , | 19 Comments

樣本平均數、變異數和共變異數

本文的閱讀等級:中級 在統計學中,我們感興趣的全部個體或項目所成的集合稱為母體 (population),譬如,某農場的羊群,某國家的人民。母體的一個未知或已知數值稱為參數 (parameter),通常用來定義統計模型,譬如,某農場羊寄生蟲的發病率,某國家人均所得變異數。為了估計母體的參數,我們從母體選出一組個體或項目稱為樣本 (sample)。只要不含未知參數,任何一個由樣本數據構成的函數都稱為統計量 (statistic)。所以參數用於母體,統計量則用於樣本。本文介紹線性代數觀點下的三個統計量:樣本平均數 (sample mean),樣本變異數 (sample variance) 和樣本共變異數 (sample covariance)。   假設我們從調查或實驗中獲得一組樣本數據 ,一般人最先想到的統計量是集中趨勢測度,也就是這組數據的中心值或典型值,設為 。我們用一個誤差函數來測量單一數值 代表整組數據 的適合性。在統計學與工程應用中,均方誤差 (mean squared error) 是最常被採用的誤差函數,如下: 其中 是樣本數據構成的實向量,。樣本數據 是從母體抽取的 個觀測值,或視為 空間的一個點,從這個幾何觀點得以切進線性代數。理想的中心值 應該具有最小的均方誤差,而此最小均方誤差值可用來表示樣本的離散 (偏離中心值) 趨勢。稍後我會解釋為何均方誤差不除以樣本數 ,而是除以 ,但不論除以哪個 (非零) 常數都不會改變使誤差函數最小化的中心值。至少有三個方法可解出使 最小化的 值:根據基礎微分學,最小均方誤差發生於 [1];從幾何直覺下手,正交原則給出最小均方誤差的一個充要條件;在幾何座標空間 中,當 等於 … Continue reading

Posted in 機率統計 | Tagged , , , , , , , | 15 Comments

相關係數

本文的閱讀等級:中級 假設我們從實驗、研究或調查中獲得兩個變數 , 的觀測記錄 ,。若一個變數變化時,另一個變數也以某種相關方式變化,我們便稱這兩個變數彼此相關 (correlation)。如果兩個變數之間的關係是線性的,那麼要如何測量它們的相關程度呢?在實際應用中,皮爾生相關係數 (Pearson correlation coefficient) 是目前最普遍被採用的一種度量方式。本文從幾何觀點推導皮爾生相關係數並解釋其涵義。

Posted in 機率統計 | Tagged , , , | 2 Comments