Tag Archives: 樣本平均數

多變量常態分布的最大似然估計

本文的閱讀等級:中級 令 為 維連續型隨機向量。若 服從 (非退化) 多變量常態分布,則機率 (概率) 密度函數完全由 維平均數向量 和 階共變異數矩陣 決定,如下: , 其中 (見“共變異數矩陣與常態分布”)。英國統計學家費雪 (Ronald Fisher) 認為機率分布只是一個抽象的數學模型,而我們所蒐集的數據僅能用來估計機率分布的參數。給定一筆取自常態分布的隨機樣本 ,如何估計模型參數,即平均數向量 和共變異數矩陣 ?本文介紹費雪提出的參數估計法,稱為最大似然估計 (maximum likelihood estimation)。根據共變異數矩陣的最大似然估計,我們引進皮爾生 (Pearson) 相關係數,並討論平均數向量的最大似然估計的分布。

Posted in 機率統計 | Tagged , , , , , | 3 Comments

數據矩陣的列與行

本文的閱讀等級:初級 數據分析始於對所採集到的樣本求取敘述統計量。假設我們有一筆包含 個變數,樣本大小 (量測總量) 為 的資料。沿用統計學的慣例,我們以粗體大寫英文字母表示 階數據矩陣,如下: , 其中 代表第 個變數的第 次量測值。在多數的應用中,量測值為實數。數據矩陣的每一行 (column) 對應一個變數,每一列 (row) 對應一組多變量觀測[1]。矩陣的行列提示了兩種解釋數據樣本幾何意義的觀點。如果採用列觀點,數據矩陣 記錄 空間中 個數據點,寫出 , 其中列向量座標 代表第 個數據點的 個量測值。倘若採用行觀點, 包含對應 個變數 維向量,如下: , 其中行向量 記錄第 個變數的 次量測值。在不造成混淆的情況下,我們以 表示第 個變數。

Posted in 機率統計 | Tagged , , , , | Leave a comment

主成分分析與奇異值分解

本文的閱讀等級:高級 給定一份樣本大小為 的數據 ,其中 是 維實向量,記錄 個變數的觀測值。所有的數據點 扣除平均數向量 可得 階離差矩陣 (deviation matrix) ,表示如下: , 其中 是第 個數據點的第 個變數值,也就是說, 的每一列 (row) 對應一個數據點,每一行 (column) 對應一個變數。假設 不存在常數行,即每個變數總是存在若干變異。如欲將數據予以標準化 (每一變數的平均數等於 ,變異數等於 ),將 的每一行的所有元除以該變數的樣本標準差 (樣本變異數的平方根),即有 , 其中 是第 個變數的樣本變異數, 是第 個變數的樣本平均數 (見“樣本平均數、變異數和共變異數”)。令 。標準化後的離差矩陣可表示為 。當數據集的變數總數 很大或變數具有相關性時,主成分分析 (principal … Continue reading

Posted in 線性代數專欄, 二次型 | Tagged , , , , , , , , , , | 4 Comments

主成分分析

本文的閱讀等級:高級 美國作家梭羅 (Henry D. Thoreau) 在《湖濱散記》談到他的幽居生活時,說道[1]: 我們的生活消耗在瑣碎之中。一個老實的人除了十指之外,便不必有更大的數字了,頂多加上十個足趾,其餘不妨勉強一下。簡單,簡單,簡單啊!我說,最好你的事祇兩三件,不要一百件或一千件;不必一百萬一百萬地計算,半打不夠計算嗎?總之,賬目可以記在大拇指甲上就好了。 我們也許不能複製梭羅在瓦爾登湖 (Walden) 的簡單生活,但是我們永遠可以通過化繁為簡來改善現況。處於資訊爆炸的時代,我們不免要面對變數很多且樣本數很大的資料。在分析高維度 (變數很多) 數據時,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis,簡稱 PCA) 由英國統計學家皮爾生 (Karl Pearson) 於1901年提出[2],是一種降低數據維度的有效技術。主成分分析的主要構想是分析共變異數矩陣 (covariance matrix) 的特徵性質 (見“共變異數矩陣與常態分布”),以得出數據的主成分 (即特徵向量) 與它們的權值 (即特徵值);透過保留低階主成分 (對應大特徵值),捨棄高階主成分 (對應小特徵值),達到減少數據集維度,同時保留最大數據集變異的目的。本文從線性代數觀點介紹主成分分析,並討論實際應用時可能遭遇的一些問題。

Posted in 機器學習 | Tagged , , , , , , , , , | 20 Comments

共變異數矩陣與常態分布

本文的閱讀等級:中級 常態分布 (normal distribution),也稱高斯分布 (Gaussian distribution),其機率密度函數為 , 其中 是平均數 (mean), 是變異數 (variance)。對於 ,多變量常態分布的形式如下 (見“ 多變量常態分布”): , 其中 是平均數向量, 是 階共變異數矩陣 (covariance matrix), 是 的行列式。常態分布是一種應用相當廣泛的連續型機率分布,原因之一是大自然產生的變數經常具有常態分布,譬如,某城市成年男子的身高,某田地產出的蘿蔔重量;另外,對於從母體隨機抽取出的樣本,當樣本數增大時,樣本平均數的分布逼近常態分布[1] (見“ 樣本平均數、變異數和共變異數”)。圖1為 的一個常態分布樣本。本文從線性代數觀點探討常態分布與共變異數矩陣的幾何涵義。

Posted in 機率統計 | Tagged , , , , , , , , , , , , , | 5 Comments

樣本平均數與樣本中位數,孰優孰劣?

本文的閱讀等級:初級 美國科學史家孔恩 (Thomas Kuhn) 在其名著《科學革命的結構》(The Structure of Scientific Revolutions) 中說道[1]: 一個科學研究傳統,不論多麼專門,學者加入這一科學社群參與研究,主要都是由研究它的典範 (paradigm) 入手。因為他所要加入的社群,其成員都是經由相同的模式習得這門科學的基礎,他加入之後的研究活動,很少會引起公開的對於本行基本前提的異議。研究者以共有的典範為基礎,就能信守相同的研究規則及標準。這種信守的態度及因而產生的明顯共識,是常態科學 (normal science),也就是某一特定研究傳統發生與延續的先決條件。 根據孔恩的解釋,「常態科學指的是以過去的科學成就為基礎所從事的研究,這些科學成就是在某一科學社群的成員在某一時期內所公認的進一步研究的基礎。」至於典範,他在書中序言簡明地說:「我所謂的典範,指的是公認的科學成就,在某一段時間內,它們對於科學家社群而言,是研究工作所要解決的問題與解答的範例。」一個科學社群的典範就是整體的理論、方法、目標、信念和專業導引。譬如,狹義地說,最小平方法──近代統計學、時間序列、訊號處理和一般線性系統最常採用的模型建置方法──即是工程科學的一個重要典範 (見“從線性變換解釋最小平方近似”)。最小平方法最早由高斯 (Carl Friedrich Gauss) 於公元1794年提出,之後發表於1809年出版的《天體運動論》中,法國數學家勒讓德 (Adrien-Marie Legendre) 亦於1806年獨立發現此法,但當時並不為人所知。最小平方法是一種最佳化技術,它通過最小化誤差平方之和來尋找數據的最佳配適 (fitting,或稱擬合) 函數。考慮下面這個簡單的例子:給定一組樣本數據 ,為了獲得這組數據的中心值 ,我們設定誤差平方之和為目標函數 。 理想的中心值 具有最小的目標函數值,因此滿足 , 此線性條件式有唯一解,我們習慣以 或 表示: , 稱為樣本平均數 (見“樣本平均數、變異數和共變異數”)。文末另外補充一個優雅的代數證法。   為甚麼不使用誤差絕對值,而要使用誤差平方作為目標函數?令 … Continue reading

Posted in 機率統計 | Tagged , , , , | 6 Comments

樣本平均數、變異數和共變異數

本文的閱讀等級:中級 在統計學中,我們感興趣的全部個體或項目所成的集合稱為母體 (population),譬如,某農場的羊群,某國家的人民。母體的一個未知或已知數值稱為參數 (parameter),通常用來定義統計模型,譬如,某農場羊寄生蟲的發病率,某國家人均所得變異數。為了估計母體的參數,我們從母體選出一組個體或項目稱為樣本 (sample)。只要不含未知參數,任何一個由樣本數據構成的函數都稱為統計量 (statistic)。所以參數用於母體,統計量則用於樣本。本文介紹線性代數觀點下的三個統計量:樣本平均數 (sample mean),樣本變異數 (sample variance) 和樣本共變異數 (sample covariance)。   假設我們從調查或實驗中獲得一組樣本數據 ,一般人最先想到的統計量是集中趨勢測度,也就是這組數據的中心值或典型值,設為 。我們用一個誤差函數來測量單一數值 代表整組數據 的適合性。在統計學與工程應用中,均方誤差 (mean squared error) 是最常被採用的誤差函數,如下: 其中 是樣本數據構成的實向量,。樣本數據 是從母體抽取的 個觀測值,或視為 空間的一個點,從這個幾何觀點得以切進線性代數。理想的中心值 應該具有最小的均方誤差,而此最小均方誤差值可用來表示樣本的離散 (偏離中心值) 趨勢。稍後我會解釋為何均方誤差不除以樣本數 ,而是除以 ,但不論除以哪個 (非零) 常數都不會改變使誤差函數最小化的中心值。至少有三個方法可解出使 最小化的 值:根據基礎微分學,最小均方誤差發生於 [1];從幾何直覺下手,正交原則給出最小均方誤差的一個充要條件;在幾何座標空間 中,當 等於 … Continue reading

Posted in 機率統計 | Tagged , , , , , , , | 16 Comments