Category Archives: 機率統計

多變量常態分布

本文的閱讀等級:中級 在數學、統計學、物理和工程等領域,常態分佈 (normal distribution,Gaussian distribution) 是一個非常重要的連續型機率 (概率) 分布模型。本文將回答下列問題: 如何推導多變量常態分布的機率密度函數 (probability density function)? 怎麼證明服從常態分布的隨機向量的線性變換也為常態分布? 怎麼證明服從常態分布的多隨機變數的子集合亦為常態分布? 如何判別二組 (常態分布) 隨機變數集的獨立性? 具有常態分布的條件機率密度函數為何? 給定條件機率密度函數 ,如何計算 ? 為了避免繁瑣的積分運算,我們以動差生成函數 (moment generating function) 推演,這個方法的理論基礎在於動差生成函數唯一決定機率密度函數 (見“動差生成函數 (上)”)。下面先介紹標準多變量常態分布,隨後通過仿射變換 (affine transformation) 推廣至一般多變量常態分布。 Advertisements

Posted in 機率統計 | Tagged , , , , , , , , , | Leave a comment

共變異數矩陣的性質

本文的閱讀等級:初級 令 為一個隨機向量,其中 是隨機變數。共變異數矩陣 (covariance matrix) 定義如下: , 其中 是期望值算子,。根據定義, 為 階矩陣,具有下列形式: 共變異數矩陣 的 元是 和 的共變異數 (covariance,或稱協方差) 。因為 ,共變異數矩陣的主對角元即為隨機變數 的變異數 (variance)。本文介紹共變異數矩陣的一些基本性質。

Posted in 機率統計 | Tagged , , | 6 Comments

數據矩陣的列與行

本文的閱讀等級:初級 數據分析始於對所採集到的樣本求取敘述統計量。假設我們有一筆包含 個變數,樣本大小 (量測總量) 為 的資料。沿用統計學的慣例,我們以粗體大寫英文字母表示 階數據矩陣,如下: , 其中 代表第 個變數的第 次量測值。在多數的應用中,量測值為實數。數據矩陣的每一行 (column) 對應一個變數,每一列 (row) 對應一組多變量觀測[1]。矩陣的行列提示了兩種解釋數據樣本幾何意義的觀點。如果採用列觀點,數據矩陣 記錄 空間中 個數據點,寫出 , 其中列向量座標 代表第 個數據點的 個量測值。倘若採用行觀點, 包含對應 個變數 維向量,如下: , 其中行向量 記錄第 個變數的 次量測值。在不造成混淆的情況下,我們以 表示第 個變數。

Posted in 機率統計 | Tagged , , , , | Leave a comment

動差生成函數 (下)

本文的閱讀等級:中級 延續前文“動差生成函數 (上)”,本文將探討連續型隨機變數的動差生成函數。連續型隨機變數 的值域為全部實數或由一部分區間組成,即 ,其中 。連續型隨機變數 的機率分布一般以下面兩種方式表示: 機率密度函數 (probability density function) 滿足 。 累積分布函數 代表 。 連續型隨機變數 的期望值 和變異數 定義為 我們稱 的期望值為 的 次動差,表示如下: , 前提是上式必須收斂。連續型隨機變數 的動差生成函數定義為 , 其中最後一個等號係因 是隨機變數的線性算子。計算 在 的 次導數可得 ,因為 立得 。

Posted in 機率統計 | Tagged , , , , , , , , | 2 Comments

動差生成函數 (上)

本文的閱讀等級:中級 機率 (概率) 學的研究始於隨機實驗。考慮投擲一顆六面骰子,樣本空間是所有可能出現點數形成的集合。為了分析機率模型,我們定義隨機變數 為一個從樣本空間至實數系的函數。(本文沿用機率學的慣用符號,隨機變數以大寫斜體英文字母表示,矩陣則以大寫粗體英文字母表示。) 譬如,若骰子擲出 點,則設 ,因此 的值域為 。如果隨機變數 的值域為一有限集 或無限可數集 (包含無窮多個元素的集合,其中每一個元素唯一對應一個自然數),則 稱為離散型隨機變數。如果隨機變數 的值域為全部實數或由一部分區間組成,即 ,其中 ,則 稱為連續型隨機變數。本文討論內容限定於離散型隨機變數 (下篇將介紹連續型隨機變數的動差生成函數)。在機率學中,離散型隨機變數 的機率分布通常以兩種方式表示: 機率質量函數 (probability mass function) ,即 等於 的機率。在不造成混淆的情況下,我們經常稱機率質量函數為機率分布。 累積分布函數 (cumulative distribution function) ,即 不大於 的機率。顯然,。 本文將介紹第三種機率分布的描述方式,稱為動差生成函數或動差母函數 (moment generating function)。

Posted in 機率統計 | Tagged , , , , , , , | 4 Comments

共變異數矩陣與常態分布

本文的閱讀等級:中級 常態分布 (normal distribution),也稱高斯分布 (Gaussian distribution),其機率密度函數為 , 其中 是平均數 (mean), 是變異數 (variance)。對於 ,多變量常態分布的形式如下 (見“ 多變量常態分布”): , 其中 是平均數向量, 是 階共變異數矩陣 (covariance matrix), 是 的行列式。常態分布是一種應用相當廣泛的連續型機率分布,原因之一是大自然產生的變數經常具有常態分布,譬如,某城市成年男子的身高,某田地產出的蘿蔔重量;另外,對於從母體隨機抽取出的樣本,當樣本數增大時,樣本平均數的分布逼近常態分布[1] (見“ 樣本平均數、變異數和共變異數”)。圖1為 的一個常態分布樣本。本文從線性代數觀點探討常態分布與共變異數矩陣的幾何涵義。

Posted in 機率統計 | Tagged , , , , , , , , , , , , , | 5 Comments

樣本平均數與樣本中位數,孰優孰劣?

本文的閱讀等級:初級 美國科學史家孔恩 (Thomas Kuhn) 在其名著《科學革命的結構》(The Structure of Scientific Revolutions) 中說道[1]: 一個科學研究傳統,不論多麼專門,學者加入這一科學社群參與研究,主要都是由研究它的典範 (paradigm) 入手。因為他所要加入的社群,其成員都是經由相同的模式習得這門科學的基礎,他加入之後的研究活動,很少會引起公開的對於本行基本前提的異議。研究者以共有的典範為基礎,就能信守相同的研究規則及標準。這種信守的態度及因而產生的明顯共識,是常態科學 (normal science),也就是某一特定研究傳統發生與延續的先決條件。 根據孔恩的解釋,「常態科學指的是以過去的科學成就為基礎所從事的研究,這些科學成就是在某一科學社群的成員在某一時期內所公認的進一步研究的基礎。」至於典範,他在書中序言簡明地說:「我所謂的典範,指的是公認的科學成就,在某一段時間內,它們對於科學家社群而言,是研究工作所要解決的問題與解答的範例。」一個科學社群的典範就是整體的理論、方法、目標、信念和專業導引。譬如,狹義地說,最小平方法──近代統計學、時間序列、訊號處理和一般線性系統最常採用的模型建置方法──即是工程科學的一個重要典範 (見“從線性變換解釋最小平方近似”)。最小平方法最早由高斯 (Carl Friedrich Gauss) 於公元1794年提出,之後發表於1809年出版的《天體運動論》中,法國數學家勒讓德 (Adrien-Marie Legendre) 亦於1806年獨立發現此法,但當時並不為人所知。最小平方法是一種最佳化技術,它通過最小化誤差平方之和來尋找數據的最佳配適 (fitting,或稱擬合) 函數。考慮下面這個簡單的例子:給定一組樣本數據 ,為了獲得這組數據的中心值 ,我們設定誤差平方之和為目標函數 。 理想的中心值 具有最小的目標函數值,因此滿足 , 此線性條件式有唯一解,我們習慣以 或 表示: , 稱為樣本平均數 (見“樣本平均數、變異數和共變異數”)。文末另外補充一個優雅的代數證法。   為甚麼不使用誤差絕對值,而要使用誤差平方作為目標函數?令 … Continue reading

Posted in 機率統計 | Tagged , , , , | 6 Comments

樣本平均數、變異數和共變異數

本文的閱讀等級:中級 在統計學中,我們感興趣的全部個體或項目所成的集合稱為母體 (population),譬如,某農場的羊群,某國家的人民。母體的一個未知或已知數值稱為參數 (parameter),通常用來定義統計模型,譬如,某農場羊寄生蟲的發病率,某國家人均所得變異數。為了估計母體的參數,我們從母體選出一組個體或項目稱為樣本 (sample)。只要不含未知參數,任何一個由樣本數據構成的函數都稱為統計量 (statistic)。所以參數用於母體,統計量則用於樣本。本文介紹線性代數觀點下的三個統計量:樣本平均數 (sample mean),樣本變異數 (sample variance) 和樣本共變異數 (sample covariance)。   假設我們從調查或實驗中獲得一組樣本數據 ,一般人最先想到的統計量是集中趨勢測度,也就是這組數據的中心值或典型值,設為 。我們用一個誤差函數來測量單一數值 代表整組數據 的適合性。在統計學與工程應用中,均方誤差 (mean squared error) 是最常被採用的誤差函數,如下: 其中 是樣本數據構成的實向量,。樣本數據 是從母體抽取的 個觀測值,或視為 空間的一個點,從這個幾何觀點得以切進線性代數。理想的中心值 應該具有最小的均方誤差,而此最小均方誤差值可用來表示樣本的離散 (偏離中心值) 趨勢。稍後我會解釋為何均方誤差不除以樣本數 ,而是除以 ,但不論除以哪個 (非零) 常數都不會改變使誤差函數最小化的中心值。至少有三個方法可解出使 最小化的 值:根據基礎微分學,最小均方誤差發生於 [1];從幾何直覺下手,正交原則給出最小均方誤差的一個充要條件;在幾何座標空間 中,當 等於 … Continue reading

Posted in 機率統計 | Tagged , , , , , , , | 15 Comments

利用馬可夫鏈計算擲幣事件發生的機率

本文的閱讀等級:中級 美國康乃爾大學心理學教授季洛維奇 (Thomas Gilovich) 每年都會在他的統計學課堂中安排一個實驗[1]。他要求每位學生各自寫下一組心中模擬投擲一枚公正硬幣20次所產生的隨機序列,分別以 O 和 X 代表正面和反面。但是,其中一位學生則被指派實際投擲一枚硬幣20次,也寫下他的實驗結果。季洛維奇在實驗進行前走出教室,等他返回教室後,他將接受一項挑戰:檢視所有學生繳交的實驗記錄,然後判斷其中那一張紙記載了實際擲幣產生的序列。季洛維奇總是能令學生們驚訝不已,他無一次例外地揀選出真實的擲幣序列。究竟他是怎麼辦到的?季洛維奇既沒有暗藏機關也不具特異能力,他掌握的技能不過就是「資訊不對稱」。身為心理學教授,他知道絕大多數人──包括教室中的學生──總是低估了出現連續正面或反面的機率。真實的擲幣結果幾乎都是那張記錄著最長的連續正面或反面的序列,例如: OXXXXXOXOOXOOXOOXOOX, 而學生們想像出來的擲幣序列則經常如下: XXOXOOOXOOXOXXOOXXOO。 本文的主題即在破解季洛維奇的戲法:釐清投擲一枚公正硬幣 次,計算出現至少連續 次正面的機率。

Posted in 機率統計 | Tagged , , , , , , | 3 Comments

相關係數

本文的閱讀等級:中級 假設我們從實驗、研究或調查中獲得兩個變數 , 的觀測記錄 ,。若一個變數變化時,另一個變數也以某種相關方式變化,我們便稱這兩個變數彼此相關 (correlation)。如果兩個變數之間的關係是線性的,那麼要如何測量它們的相關程度呢?在實際應用中,皮爾生相關係數 (Pearson correlation coefficient) 是目前最普遍被採用的一種度量方式。本文從幾何觀點推導皮爾生相關係數並解釋其涵義。

Posted in 機率統計 | Tagged , , , | 2 Comments