Tag Archives: 常態分布

線性基函數模型

本文的閱讀等級:中級 在數理統計與機器學習,線性回歸 (linear regression) 是一種形式最簡單的回歸模型。令 表示輸入變數,或稱預測變數。輸入變數的線性組合再加上一個數即構成線性回歸: , 其中 是待決定的參數, 稱為偏權值 (bias), 是對應輸入變數 的權值 (weight)[1],。線性回歸既是權值 ,也是輸入變數 的一個線性函數,應用範疇因此受到很大的限制。在保留線性模型架構的前提下,如欲將線性回歸推廣為非線性函數,你可以考慮一組固定的非線性函數的線性組合: , 其中 稱為基函數 (basis function)。為簡化書寫,定義 。線性基函數模型 (linear basis function model) 的表達式如下: , 其中 , 是一個向量函數, 稱為基函數向量。由於 是權值 的線性函數,同時也是基函數 的線性函數,因此我們稱之為線性基函數模型。若 且 ,,線性基函數模型退化為線性回歸。如果使用非線性基函數, 實質上是輸入變數 的一個非線性函數。

Posted in 機器學習 | Tagged , , , , , , , , , , , | Leave a comment

高斯混合模型與最大期望算法

本文的閱讀等級:高級 假設你知道一個連續型隨機向量 的機率密度函數 (以下簡稱密度函數) 受一組參數 制約。譬如,常態分布 (高斯分布) 的密度函數 受期望值 與共變異數矩陣 制約,常態分布的參數為 (見“多變量常態分布”)。為了估計機率模型的參數,你需要取得該機率分布的樣本。假設我們有一筆大小為 的樣本 ,這些數據點是獨立的,而且服從相同的機率分布 。最大似然估計 (maximum likelihood estimation) 是一種常用的參數估計法。對於給定的樣本 ,參數 的似然函數 (likelihood) 定義為 , 也就是說似然函數是給定參數後,樣本的條件密度函數。在樣本 固定的情形下,我們將似然函數看作 的一個函數。顧名思義,最大似然估計的目標要找出 使得 有最大值: 。 對數 是一個單調遞增函數,可知 的最大值與 的最大值發生在同一個 。在實際應用時,我們通常考慮較易於計算的 。對於某些機率分布,最大似然估計很容易求得,譬如常態分布,計算 對 和 的偏導數並設為零,可得代數解 (見“多變量常態分布的最大似然估計”)。不過,對於一些形式較為複雜的機率分布,最大似然估計未必存在代數解,這時我們必須使用迭代法計算。

Posted in 機器學習 | Tagged , , , , , | 4 Comments

常態分布與二次型

本文的閱讀等級:中級 服從多變量常態分布 (normal distribution) 的隨機向量 (隨機變數組成的向量) 的機率密度函數完全由平均數向量 和共變異數矩陣 決定,記為 。若 ,我們說隨機向量 服從標準多變量常態分布,其中隨機變數 相互獨立。本文討論具多變量常態分布的隨機向量所構成的二次型 ,其中 是實對稱矩陣,並引介一個重要的統計分布──卡方分布 (chi-squared distribution)。本文的預備知識包括 (見“多變量常態分布”): 期望值 是線性算子,共變異數矩陣 是半正定 (對稱) 矩陣。 服從常態分布的隨機向量的仿射變換 (affine transformation) 也為常態分布。令 為一 維隨機向量,且 。若 ,其中 是 階常數矩陣, 是 維常數向量,則 ,即 且 。 令 和 … Continue reading

Posted in 機率統計 | Tagged , , , , , | 3 Comments

多變量常態分布的最大似然估計

本文的閱讀等級:中級 令 為 維連續型隨機向量。若 服從 (非退化) 多變量常態分布,則機率 (概率) 密度函數完全由 維平均數向量 和 階共變異數矩陣 決定,如下: , 其中 (見“共變異數矩陣與常態分布”)。英國統計學家費雪 (Ronald Fisher) 認為機率分布只是一個抽象的數學模型,而我們所蒐集的數據僅能用來估計機率分布的參數。給定一筆取自常態分布的隨機樣本 ,如何估計模型參數,即平均數向量 和共變異數矩陣 ?本文介紹費雪提出的參數估計法,稱為最大似然估計 (maximum likelihood estimation)。根據共變異數矩陣的最大似然估計,我們引進皮爾生 (Pearson) 相關係數,並討論平均數向量的最大似然估計的分布。

Posted in 機率統計 | Tagged , , , , , | 3 Comments

回歸均值

本文的閱讀等級:初級 《聖經》創世紀41(17-32)記載約瑟為法老解夢的故事。 法老對約瑟說:「我夢見我站在河邊,有七隻母牛從河裡上來,又肥壯又美好,在蘆荻中吃草。隨後又有七隻母牛上來,又軟弱又醜陋又乾瘦,在埃及遍地我沒有見過這樣不好的。這又乾瘦又醜陋的母牛吃盡了那以先的七隻肥母牛,吃了以後卻看不出是吃了,那醜陋的樣子仍舊和先前一樣。我就醒了。我又夢見一棵麥子,長了七個穗子,又飽滿又佳美。隨後又長了七個穗子,枯槁細弱,被東風吹焦了。這些細弱的穗子吞了那七個佳美的穗子。我將這夢告訴了術士,卻沒有人能給我解說。」 約瑟對法老說:「法老的夢乃是一個,神已將所要做的事指示法老了。七隻好母牛是七年,七個好穗子也是七年。這夢乃是一個。那隨後上來的七隻又乾瘦又醜陋的母牛是七年,那七個虛空、被東風吹焦的穗子也是七年,都是七個荒年。這就是我對法老所說,神已將所要做的事顯明給法老了。埃及遍地必來七個大豐年,隨後又要來七個荒年,甚至埃及地都忘了先前的豐收,全地必被饑荒所滅。因那以後的饑荒甚大,便不覺得先前的豐收了。至於法老兩回做夢,是因神命定這事,而且必速速成就。」 從古至今,世上每一個文明總會對「好景難常在,過眼韶華如箭」發出無奈的感嘆。然而,我們也都相信「柳暗花明又一村」,事情終有好轉的一天。「樂極生悲」和「否極泰來」真的是大自然的定則嗎?

Posted in 機率統計 | Tagged , | 2 Comments

多變量常態分布

本文的閱讀等級:中級 在數學、統計學、物理和工程等領域,常態分佈 (normal distribution,Gaussian distribution) 是一個非常重要的連續型機率 (概率) 分布模型。本文將回答下列問題: 如何推導多變量常態分布的機率密度函數 (probability density function)? 怎麼證明服從常態分布的隨機向量的線性變換也為常態分布? 怎麼證明服從常態分布的多隨機變數的子集合亦為常態分布? 如何判別二組 (常態分布) 隨機變數集的獨立性? 具有常態分布的條件機率密度函數為何? 給定條件機率密度函數 ,如何計算 ? 為了避免繁瑣的積分運算,我們以動差生成函數 (moment generating function) 推演,這個方法的理論基礎在於動差生成函數唯一決定機率密度函數 (見“動差生成函數 (上)”)。下面先介紹標準多變量常態分布,隨後通過仿射變換 (affine transformation) 推廣至一般多變量常態分布。

Posted in 機率統計 | Tagged , , , , , , , , , | Leave a comment

邏輯斯回歸

本文的閱讀等級:中級 假設我們有一筆維數等於 ,樣本大小為 ,包含 個類別的數據 。數據點 散布在 空間,以 標記類別或代表類別的指標集,例如, 表示 來自 (歸屬) 第 類。我們的問題是利用給定的樣本 ,設計一個分類器 (classifier);具體地說,給定一個數據點 ,判定它應歸於何類。貝氏定理 (Bayes’ theorem) 提供了分類問題的理論基礎 (見“貝氏定理──量化思考的利器”): , 其中 是類別 出現的機率,稱為先驗機率 (priori probability); 是條件密度函數,即給定類別 ,數據點 的機率密度函數,也稱為似然 (likelihood); 是數據點 的機率密度函數,稱為證據 (evidence),算式為 ; 是指在給定數據點 的情況下,該點屬於 的機率,稱為後驗機率 (posterior probability)。 … Continue reading

Posted in 機器學習 | Tagged , , , , , , , , | 4 Comments

線性判別分析

本文的閱讀等級:中級 在機器學習和模式識別中,分類 (classication) 可視為一種決策問題:給定一數據點,判斷它所屬的類別。本文介紹源自於統計學多變量分析的一個古典分類法,稱作線性判別分析 (linear discriminant analysis,簡稱 LDA)。就理論面來說,線性判別分析與費雪 (Ronald Fisher) 的判別分析 (一種應用於分類問題的降維方法,見“費雪的判別分析與線性判別分析”) 和邏輯斯回歸 (logistic regression,一種應用於分類問題的非線性模型) 有著密切的關係。就應用面而言,由於線性判別分析建立於嚴苛的假設上,它的分類效能並不突出,或許因為這個緣故,線性判別分析經常被當作與其他方法比較的基準。

Posted in 機器學習 | Tagged , , , , , | 8 Comments

費雪的判別分析與線性判別分析

本文的閱讀等級:高級 在許多現實應用中,我們往往要面對高維度 (多變數) 數據,為便利分析,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis) 是目前普遍被採用的降維技術 (見“主成分分析”)。主成分分析是一種非教導式學習法 (unsupervised learning),根據樣本自身的統計性質降維,並不在乎 (甚至不知道) 這些數據的後續應用。在機器學習領域,分類 (classification) 與回歸 (regression) 是兩個最具代表性的問題描述典範。所謂分類是指識別出數據點所屬的類別。本文介紹英國統計學家費雪 (Ronald Fisher) 最早提出的一個專為包含兩個類別樣本所設計的教導式 (supervised) 降維法,稱作費雪的判別分析 (Fisher’s discriminant analysis),隨後並討論三個延伸問題: 甚麼是線性判別分析 (linear discriminant analysis)?它與費雪的判別分析有何關係? 線性判別分析與最小平方法有甚麼關聯性? 費雪的判別分析如何推廣至多類別 (類別數大於2) 判別分析?

Posted in 機器學習 | Tagged , , , , , , , , | 11 Comments

動差生成函數 (下)

本文的閱讀等級:中級 延續前文“動差生成函數 (上)”,本文將探討連續型隨機變數的動差生成函數。連續型隨機變數 的值域為全部實數或由一部分區間組成,即 ,其中 。連續型隨機變數 的機率分布一般以下面兩種方式表示: 機率密度函數 (probability density function) 滿足 。 累積分布函數 代表 。 連續型隨機變數 的期望值 和變異數 定義為 我們稱 的期望值為 的 次動差,表示如下: , 前提是上式必須收斂。連續型隨機變數 的動差生成函數定義為 , 其中最後一個等號係因 是隨機變數的線性算子。計算 在 的 次導數可得 ,因為 立得 。

Posted in 機率統計 | Tagged , , , , , , , , | 2 Comments