Tag Archives: 貝氏定理

條件機率與貝氏定理

本文的閱讀等級:初級 假設有兩個甕,第一個甕裡面有3顆紅球,第二個甕裡面有2顆紅球和1顆白球。我們隨機選擇一個甕,然後從中抽出2顆球。假設結果是2顆紅球,留在甕裡的那顆球是紅球的機率有多大? 我們挑選的甕是第一個甕或第二個甕的機率同為 。從甕中抽出了2顆紅球,如果這是第一個甕,留在甕裡的那顆球便是紅球,如果這是第二個甕,留在甕裡的那顆球則是白球,因此推論答案是 。這個推論過程可能符合許多人的直覺,但為了檢驗這條思路的正確性,我們不妨變換問題敘述看看結果如何。假設第一個甕裡面有30顆紅球,第二個甕裡面有20顆紅球和10顆白球。如果從隨機選出的甕中抽出20顆球,結果全部是紅球,你確定留在甕裡的10顆球是紅球的機率仍為 ?前後兩個問題的題幹相似,但我們可能對後面這個問題的答案抱持懷疑,因為從第二個甕中抽出20顆球,剛好都是紅球的機率似乎不大。的確,從第二個甕中抽取出20顆紅球的機率為 , 其中 是二項式係數,即從包含30個元素的集合中選取20個元素的組合數 (見“二項式係數與組合問題”)。數字會說話,現在我們改變心意了。眼前選出的這個甕非常可能是第一個甕,也就是說留在甕裡面的10顆球是紅球的機率接近1。這意味在原先的問題中,甕裡的那顆球是紅球的機率應該大於 。愛因斯坦說:「唯一真正有價值的東西是直覺[1]。」對於機率問題,直覺卻常常給出錯誤的答案。 Advertisements

Posted in 機率統計 | Tagged , , , | 8 Comments

線性判別分析

本文的閱讀等級:中級 在機器學習和模式識別中,分類 (classication) 可視為一種決策問題:給定一數據點,判斷它所屬的類別。本文介紹源自於統計學多變量分析的一個古典分類法,稱作線性判別分析 (linear discriminant analysis,簡稱 LDA)。就理論面來說,線性判別分析與費雪 (Ronald Fisher) 的判別分析 (一種應用於分類問題的降維方法,見“費雪的判別分析與線性判別分析”) 和邏輯斯回歸 (logistic regression,一種應用於分類問題的非線性模型) 有著密切的關係。就應用面而言,由於線性判別分析建立於嚴苛的假設上,它的分類效能並不突出,或許因為這個緣故,線性判別分析經常被當作與其他方法比較的基準。

Posted in 機器學習 | Tagged , , , , , | 6 Comments

費雪的判別分析與線性判別分析

本文的閱讀等級:高級 在許多現實應用中,我們往往要面對高維度 (多變數) 數據,為便利分析,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis) 是目前普遍被採用的降維技術 (見“主成分分析”)。主成分分析是一種非教導式學習法 (unsupervised learning),根據樣本自身的統計性質降維,並不在乎 (甚至不知道) 這些數據的後續應用。在機器學習領域,分類 (classification) 與回歸 (regression) 是兩個最具代表性的問題描述典範。所謂分類是指識別出數據點所屬的類別。本文介紹英國統計學家費雪 (Ronald Fisher) 最早提出的一個專為包含兩個類別樣本所設計的教導式 (supervised) 降維法,稱作費雪的判別分析 (Fisher’s discriminant analysis),隨後並討論三個延伸問題: 甚麼是線性判別分析 (linear discriminant analysis)?它與費雪的判別分析有何關係? 線性判別分析與最小平方法有甚麼關聯性? 費雪的判別分析如何推廣至多類別 (類別數大於2) 判別分析?

Posted in 機器學習 | Tagged , , , , , , , , | 11 Comments

貝氏定理──量化思考的利器

本文的閱讀等級:初級 芝加哥大學商學院教授賽勒 (Richard Thaler) 專事「行為金融學」(behavioral finance) 的研究,過去幾年來他都會對上課的學生提出以下問題: 史蒂芬,30歲,美國人。史蒂芬的一位鄰居這樣描述他:「史蒂芬害羞且內向,總是願意提供幫忙,但對一般大眾或社會議題沒有什麼參與興趣。他的性格柔弱順從,他渴求秩序並講究細節。」請問史蒂芬目前最可能的職業是售貨員或圖書館員? 繼續閱讀下去前,請讀者也提供自己的答案與判斷的依據。

Posted in 無關線代 | Tagged , , | 2 Comments