Category Archives: 機率統計

隨機變數

本文的閱讀等級:初級 在機率學,一個實驗 (experiment) 由下列三個概念設定 (見“機率學的基本語彙”): 樣本空間 包含所有可能的實驗結果, 定義於 的所有事件, 每一個事件的機率。 現實問題中,實驗結果常被賦予可度量的性質。舉例來說,考慮投擲一枚硬幣 次,結果 可用字元 (正面) 與 (反面) 所組成的長度為 的字串表示。這個實驗的樣本空間 有 個字串 (元素)。假設我們關心出現正面的次數,令函數 等於字串 所含的 字元數,例如,,,。函數 的值域為 。對於 ,存在 個字串 使得 ,其中 代表從100個元素選取 個元素的組合數。因此, (見“二項式係數與組合問題”)。在建立機率模型時,以函數 的值域取代樣本空間有兩個明顯的好處:第一,函數 由我們所考慮的問題決定,據此建立的模型呈現問題情境。第二,函數 的值域是數組成的集合故而便利計算。我們在實驗的樣本空間 上制定的函數 引申出機率學的一個核心概念,稱為隨機變數 (random variable)。

Posted in 機率統計 | Tagged , , | Leave a comment

de Moivre-Laplace 定理與大數定律

本文的閱讀等級:初級 在伯努利試驗 (Bernoulli trials),設事件 發生的機率為 ,即 且 ,在 次實驗中,事件 出現 次的機率為 (見“伯努利試驗”) 。 本文討論兩個問題:當 很大時,如何簡化 的計算?從機率的頻率觀點, 近似 是依據甚麼理論?

Posted in 機率統計 | Tagged , , , | Leave a comment

伯努利試驗

本文的閱讀等級:初級 考慮投擲一枚硬幣,樣本空間為 ,其中 (head) 表示擲出正面, (tail) 表示擲出反面。設 ,則 。任何一個參數 都可定義合法的機率函數,因此存在無窮多個機率函數,我們應該挑選那一個?機率函數制定的目的是為了準確預測未來事件發生的可能性。假如投擲一枚硬幣非常多次,我們期待參數 等於正面出現的次數與總投擲次數的比值。統計學提供了運用實驗數據來選取參數 的方法,稱為估計。我們可以進行多次擲幣試驗,假如投擲一枚硬幣100次,共出現54次正面,可設 ,以後便使用這個機率函數來預測未來的擲幣實驗結果 (見“機率學的基本語彙”)。本文討論這個估計方法背後的機率學基礎。

Posted in 機率統計 | Tagged , , | 1 Comment

條件機率與貝氏定理

本文的閱讀等級:初級 假設有兩個甕,第一個甕裡面有3顆紅球,第二個甕裡面有2顆紅球和1顆白球。我們隨機選擇一個甕,然後從中抽出2顆球。假設結果是2顆紅球,留在甕裡的那顆球是紅球的機率有多大? 我們挑選的甕是第一個甕或第二個甕的機率同為 。從甕中抽出了2顆紅球,如果這是第一個甕,留在甕裡的那顆球便是紅球,如果這是第二個甕,留在甕裡的那顆球則是白球,因此推論答案是 。這個推論過程可能符合許多人的直覺,但為了檢驗這條思路的正確性,我們不妨變換問題敘述看看結果如何。假設第一個甕裡面有30顆紅球,第二個甕裡面有20顆紅球和10顆白球。如果從隨機選出的甕中抽出20顆球,結果全部是紅球,你確定留在甕裡的10顆球是紅球的機率仍為 ?前後兩個問題的題幹相似,但我們可能對後面這個問題的答案抱持懷疑,因為從第二個甕中抽出20顆球,剛好都是紅球的機率似乎不大。的確,從第二個甕中抽取出20顆紅球的機率為 , 其中 是二項式係數,即從包含30個元素的集合中選取20個元素的組合數 (見“二項式係數與組合問題”)。數字會說話,現在我們改變心意了。眼前選出的這個甕非常可能是第一個甕,也就是說留在甕裡面的10顆球是紅球的機率接近1。這意味在原先的問題中,甕裡的那顆球是紅球的機率應該大於 。愛因斯坦說:「唯一真正有價值的東西是直覺[1]。」對於機率問題,直覺卻常常給出錯誤的答案。

Posted in 機率統計 | Tagged , , , | 8 Comments

機率學的基本語彙

本文的閱讀等級:初級 我發現數學很容易,但我還是喜歡探索事物。你必須有必要的資訊。例如,平均數與中位數的差異是甚麼?機率學讓我著迷。你必須非常仔細地考慮事情,這也正是我心靈運作的方式。 ───英國作家丹尼爾·譚米特 (Daniel Tammet) [1]   機率學 (概率論) 是一個研究機會與運氣的數學領域。機率雖然經常出現於日常語言,但學者往往對於機率學的概念有所誤解或認為難以捉摸。我想到的原因有兩個層面。第一是觀念面的原因。機率學有它自己的奧術語彙,掌握這些必要的語彙是建立模型與精準推理的前提。一些看似簡單的機率問題,答案常常違反直覺甚至可能讓專業數學家跌破眼鏡﹐原因即在於誤入思考的陷阱。第二是技術面的原因。許多機率問題無法用簡單的排列組合計算,必須引進較為複雜的方法。譬如,投擲一枚公正的硬幣20次,求連續4次正面出現的機率涉及解遞歸關係式 (見“利用馬可夫鏈計算擲幣事件發生的機率”),而連續機率分布問題則難以免除技巧性的積分運算。我們研習任何一門學科總要先從觀念面下手,本文列舉一些基本的機率學詞彙並解釋它們的意義 (其他重要的詞彙將專文介紹)。

Posted in 機率統計 | Tagged , , | 2 Comments

答Yanjun Li──關於多隨機變數的兩個線性組合的共變異數

網友Yanjun Li留言: 近期拜讀了周老師寫的變異數矩陣,主成份分析,奇異值分解等專題,感覺對線性代數的一些知識有了重新認識。在閱讀過程中,產生了一些疑問,請周老師不吝賜教: 是兩兩互不相關的變量,另有 和 兩個變量,是 的線性組合: 如果 中的某一個係數明顯比其餘每一個係數大很多,同時 中的某一個係數明顯比其餘每一個係數大很多,並且兩組係數中,最大的 和 滿足 不等於 。當滿足上述條件時,是否可以認為, 和 的相關程度很低? 如果 中的某一個係數大於其餘每一個係數,同時 中的某一個係數大於其餘每一個係數,並且兩組係數中,最大的 和 滿足 不等於 。當滿足上述條件時,是否可以認為, 和 的相關程度不高? 與 之間的共變異數,是否可以用 和 ,以及 的變異數,計算出來? 感謝周老師在百忙之中閱讀我的問題!

Posted in 答讀者問, 機率統計 | Tagged , | Leave a comment

二項式係數與組合問題

本文的閱讀等級:初級 在組合數學,從包含 個元素的集合中選取 個元素的組合數 (不考慮次序),記為 ,稱為二項式係數 (binomial coefficient)。我們先推導 的計算公式。設想有 個人在排隊買電影票,我們可以從 個人中選一人排在第一個位置,再從剩下的 個人裡選一人排在第二個位置,餘此類推,共有 種排列方式。再考慮第二種算法。電影院為鼓勵大眾及早排隊購票,特意準備了 張椅子,,供給排在最前面的 個人歇坐。針對這個情況,從 個人中選取 個人進入歇坐區有 種方式,歇坐區內的 個人有 種排列方式,歇坐區外的 個人有 種排列方式,因此 個人排隊共有 種排列方式。合併上面兩個結果,即得 , 並定義邊界條件 。根據對稱性,。   問題1:你邀請 位好友參加生日宴會,至少有一人出席生日宴會的來賓組合共有多少種? 因為至少有一個人出席派對,出席來賓的組合方式有 。   問題2:投擲一枚公正硬幣 次,出現至少一次正面的機率 (概率) 是多少? 出現 次反面的機率是 ,所以出現至少一次正面的機率是 … Continue reading

Posted in 機率統計 | Tagged , , , | Leave a comment

常態分布與二次型

本文的閱讀等級:中級 服從多變量常態分布 (normal distribution) 的隨機向量 (隨機變數組成的向量) 的機率密度函數完全由平均數向量 和共變異數矩陣 決定,記為 。若 ,我們說隨機向量 服從標準多變量常態分布,其中隨機變數 相互獨立。本文討論具多變量常態分布的隨機向量所構成的二次型 ,其中 是實對稱矩陣,並引介一個重要的統計分布──卡方分布 (chi-squared distribution)。本文的預備知識包括 (見“多變量常態分布”): 期望值 是線性算子,共變異數矩陣 是半正定 (對稱) 矩陣。 服從常態分布的隨機向量的仿射變換 (affine transformation) 也為常態分布。令 為一 維隨機向量,且 。若 ,其中 是 階常數矩陣, 是 維常數向量,則 ,即 且 。 令 和 … Continue reading

Posted in 機率統計 | Tagged , , , , , | 3 Comments

多變量常態分布的最大似然估計

本文的閱讀等級:中級 令 為 維連續型隨機向量。若 服從 (非退化) 多變量常態分布,則機率 (概率) 密度函數完全由 維平均數向量 和 階共變異數矩陣 決定,如下: , 其中 (見“共變異數矩陣與常態分布”)。英國統計學家費雪 (Ronald Fisher) 認為機率分布只是一個抽象的數學模型,而我們所蒐集的數據僅能用來估計機率分布的參數。給定一筆取自常態分布的隨機樣本 ,如何估計模型參數,即平均數向量 和共變異數矩陣 ?本文介紹費雪提出的參數估計法,稱為最大似然估計 (maximum likelihood estimation)。根據共變異數矩陣的最大似然估計,我們引進皮爾生 (Pearson) 相關係數,並討論平均數向量的最大似然估計的分布。

Posted in 機率統計 | Tagged , , , , , | 3 Comments

回歸均值

本文的閱讀等級:初級 《聖經》創世紀41(17-32)記載約瑟為法老解夢的故事。 法老對約瑟說:「我夢見我站在河邊,有七隻母牛從河裡上來,又肥壯又美好,在蘆荻中吃草。隨後又有七隻母牛上來,又軟弱又醜陋又乾瘦,在埃及遍地我沒有見過這樣不好的。這又乾瘦又醜陋的母牛吃盡了那以先的七隻肥母牛,吃了以後卻看不出是吃了,那醜陋的樣子仍舊和先前一樣。我就醒了。我又夢見一棵麥子,長了七個穗子,又飽滿又佳美。隨後又長了七個穗子,枯槁細弱,被東風吹焦了。這些細弱的穗子吞了那七個佳美的穗子。我將這夢告訴了術士,卻沒有人能給我解說。」 約瑟對法老說:「法老的夢乃是一個,神已將所要做的事指示法老了。七隻好母牛是七年,七個好穗子也是七年。這夢乃是一個。那隨後上來的七隻又乾瘦又醜陋的母牛是七年,那七個虛空、被東風吹焦的穗子也是七年,都是七個荒年。這就是我對法老所說,神已將所要做的事顯明給法老了。埃及遍地必來七個大豐年,隨後又要來七個荒年,甚至埃及地都忘了先前的豐收,全地必被饑荒所滅。因那以後的饑荒甚大,便不覺得先前的豐收了。至於法老兩回做夢,是因神命定這事,而且必速速成就。」 從古至今,世上每一個文明總會對「好景難常在,過眼韶華如箭」發出無奈的感嘆。然而,我們也都相信「柳暗花明又一村」,事情終有好轉的一天。「樂極生悲」和「否極泰來」真的是大自然的定則嗎?

Posted in 機率統計 | Tagged , | 2 Comments