機率學的基本語彙

本文的閱讀等級:初級

我發現數學很容易,但我還是喜歡探索事物。你必須有必要的資訊。例如,平均數與中位數的差異是甚麼?機率學讓我著迷。你必須非常仔細地考慮事情,這也正是我心靈運作的方式。

───英國作家丹尼爾·譚米特 (Daniel Tammet) [1]

 
機率學 (概率論) 是一個研究機會與運氣的數學領域。機率雖然經常出現於日常語言,但學者往往對於機率學的概念有所誤解或認為難以捉摸。我想到的原因有兩個層面。第一是觀念面的原因。機率學有它自己的奧術語彙,掌握這些必要的語彙是建立模型與精準推理的前提。一些看似簡單的機率問題,答案常常違反直覺甚至可能讓專業數學家跌破眼鏡﹐原因即在於誤入思考的陷阱。第二是技術面的原因。許多機率問題無法用簡單的排列組合計算必須引進較為複雜的方法,譬如,投擲一枚公正的硬幣20次,求連續4次正面出現的機率涉及解遞歸關係式 (見“利用馬可夫鏈計算擲幣事件發生的機率”),連續機率分布問題則難以免除技巧性的積分運算。我們研習任何一門學科總要先從觀念面下手,本文列舉一些基本的機率學詞彙並解釋它們的意義 (其他重要的詞彙將專文介紹)。

 
樣本空間

一個樣本空間 (sample space) 是某個特定的實驗 (experiment) 所有可能出現的結果 (outcome) 形成的集合。我們將樣本空間記為 \Omega,元素則以 \omega 表示。機率與統計意義下的實驗是指資料產生的任何過程,例如,投擲一枚硬幣、測量每日的累積降雨量、從群體中抽出一個人並記錄他的生日等。在機率學中,樣本空間是所有可能的實驗結果的集合。在統計學中,樣本空間是指能被抽樣的個體或項目的集合,也就是從中抽樣的母體 (population)。因此,統計學所稱的樣本是從母體選出的一組個體或項目,譬如,一項政府政策支持度的抽樣調查。

 
例1. 投擲一枚硬幣二次並記錄可能的結果,樣本空間為 \Omega=\{HH, HT, TH, TT\},其中 H (head) 表示正面,T (tail) 表示反面。注意,HTTH 是兩個不同的結果,HT 表示第一次擲出 H 且第二次擲出 T,而 TH 表示第一次擲出 T 且第二次擲出 H

例2. 假設一個長度為10的DNA序列由四種核甘酸 (nucleotide) \text{A, C, G, T} 組成,例如,w=(\text{G, A, T, T, G, C, A, C, T, C}),則樣本空間 \Omega 包含 4^{10} 個元素,記為 \vert\Omega\vert=4^{10}

例3. 假設在平年出生的人的生日以 1 至 365 的整數表示。考慮隨機抽選兩個在平年出生的人並記錄他們的生日,樣本空間為 \Omega=\{(i,j)\,\vert\,1\le i,j\le 365\}

例4. 測量某一天的日累積降雨量 (單位為毫米),樣本空間為 \Omega=\{0,1,\ldots,1403\}。2009年8月8日至9日,莫拉克 (Morakot) 颱風期間,屏東尾寮山測得降雨量1,403毫米,創台灣所有氣象站中單日最大雨量紀錄[2]。理想上,樣本空間不要少於或多於所有可能的實驗結果,但在真實世界,我們往往不知道樣本空間為何 (誰知道累積降雨量是否會更創新高)。一個解決方式是設 \Omega=\{0,1,2,\ldots\},日後我們再介紹如何讓統計學幫助建立一個模型。

 
在擲幣實驗中,即便絕少發生,或許仍有人堅持應該納入硬幣垂直站立的情況,於是將樣本空間設為 \{H,T,E\},其中 E 表示硬幣垂直站立。應用機率學於現實問題時,樣本空間並不是唯一的,我們必須根據所考慮的問題現象與情境決定樣本空間。如果在沙地上擲幣,那麼 \{H,T,E\} 可能是一個恰當的樣本空間,但如果在水泥地板上擲幣,\{H,T\} 應該是比較合乎實況的選擇。針對眼前的問題,我們選擇的樣本空間即為對思考模型所作的理論假設。

 
事件

一個事件 (event) 是樣本空間的一個子集合,也就是實驗可能出現所有結果的子集合。事件常用集合符號或大寫英文字母表示。

 
例5. 投擲一枚硬幣二次,\Omega=\{HH,HT,TH,TT\} 是一個小樣本空間,總共有 2^4=16 個可能的事件:

  • 不包含任何元素的事件,稱為空集合:\emptyset
  • 包含一個元素的事件:\{HH\},\{HT\},\{TH\},\{TT\}
  • 包含兩個元素的事件:\{HH,HT\},\{HH,TH\},\{HH,TT\},\{HT,TH\},\{HT,TT\},\{TH,TT\}
  • 包含三個元素的事件: \{HH,HT,TH\},\{HH,HT,TT\},\{HH,TH,TT\},\{HT,TH,TT\}
  • 包含所有元素的事件:\{HH,HT,TH,TT\}

例6. 在例4,我們將日累積降雨量予以分級,定義下列事件:

  • 小雨 (light rain):L=\{0<\omega\le 80\}
  • 大雨 (heavy rain):H=\{80<\omega\le 200\}
  • 豪雨 (extremely heavy rain):EH=\{200<\omega\le 350\}
  • 大豪雨 (torrential rain):T=\{350<\omega\le 500\}
  • 超大豪雨 (extremely torrential rain):ET=\{500<\omega\}

當然,\{0\} 表示沒有降雨。明顯地,\Omega=\{0\}\cup L\cup H\cup EH\cup T\cup ET。上述事件的集合運算可產生其他事件,例如,L\cup H 是小雨或大雨出現的事件,\{0\}^c (即事件 \{0\} 的補集) 表示該日下雨。

 
試驗

我們進行的每一次實驗,稱為一個試驗 (trial)。每一個試驗必定可觀察到一個結果 \omega\in\Omega。若 \omega\in A,我們說事件 A 發生;若 \omega\notin A,則事件 A 未發生。譬如,投擲一枚硬幣二次是一個試驗,假設結果是 HH。事件 \{HH,HT\} 表示第一次出現正面,事件 \{HT,TH,TT\} 表示至少出現一次反面。在這一個試驗,我們說事件 \{HH,HT\} 發生,因為 HH\in \{HH,HT\},但事件 \{HT,TH,TT\} 未發生,因為 HH\notin \{HT,TH,TT\}。事實上,定義於樣本空間 \Omega=\{HH,HT,TH,TT\} 的16個事件 (見例5) 共有8個事件發生。

 
機率函數

對於一個樣本空間,一個機率函數給定每一事件一個機率值。機率函數的制定是為了量化「隨機」概念,直白地說,機率函數回答這個問題:某件事情發生的可能性有多大?在不造成混淆的情況下,機率值經常簡稱為機率。

 
例7. 投擲一顆公正的六面骰子,出現點數小於 3 的機率是 \frac{1}{3},出現點數大於 6 的機率是 0

例8. 投擲一枚公正的硬幣二次,出現二次正面 \{HH\} 的機率是 \frac{1}{4},二次結果相異 \{HT,TH\} 的機率是 \frac{1}{2}

 
上面兩個例子與我們的直覺吻合,但一個事件的機率究竟是怎麼得出的?答案在於機率函數具備甚麼性質。為了符合日常經驗,我們要求定義於樣本空間 \Omega 的機率函數 P 滿足下面三個條件 (公理):

  1. P(A)\ge 0
  2. P(\Omega)=1
  3. A\cap B=\emptyset,則 P(A\cup B)=P(A)+P(B)

條件1是自明的真理:任何事件的機率不允許是負值。一個事件發生的最小機率值為 0 表示0%,即不可能發生,那麼最大值呢?如果一個事件必然發生,機率值是多少?每一次試驗會出現一個結果,而這個結果必定屬於樣本空間,條件2說整個樣本空間的機率是 1,對應100%。條件3講的是一個事件的機率等於它所包含的元素的機率之和,也就是機率的計算方法。在例7,投擲一顆骰子的樣本空間為 \Omega=\{1,2,3,4,5,6\},公正骰子意味 A=\{1\} 的機率為 P(A)=\frac{1}{6}B=\{2\} 的機率為 P(B)=\frac{1}{6}C=\{3\} 的機率為 P(C)=\frac{1}{6},餘此類推。因為 A\cap B=\emptyset,也就是說事件 AB 互斥,直觀經驗告訴我們出現骰子點數小於 3 的事件 A\cup B=\{1,2\} 的機率 P(A\cup B) 等於 P(A)+P(B)=\frac{1}{6}+\frac{1}{6}=\frac{1}{3}。若要計算骰子點數小於 4 的事件 A\cup B\cup C=\{1,2,3\} 的機率,因為事件 A, B, C 兩兩互斥,重複使用條件3,

\begin{aligned}  P(A\cup B\cup C)&=P(A\cup B)+P(C)\\  &=P(A)+P(B)+P(C)\\  &=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{3}{6}=\frac{1}{2}.  \end{aligned}

條件3可以推廣至多個兩兩互斥事件的聯集。若 A_1,\ldots,A_k 滿足 A_i\cap A_j=\emptyseti\neq j,則

P(A_1\cup\cdots\cup A_k)=P(A_1)+\cdots+P(A_k)

 
我們可以從一個事件發生的頻率來解釋機率的意義:在相同的條件下,如果一個實驗重複 n 次,或者說進行 n 次試驗,P(A) 近似實驗結果 \omega_1,\ldots,\omega_n 屬於 A 的次數 (即事件 A 發生的次數),記為 n_A,與試驗總數 n 的比值,即 P(A)\simeq \frac{n_A}{n}。機率的頻率觀點解釋符合前述三個條件,說明於下:

  1. P(A)\ge 0,因為 n_A\ge 0n>0
  2. P(\Omega)=1,因為事件 \Omega 每次都發生,即 n_\Omega=n
  3. A\cap B=\emptyset,則 P(A\cup B)=P(A)+P(B)。因為若 A\cup B 發生,則 AB 發生,但不會同時發生,故 P(A\cup B)\simeq\frac{n_{A\cup B}}{n}=\frac{n_A}{n}+\frac{n_B}{n}\simeq P(A)+P(B)

 
條件3之所以要求 A\cap B=\emptyset 是為了避免重複計數,看這個極端的例子 A=\{1\}B=\{1\},顯然 P(A\cup B)=\frac{1}{6} 不等於 P(A)+P(B)=\frac{1}{3}。再看 A\cap B\neq\emptyset 的另一個例子,A=\{1,2\}B=\{2,3\},如果不先找出 A\cup B 的元素,要如何計算 P(A\cup B)?前述機率函數的定義條件足以回答這個問題嗎?可以的。以下是機率函數的三個條件的推論。設 AB 為定義於樣本空間 \Omega 的任何事件。

(a) P(\emptyset)=0

因為 A\cap \emptyset=\emptysetA\cup \emptyset=A,條件3說 P(A)=P(A\cup \emptyset)=P(A)+P(\emptyset)

(b) P(A)=1-P(A^c)\le 1

因為 A\cap A^c=\emptysetA\cup A^c=\Omega,故 1=P(\Omega)=P(A\cup A^c)=P(A)+P(A^c)

(c) P(A\cup B)=P(A)+P(B)-P(P\cap B)

寫出 A\cup B=A\cup (A^c\cap B)B=(A\cap B)\cup (A^c\cap B),則 P(A\cup B)=P(A)+P(A^c\cap B)P(B)=P(A\cap B)+P(A^c\cap B),合併即得證。

(d) 若 B\subseteq A,則 P(B)\le P(A)

B\subseteq A,則 A=B\cup (A\cap B^c),故 P(A)=P(B)+P(A\cap B^c)\ge P(B)

 
使用 (c),\{1,2\}\cup\{2,3\} 的機率計算如下:

\begin{aligned}  P(\{1,2\}\cup\{2,3\})&=P(\{1,2\})+P(\{2,3\})-P(\{1,2\}\cap\{2,3\})\\  &=P(\{1\})+P(\{2\})+P(\{2\})+P(\{3\})-P(\{2\})\\  &=P(\{1\})+P(\{2\})+P(\{3\})\\  &=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{1}{2}.  \end{aligned}

 
如果樣本空間 \Omega 包含 n 個有限元素 \omega_i,則任何一個事件皆可用基本事件 \{\omega_i\} 的機率 P(\{\omega_i\})=p_i 表示。從機率函數滿足的三個條件可推論 p_i\ge 0p_1+\cdots+p_n=1。若 A=\{\omega_{i_1},\ldots,\omega_{i_k}\},如上例使用條件三可得

P(A)=P(\{\omega_{i_1}\})+\cdots+P(\{\omega_{i_k}\})=p_{i_1}+\cdots+p_{i_k}

當樣本空間 \Omega 為一無限可數集 \{\omega_1,\omega_2,\ldots\} (包含無窮多個元素的集合,其中每一個元素唯一對應一個自然數),我們可以另加入一個機率函數的條件,稱為無限可加性:若 A_1,A_2,\ldots 兩兩互斥,則

P(A_1\cup A_2\cup\cdots)=P(A_1)+P(A_2)+\cdots

因此,若 A=\{\omega_{i_1},\omega_{i_2},\ldots\},算式 P(A)=P(\{\omega_{i_1}\})+P(\{\omega_{i_2}\})+\cdots=p_{i_1}+p_{i_2}+\cdots 仍成立。

 
如果樣本空間 \Omega 包含無限多個不可數的元素,譬如,\Omega=\mathbb{R}\Omega=\{(x,y)|0\le x,y\le 1\},則 \Omega 上的一些事件,如包含單一點的事件,不存在滿足前述三個條件的機率函數。為了建立機率函數,我們要求所有的事件必須定義為一個區間,譬如,\{x_1\le x\le x_2\}\{x_1\le x\le x_2,y_1\le y\le y_2\},以及它們的可數的聯集與交集。以 \Omega=\mathbb{R} 為例,設定事件的形式為 \{x\le x_i\},其中 x_i 是任何數,通過集合運算便足以衍生其他的事件。考慮函數 f(x) 滿足 f(x)\ge 0

\displaystyle  \int_{-\infty}^{\infty}f(x)dx=1

事件 \{x\le x_i\} 的機率定義為

\displaystyle  P(\{x\le x_i\})=\int_{-\infty}^{x_i}f(x)dx

不難確認此式滿足機率函數的三個條件。

 
最後還有一個實際問題需要釐清:誰決定或該怎麼決定機率函數 P?考慮投擲一枚硬幣,樣本空間為 \Omega=\{H,T\},設 P(\{H\})=p,則 P(\{T\})=1-P(\{H\})=1-p。因此,任何一個參數 p\in[0,1] 皆可定義合法的機率函數,存在無窮多個機率函數,我們應該挑選那一個?機率學沒有提供標準答案,這裡是數學與物理世界的交界點。我們知道機率函數制定的目的是為了準確預測未來事件發生的可能性。如果投擲一枚硬幣非常多次,我們希望挑選出來的 p 等於正面出現的次數與總投擲次數的比值。確定了這個目標後,至少有兩個辦法可找出合適的機率函數。第一個辦法,我們可以進行多次擲幣試驗。假如投擲一枚硬幣100次,共出現54次正面,可設 \hat{p}=0.54,從此便使用這個機率函數來預測未來的擲幣實驗結果。採用實驗方式決定機率函數的方法就是大家常講的「根據經驗」。第二個辦法,我們可以研究硬幣的型態、構造材質等,再根據這些知識推出 p 的「理論值」。假設我們發現硬幣的正反兩面其實沒有甚麼差異,於是設 \tilde{p}=0.5,並用它來預測日後的擲幣實驗結果。現在我們有兩個機率函數,但到底 \hat{p}=0.54 還是 \tilde{p}=0.5 的準確性較高呢?這個問題屬於統計學的研究範圍,留待日後討論。

 
下一篇要探討一個計算事件機率的強大工具,稱為條件機率。如果正確地使用這個工具,任何人都可以輕鬆愉快地解答「蒙提霍爾問題 (Monty Hall Problem)」(見“蒙提霍爾問題”):

假設你正在參加一個遊戲節目,你被要求在三扇門中選擇一扇:其中一扇後面有一輛車;其餘兩扇後面則是山羊。你選擇了一道門,假設是一號門,然後知道門後面有甚麼的主持人,開啟了另一扇後面有山羊的門,假設是三號門。他然後問你:「你想選擇二號門嗎?」轉換你的選擇對你來說具有優勢嗎?

 
註解:
[1] 維基百科:Daniel Tammet 英國作家丹尼爾·譚米特 (Daniel Tammet) 是一位因患有學者綜合症 (savant syndrome) 而擁有超常智力的英國作家,他曾經用一週的時間學會冰島語。原文:“I found maths very easy, but I still enjoyed discovering things. You have to have the necessary information. For example, what’s the difference between the mean and the median? Probability fascinated me. You have to think very carefully about things, which is the way my mind works anyway.”
[2] 維基百科:八八水災

繼續閱讀:
廣告
本篇發表於 機率統計 並標籤為 , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s