條件機率與貝氏定理

本文的閱讀等級:初級

假設有兩個甕,第一個甕裡面有3顆紅球,第二個甕裡面有2顆紅球和1顆白球。我們隨機選擇一個甕,然後從中抽出2顆球。假設結果是2顆紅球,留在甕裡的那顆球是紅球的機率有多大?

我們挑選的甕是第一個甕或第二個甕的機率同為 \frac{1}{2}。從甕中抽出了2顆紅球,如果這是第一個甕,留在甕裡的那顆球便是紅球,如果這是第二個甕,留在甕裡的那顆球則是白球,因此推論答案是 \frac{1}{2}。這個推論過程可能符合許多人的直覺,但為了檢驗這條思路的正確性,我們不妨變換問題敘述看看結果如何。假設第一個甕裡面有30顆紅球,第二個甕裡面有20顆紅球和10顆白球。如果從隨機選出的甕中抽出20顆球,結果全部是紅球,你確定留在甕裡的10顆球是紅球的機率仍為 \frac{1}{2}?前後兩個問題的題幹相似,但我們可能對後面這個問題的答案抱持懷疑,因為從第二個甕中抽出20顆球,剛好都是紅球的機率似乎不大。的確,從第二個甕中抽取出20顆紅球的機率為

\displaystyle  \frac{1}{\binom{30}{20}}=\frac{1}{30,045,015}=3.32\times 10^{-8}

其中 \binom{30}{20} 是二項式係數,即從包含30個元素的集合中選取20個元素的組合數 (見“二項式係數與組合問題”)。數字會說話,現在我們改變心意了。眼前選出的這個甕非常可能是第一個甕,也就是說留在甕裡面的10顆球是紅球的機率接近1。這意味在原先的問題中,甕裡的那顆球是紅球的機率應該大於 \frac{1}{2}。愛因斯坦說:「唯一真正有價值的東西是直覺[1]。」對於機率問題,直覺卻常常給出錯誤的答案。

 
條件機率

在已知事件 C 發生的情況下,一個事件 A 發生的機率稱為條件機率 (conditional probability),記為 P(A|C),定義如下:

\displaystyle  P(A|C)=\frac{P(A\cap C)}{P(C)}

其中 P(C)\neq 0。從條件機率的定義立刻推得下面的性質:

  • A\cap C=\emptyset,則 P(A|C)=0
  • C\subset A,則 A\cap C=C,故 P(A|C)=P(C)/P(C)=1
  • A\subset C,則 A\cap C=A,故 P(A|C)=P(A)/P(C)\ge P(A)。不等式是因為 P(C)\le 1

 
例1. 投擲一顆公正的六面骰子,樣本空間為 \Omega=\{1,2,3,4,5,6\}。設 A=\{1,2\} 表示擲出的點數小於3,B=\{2,4,6\} 表示擲出點數為偶數,則 P(A)=\frac{2}{6}P(B)=\frac{3}{6}。因為 A\cap B=\{2\}

\displaystyle\begin{aligned}  P(A|B)&=\frac{P(A\cap B)}{P(B)}=\frac{\frac{1}{6}}{\frac{3}{6}}=\frac{1}{3},\\  P(B|A)&=\frac{P(B\cap A)}{P(A)}=\frac{\frac{1}{6}}{\frac{2}{6}}=\frac{1}{2}.\end{aligned}

 
下面證明條件機率滿足機率函數的三個條件 (見“機率學的基本語彙”):

  1. P(A|C)\ge 0,因為 P(A\cap C)\ge 0P(C)> 0
  2. P(\Omega|C)=1,因為 C\subset\Omega,可知 C\cap \Omega=C,故 P(\Omega|C)=P(C)/P(C)=1
  3. A\cap B=\emptyset,則 P(A\cup B|C)=P(A|C)+P(B|C)。因為 AB 互斥意味 A\cap CB\cap C 互斥,則有

    \displaystyle\begin{aligned}  P(A\cup B|C)&=\frac{P((A\cup B)\cap C)}{P(C)}=\frac{P((A\cap C)\cup(B\cap C))}{P(C)}\\  &=\frac{P(A\cap C)}{P(C)}+\frac{P(B\cap C)}{P(C)}=P(A|C)+P(B|C).  \end{aligned}

機率函數的條件3給出了一個計算兩事件聯集的規則:若 A\cap B=\emptyset,則 P(A\cup B)=P(A)+P(B)。條件機率則給出一個計算兩事件交集的規則:若 P(B)\neq 0,則

P(A\cap B)=P(A|B)P(B)

根據對稱性,若 P(A)\neq 0,則

P(A\cap B)=P(B|A)P(A)

重複使用條件機率的定義式不難證明下面的鏈式法則 (chain rule):

P(A\cap B|C)=P(A|B\cap C)P(B|C)

P(A\cap B\cap C)=P(A|B\cap C)P(B|C)P(C)

 
既然條件機率滿足機率函數的定義,我們也可以用頻率觀點解釋條件機率。假設進行 n 次試驗,令 n_An_Cn_{A\cap C} 分別表示事件 ACA\cap C 發生的次數。因此,P(A)\simeq\frac{n_A}{n}P(C)\simeq\frac{n_C}{n}P(A\cap C)\simeq\frac{n_{A\cap C}}{n},也就有

\displaystyle  P(A|C)=\frac{P(A\cap C)}{P(C)}\simeq\frac{n_{A\cap C}/n}{n_C/n}=\frac{n_{A\cap C}}{n_C}

條件機率可以這麼解釋:將事件 C 未發生的試驗扣除,條件機率 P(A|C) 近似事件 A 在僅保留發生事件 C 的試驗中的相對發生頻率。條件機率的第一個應用是簡化機率計算,我們用一個例子來說明。

 
例2. 一個甕裡面有3顆紅球和2顆白球,記為 r_1,r_2,r_3,w_1,w_2。我們依序抽出2顆球,第一顆球是紅球且第二顆球是白球的機率是多少?

第一個方法列出實驗的樣本空間再計算所求事件的機率。樣本空間 \Omega 包含 5\cdot 4=20 個有序元素,如下:

\Omega=\left\{  \begin{array}{cccc}  r_1r_2&r_1r_3&r_1w_1&r_1w_2\\  r_2r_1&r_2r_3&r_2w_1&r_2w_2\\  r_3r_1&r_3r_2&r_3w_1&r_3w_2\\  w_1r_1&w_1r_2&w_1r_3&w_1w_2\\  w_2r_1&w_2r_2&w_2r_3&w_2w_1  \end{array}  \right\}

第一次取出紅球且第二次取出白球共計包含6個結果 \{r_1w_1, r_1w_2, r_2w_1, r_2w_2, r_3w_1, r_3w_2\},因此機率為 \frac{6}{20}

第二個方法使用條件機率。設 R_1 表示第一次抽中紅球,則 P(R_1)=\frac{3}{5}。設 W_2 表示第二次抽出白球。如果 R_1 發生,甕裡面只剩下2顆紅球和2顆白球,因此 P(W_2|R_1)=\frac{2}{4}。所以,第一次抽出紅球且第二次抽出白球的機率為

\displaystyle  P(R_1\cap W_2)=P(W_2|R_1)P(R_1)=\frac{2}{4}\cdot\frac{3}{5}=\frac{6}{20}=\frac{3}{10}

 
這個例子顯示利用條件機率計算的兩個優勢:第一,當問題的複雜度增加時,樣本空間往往變得很大,使用條件機率則不需要列出完整的樣本空間。第二,運用條件機率的計算程序把複雜的問題切割成較為簡單的子問題,符合常人的邏輯推理過程。

 
全機率公式

考慮一個隨機實驗,若 \Omega=B_1\cup\cdots\cup B_kB_i\cap B_j=\emptyseti\neq j,也就是說,事件 B_1,\ldots, B_k 兩兩互斥且聯集構成樣本空間,我們稱 [B_1,\ldots,B_k] 為樣本空間的一個分割 (partition)。根據機率函數條件2與3,

\displaystyle  P(B_1)+\cdots+P(B_k)=P(B_1\cup\cdots\cup B_k)=P(\Omega)=1

對於任一事件 A,下式稱為全機率公式 (law of total probability):

\displaystyle  P(A)=P(A|B_1)P(B_1)+\cdots+P(A|B_k)P(B_k)

證明於下:寫出事件 A 的分解表達式

A=A\cap \Omega=A\cap(B_1\cup\cdots\cup B_k)=(A\cap B_1)\cup\cdots\cup(A\cap B_k)

順便一提,有些機率學教科書將 A\cap B 寫成 AB,並將 A\cup B 寫成 A+B。因為交集與聯集服從適用於乘法與加法的分配律,這麼做的好處是幫助記憶並避免出錯,譬如上式可以表示為

A=A\Omega=A(B_1+\cdots+B_k)=AB_1+\cdots+AB_k

因為 B_iB_j 互斥,i\neq j,可知 A\cap B_iA\cap B_j 互斥,故

P(A)=P(A\cap B_1)+\cdots+P(A\cap B_k)

其中 P(A\cap B_i)=P(A|B_i)P(B_i)i=1,\ldots,k,證畢。

 
全機率公式是機率計算的一種分治法 (divide-and-conquer),將樣本空間分割為全無遺漏的互斥集合,分別計算所求事件與各個被劃分的集合同時發生的機率,最後再加總在一起。設 a_i=P(A|B_i),全機率公式為

\displaystyle  P(A)=a_1P(B_1)+\cdots+a_kP(B_k)

也就是說,P(A)P(B_1),\ldots,P(B_k) 的線性組合,組合權重即為條件機率 a_1,\ldots,a_k。全機率公式惟當 P(B_1),\ldots,P(B_k) 以及條件機率 P(A|B_1),\ldots,P(A|B_k) 都很容易計算時才能發揮效果。在實際應用時,樣本空間的分割 [B_1,\ldots,B_k] 通常由問題現象與情境決定。

 
例3. 假設有兩個甕,第一個甕裡面有3顆紅球,第二個甕裡面有2顆紅球和1顆白球。我們隨機挑選一個甕,然後從中抽出2顆球,抽中2顆紅球的機率是多少?

樣本空間 \Omega 包含5顆紅球和1顆白球,\Omega=\{r_1,r_2,r_3,r_4,r_5,w_1\}。順應題意,將樣本空間分割為 U_1=\{r_1,r_2,r_3\}U_2=\{r_4,r_5,w_1\}。因為我們任選一個甕,P(U_1)=P(U_2)=\frac{1}{2}。設 A 表示抽中2顆紅球,根據全機率公式,

\displaystyle\begin{aligned}  P(A)&=P(A|U_1)P(U_1)+P(A|U_2)P(U_2)\\  &=\frac{3}{3}\cdot\frac{1}{2}+\frac{1}{3}\cdot\frac{1}{2}=\frac{3}{6}+\frac{1}{6}=\frac{4}{6}.  \end{aligned}

 
獨立事件

兩個事件 AB 稱為獨立 (independent),若

P(A\cap B)=P(A)P(B)

在機率學中,獨立性是一個非常重要的概念。獨立事件有另一個等價的定義方式,因為 P(A\cap B)=P(A|B)P(B),推知 AB 是獨立事件,若 P(A|B)=P(A),意思是事件 A 是否發生與事件 B 發生與否沒有關係。根據對稱性,我們也可以說 AB 是獨立事件,若 P(B|A)=P(B),即事件 B 是否發生與事件 A 發生與否沒有關係。獨立性可以推廣至多個事件。事件 A,B,C 稱為相互獨立 (mutually independent),若兩兩獨立且 P(A\cap B\cap C)=P(A)P(B)P(C)

 
例4. 投擲一枚公正硬幣兩次,第一次投擲出現正面與第二次投擲出現正面是獨立事件。設 A=\{HH,HT\} 表示第一次出現正面,B=\{HH,TH\} 表示第二次出現正面,則 P(A\cap B)=P(\{HH\})=\frac{1}{4},且 P(A)P(B)=\frac{1}{2}\cdot\frac{1}{2}=\frac{1}{4}

例5. 投擲一顆公正骰子,設 A 表示擲出點數為奇數,B 表示擲出點數為質數 (素數),AB 是獨立事件嗎?寫出 A=\{1,3,5\}B=\{2,3,5\},則 P(A\cap B)=P(\{3,5\})=\frac{2}{6},但 P(A)P(B)=\frac{3}{6}\cdot\frac{3}{6}=\frac{1}{4},可知 AB 並非獨立事件。事實上,P(A|B)=\frac{2/6}{3/6}=\frac{2}{3}>P(A)P(B|A)=\frac{2/6}{3/6}=\frac{2}{3}>P(B)

 
我們將在重複試驗問題中看見獨立性的價值,這裡僅介紹獨立事件的一些性質:

  • AB 是獨立事件,則 A^cB 是獨立事件,且 A^cB^c 也是獨立事件。

    寫出 B=(A\cap B)\cup (A^c\cap B),其中 A\cap BA^c\cap B 互斥,故

    \begin{aligned}  P(A^c\cap B)&=P(B)-P(A\cap B)=P(B)-P(A)P(B)\\  &=(1-P(A))P(B)=P(A^c)P(B).\end{aligned}

    繼續上面的性質,A^cB 是獨立事件蘊含 A^cB^c 是獨立事件。

  • A,B,C 是相互獨立事件,其中任一個事件與其餘兩個事件的交集是獨立的。

    寫出

    P(A\cap B\cap C)=P(A)P(B)P(C)=P(A)P(B\cap C)

    AB\cap C 是獨立事件。

  • A,B,C 是相互獨立事件,其中任一個或多個事件以補集取代仍構成相互獨立事件。
    寫出 B\cap C=(A\cap B\cap C)\cup(A^c\cap B\cap C),則

    \begin{aligned}  P(A^c\cap B\cap C)&=P(B\cap C)-P(A\cap B\cap C)\\  &=P(B)P(C)-P(A)P(B)P(C)\\  &=(1-P(A))P(B)P(C)\\  &=P(A^c)P(B)P(C).  \end{aligned}

  • A,B,C 是相互獨立事件,其中任一個事件與其餘兩個事件的聯集是獨立的。

    使用前述性質,A, B^c, C^c 是相互獨立事件,再者 AB^c\cap C^c=(B\cup C)^c 是獨立事件,推論 AB\cup C 是獨立事件。

 
貝氏定理

AB 為兩個事件,P(A)\neq 0P(B)\neq 0。合併兩個條件機率

\displaystyle  P(A|B)=\frac{P(A\cap B)}{P(B)},~~P(B|A)=\frac{P(A\cap B)}{P(A)}

可得

\displaystyle  P(B|A)=\frac{P(A|B)P(B)}{P(A)}

這個等式稱為貝氏定理 (Bayes’ theorem),最早由英國數學家貝葉斯 (Thomas Bayes) 提出,之後法國數學家拉普拉斯 (Pierre-Simon Laplace) 給出目前所見的表達式。貝氏定理常以嵌入全機率公式的形式出現,設 [B_1,\ldots,B_k] 為樣本空間的一個分割,則

\displaystyle  P(B_i|A)=\frac{P(A|B_i)P(B_i)}{P(A|B_1)P(B_1)+\cdots+P(A|B_k)P(B_k)}

 
貝氏定理的應用非常廣泛,大體上說,只要問題涉及以條件機率計算的數據推論幾乎不免使用貝氏定理。我們先利用貝氏定理解答本文初提出的問題,之後再討論貝氏定理的涵義。

 
例6. 假設有兩個甕,第一個甕裡面有3顆紅球,第二個甕裡面有2顆紅球和1顆白球。我們隨機選擇一個甕,然後從中抽出2顆球。假設結果是2顆紅球,留在甕裡的那顆球是紅球的機率有多大?

如例3,將樣本空間 \Omega=\{r_1,r_2,r_3,r_4,r_5,w_1\} 分割為 U_1=\{r_1,r_2,r_3\}U_2=\{r_4,r_5,w_1\}。設 A 表示從一個甕中抽出2顆紅球,我們的問題要算出 P(U_1|A),即留在甕裡的那顆球是紅球的機率。根據貝氏定理,

\begin{aligned}  P(U_1|A)&=\frac{P(A|U_1)P(U_1)}{P(A|U_1)P(U_1)+P(A|U_2)P(U_2)}\\  &=\displaystyle\frac{1\cdot\frac{1}{2}}{1\cdot\frac{1}{2}+\frac{1}{3}\cdot\frac{1}{2}}=\frac{\frac{1}{2}}{\frac{4}{6}}=\frac{3}{4}.  \end{aligned}

如果將問題改成從一個甕中抽出1顆球,假設是紅球,則甕裡面有2顆紅球的機率是多少?同樣地,我們以貝氏定理解答。設 A' 代表從一個甕中抽出1顆紅球,則

\displaystyle  P(U_1|A')=\frac{1\cdot\frac{1}{2}}{1\cdot\frac{1}{2}+\frac{2}{3}\cdot\frac{1}{2}}=\frac{\frac{1}{2}}{\frac{5}{6}}=\frac{3}{5}

這個結果顯示給定不同的已知條件 (如 AA'),事件 U_1 發生的機率也隨之改變。

 
最後我們討論貝氏定理的意義並用蒙提霍爾問題 (Monty Hall Problem) 當例子說明 (見“蒙提霍爾問題”)。事件 A 表示一項已知的事證 (evidence),P(A) 是這個事證發生的機率 (見“貝氏定理──量化思考的利器”)。樣本空間的分割 [B_1,\ldots,B_k] 可以看成所有的實驗結果劃分出的類別 (class)。對於每一個類別 B_iP(B_i) 稱為事前機率或先驗機率 (prior probability),意思是在沒有看見任何事證之前,實驗結果屬於類別 B_i 的機率。一旦得知了事證 A,我們便可以根據它計算 B_i 發生的機率,P(B_i|A) 稱為事後機率或後驗機率 (posterior probability),意思是在事證 A 發生之後,實驗結果屬於類別 B_i 的機率。特別要注意的是 P(A|B_i) 表示給定類別 B_i,事證 A 出現的機率,稱為似然函數 (likelihood function)。使用貝氏定理於思考推理的一個前提是我們必須依據問題陳述正確地界定事後機率 P(B_i|A) 與似然函數 P(A|B_i)。下面這個例子稱為蒙提霍爾問題。

 
例7. 假設你正在參加一個遊戲節目,你被要求在三扇門中選擇一扇:其中一扇後面有一輛車;其餘兩扇後面則是山羊。你選擇了一道門,假設是1號門,然後知道門後面有甚麼的主持人,開啟了另一扇後面有山羊的門,假設是3號門。他然後問你:「你想選擇2號門嗎?」轉換你的選擇對你來說具有優勢嗎?

我們先對問題做一些假設:

  • 車子隨機置放於一扇門後面。
  • 主持人不會打開你選擇的那扇門,他只能打開其他的兩扇門之一。主持人絕對不會打開有車子的那扇門,如果兩扇門後面都是山羊,他將隨機打開其中的一扇門。

假設我們挑選了1號門。設 D_1,D_2,D_3 分別代表車子在1,2,3號門後面,也就是說 [D_1,D_2,D_3] 是樣本空間的分割。設 H_3 表示主持人打開了3號門,根據這個事證,我們的問題等價於計算兩個條件機率:如果不轉換選擇,贏得車子的機率 P(D_1|H_3),以及如果轉換選擇,贏得車子的機率 P(D_2|H_3)。套用貝氏定理,

\displaystyle\begin{aligned}  P(D_1|H_3)&=\frac{P(H_3|D_1)P(D_1)}{P(H_3|D_1)P(D_1)+P(H_3|D_2)P(D_2)+P(H_3|D_3)P(D_3)}\\  P(D_2|H_3)&=\frac{P(H_3|D_2)P(D_2)}{P(H_3|D_1)P(D_1)+P(H_3|D_2)P(D_2)+P(H_3|D_3)P(D_3)}.  \end{aligned}

根據假設,P(D_1)=P(D_2)=P(D_3)=\frac{1}{3}。再者,P(H_3|D_1)=\frac{1}{2},因為主持人可以打開2號門或3號門。但 P(H_3|D_2)=1,因為2號門後面有車子,他只能開3號門。類似地,P(H_3|D_3)=0。將數值代入計算,可得

\displaystyle  P(D_1|H_3)=\frac{\frac{1}{2}\cdot\frac{1}{3}}{\frac{1}{2}\cdot\frac{1}{3}+1\cdot\frac{1}{3}+0\cdot\frac{1}{3}}=\frac{\frac{1}{6}}{\frac{3}{6}}=\frac{1}{3}

\displaystyle  P(D_2|H_3)=\frac{1\cdot\frac{1}{3}}{\frac{1}{2}\cdot\frac{1}{3}+1\cdot\frac{1}{3}+0\cdot\frac{1}{3}}=\frac{\frac{1}{3}}{\frac{3}{6}}=\frac{2}{3}

所以,轉換選擇可贏得車子的機率 \frac{2}{3} 大於不轉換選擇可贏得車子的機率 \frac{1}{3}

 
如果不使用貝氏定理,該如何解答蒙提霍爾問題呢?講穿了,其實很簡單。若無論主持人打開那一扇門我們都不轉換選擇,則贏得車子的機率為 P(D_1)=\frac{1}{3}[2]。既然如此,轉換選擇可贏得車子的機率必定是 1-\frac{1}{3}=\frac{2}{3},因為這個遊戲節目只可能有兩個結果:贏或沒贏。

 
下一篇我們將討論重複試驗,以及一些可以幫助計算機率的有用工具。在此之前,讀者不妨嘗試解答這個問題:

一個工廠生產的燈泡不良率為0.1%,在一批1,000個燈泡的出貨中,恰好有一顆燈泡是瑕疵品的機率有多大?

 
註解:
[1] 原文:“The only real valuable thing is intuition.”
[2] 故事一:在一個暴風夜,你和兩個朋友一起走獨木橋渡河,上帝決定只讓一個人抵達彼岸。三人行走至橋中間,你的一個朋友不幸失足落河,你為此感到高興,因為你可以安全過河的機率從 \frac{1}{3} 提高到 \frac{1}{2}。故事二:你和兩個朋友一起被關在地牢裡,撒旦決定只讓一個人存活,令每人吞服一顆藥丸,其中一顆是維他命,另兩顆是毒藥。過了三分鐘,你的一個朋友口吐白沫死了,但你無須感到高興,因為你早已經服下藥丸,倖存的機率依然是 \frac{1}{3}

繼續閱讀:
廣告
本篇發表於 機率統計 並標籤為 , , , 。將永久鏈結加入書籤。

4 Responses to 條件機率與貝氏定理

  1. txshi 說道:

    最近为了学机器学习正在恶补数学基础,时常希望在概率统计这个领域里能看到与线代启示录媲美的中文博客,没想到老师也在写概率方面的文章了,非常期待。祝周老师新年快乐,身体健康,工作顺利,阖家幸福

  2. 黃舶暢 說道:

    老師您好,請問例3.問"抽中2顆紅球",因此P(A|U2)的機率是否為2/3?

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s