隨機變數

本文的閱讀等級:初級

在機率學,一個實驗 (experiment) 由下列三個概念設定 (見“機率學的基本語彙”):

  1. 樣本空間 \Omega 包含所有可能的實驗結果,
  2. 定義於 \Omega 的所有事件,
  3. 每一個事件的機率。

現實問題中,實驗結果常被賦予可度量的性質。舉例來說,考慮投擲一枚硬幣 100 次,結果 \omega 可用字元 H (正面) 與 T (反面) 所組成的長度為 100 的字串表示。這個實驗的樣本空間 \Omega2^{100} 個字串 (元素)。假設我們關心出現正面的次數,令函數 f(\omega) 等於字串 \omega 所含的 H 字元數,例如,f(TT\cdots T)=0f(HT\cdots T)=1f(HH\cdots H)=100。函數 f 的值域為 \{0,1,\ldots,100\}。對於 0\le k\le 100,存在 \binom{100}{k} 個字串 \omega_i 使得 f(\omega_i)=k,其中 \binom{100}{k} 代表從100個元素選取 k 個元素的組合數。因此,\sum_{k=0}^{100}\binom{100}{k}=2^{100} (見“二項式係數與組合問題”)。在建立機率模型時,以函數 f 的值域取代樣本空間有兩個明顯的好處:第一,函數 f 由我們所考慮的問題決定,據此建立的模型呈現問題情境。第二,函數 f 的值域是數組成的集合故而便利計算。我們在實驗的樣本空間 \Omega 上制定的函數 f 引申出機率學的一個核心概念,稱為隨機變數 (random variable)。

 
隨機變數

隨機變數是定義於樣本空間的一個函數。事實上,在尚未正式給出定義前,我們就經常使用這個概念,譬如,投擲一顆六面骰子出現的點數,投擲一枚硬幣 n 次中出現正面的次數,一間便利商店在期間 (t_1,t_2) 的訪客數。在這些例子中,我們給每一個實驗結果指定一個數,這個指定規則即為隨機變數。具體地說,隨機變數 \mathbf{x} 是一個函數 \mathbf{x}:\Omega\to\mathbb{R}。對於實驗結果 \omega\mathbf{x}(\omega) 表示所指定的一個數,\mathbf{x} 表示 \omega\to\mathbf{x}(\omega) 的指定規則。隨機變數一詞很容易引起誤解,稱為隨機函數比較恰當,原因是 \mathbf{x} 本身並非實驗結果,而是 \mathbf{x} 的輸入變數是一個實驗結果。隨機變數的到達域設為實數僅為配合多數的應用,並不具強制性。為了與一般的函數有所區隔,我們不以通用的函數記號 f 表示隨機變數。近代機率學或統計學教本常以斜體大寫字母 X 表示隨機變數,這裡我選擇粗體小寫字母 \mathbf{x} 的用意在於提示一個較罕見的觀念:隨機變數是一個向量。

 
針對某個實驗,隨機變數 \mathbf{x} 按照我們設想的問題情境制定,目的在於量化實驗結果。例如,投擲一顆六面骰子是一個實驗,樣本空間為有限集 \Omega=\{\omega_1,\ldots,\omega_6\},結果 \omega_i 表示擲出點數為 i。如果我們關心骰子擲出的點數大小,可設隨機變數 \mathbf{x}(\omega_i)=ii=1,\ldots,6。如果我們關心骰子是否擲出偶數,可設隨機變數 \mathbf{x}(\omega_1)=\mathbf{x}(\omega_3)=\mathbf{x}(\omega_5)=0\mathbf{x}(\omega_2)=\mathbf{x}(\omega_4)=\mathbf{x}(\omega_6)=1。隨機變數可以當成一個映射表:

\displaystyle  \begin{array}{cccccccc}  i&\vline&1&2&3&4&5&6\\\hline  \mathbf{x}(\omega_i)&\vert&0&1&0&1&0&1  \end{array}

隨機變數 \mathbf{x}(\omega_i)i=1,\ldots,6,唯一對應6維向量 \mathbf{x}=(0,1,0,1,0,1)。在投擲六面骰子實驗,向量空間 \mathbb{R}^6 的任一向量 \mathbf{x}=(x_1,\ldots,x_6) 對應定義於樣本空間 \Omega=\{\omega_1,\ldots,\omega_6\} 的隨機變數 \mathbf{x}:\omega_i\to x_ii=1,\ldots,6。「隨機變數是一個向量」乃聯繫機率學與線性代數的關鍵,這個觀念的用途將留待隨機變數的相關性再討論。

 
樣本空間 \Omega 的任一子集合 (包含空集合) 稱為一個事件。機率函數定義於事件上,因此我們感興趣的事件必須能用隨機變數表述。給定任一數 x,在樣本空間 \Omega 中找出所有不大於 x 的數 \mathbf{x}(\omega),這些元素 \omega 組成一集合,記為 \{\omega\in\Omega\,\vert\,\mathbf{x}(\omega)\le x\} 或簡記為 \{\mathbf{x}\le x\}。注意 \{\mathbf{x}\le x\} 不是一個數的集合,而是實驗結果的集合。同樣道理,\{\mathbf{x}=x\} 包含所有的 \omega\in\Omega 使得 \mathbf{x}(\omega)=x\{x_1\le\mathbf{x}\le x_2\} 包含所有的 \omega\in\Omega 使得 x_1\le\mathbf{x}(\omega)\le x_2。若 S 是實數集,\{\mathbf{x}\in S\} 包含所有的 \omega\in\Omega 使得 \mathbf{x}(\omega)\in S。下述性質成立 (證明從略):對於任一 x,如果 \{\mathbf{x}\le x\} 是一個事件,且 S 由可數的區間的交集與聯集構成,則 \{\mathbf{x}\in S\} 是一個事件。我們要求隨機變數 \mathbf{x} 滿足下面兩個條件:

  1. 對於任一 x\{\mathbf{x}\le x\} 是一個事件;
  2. P(\{\mathbf{x}=\infty\})=0P(\{\mathbf{x}=-\infty\})=0

條件1與條件2都是出於便利發展理論而設的寬鬆限制。對於某些結果,條件2說我們允許指定的數為 \infty-\infty,但這些結果形成的集合有零機率。

 
累積分布函數

對於隨機變數 \mathbf{x},事件 \{\mathbf{x}\le x\} 所包含的元素 (實驗結果) 隨著 x 的不同而改變,因此 \{\mathbf{x}\le x\} 的機率 P(\{\mathbf{x}\le x\}) (以下簡記為 P(\mathbf{x}\le x)) 也由 x 決定。隨機變數 \mathbf{x} 的累積分布函數 (cumulative distribution function,簡稱分布函數) 定義為

F_{\mathbf{x}}(x)=P(\mathbf{x}\le x)

在不造成混淆的情況下,我們以 F(x)F(y) 分別表示隨機變數 \mathbf{x}\mathbf{y} 的分布函數。如果樣本空間 \Omega 為一有限集或無限可數集 (包含無窮多個元素的集合,其中每一個元素唯一對應一個自然數),則任一事件皆可用基本事件 (包含單一結果的事件) \{\omega_i\} 的機率 P(\{\omega_i\}) 表示。因為 \{\omega_i\}\{\omega_j\} 互斥,i\neq j

\displaystyle  F(x)=P(\mathbf{x}\le x)=P\left(\left\{\omega_i\in\Omega|\mathbf{x}(\omega_i)\le x\right\}\right)=\sum_{\omega_i\in\Omega,\mathbf{x}(\omega_i)\le x}P(\{\omega_i\})

 
例1. 投擲一枚硬幣,\Omega=\{H,T\},設正面 H 出現的機率為 p,反面 T 出現的機率為 q=1-p。定義隨機變數 \mathbf{x} 使得 \mathbf{x}(H)=1\mathbf{x}(T)=0。分布函數如下:

  • x\ge 1,則 \mathbf{x}(H)=1\le x\mathbf{x}(T)=0\le x,因此 F(x)=P(\mathbf{x}\le x)=P(\{H\})+P(\{T\})=p+q=1
  • 0\le x<1,則 \mathbf{x}(H)=1> x\mathbf{x}(T)=0\le x,因此 F(x)=P(\mathbf{x}\le x)=P(\{T\})=q
  • x< 0,則 \mathbf{x}(H)=1> x\mathbf{x}(T)=0> x,因此 F(x)=P(\mathbf{x}\le x)=P(\emptyset)=0

因此,F(x) 是一個步階 (staircase) 函數,不連續點在 01 (若 0< p< 1)。

 
例2. 考慮投擲二顆公正骰子,樣本空間為 \Omega=\{F_iF_j, 1\le i,j\le 6\},其中 F_i 代表出現點數為 i 的面。定義隨機變數為兩顆骰子的點數和,\mathbf{x}(F_iF_j)=i+j,隨機變數 \mathbf{x} 的值域為 \{2,3,\ldots,12\}。每一基本事件的機率相同,P(\{F_iF_j\})=\frac{1}{36},可得

\displaystyle  P(\mathbf{x}=x)=\sum_{x=i+j \atop 1\le i,j\le 6}P(\{F_iF_j\})=\sum_{x=i+j \atop 1\le i,j\le 6}\frac{1}{36},~~x\in\{2,3,\ldots,12\}

詳細如下:

\displaystyle  \begin{aligned}  P(\mathbf{x}=2)&=P(\mathbf{x}=12)=\frac{1}{36}\\  P(\mathbf{x}=3)&=P(\mathbf{x}=11)=\frac{2}{36}\\  P(\mathbf{x}=4)&=P(\mathbf{x}=10)=\frac{3}{36}\\  P(\mathbf{x}=5)&=P(\mathbf{x}=9)=\frac{4}{36}\\  P(\mathbf{x}=6)&=P(\mathbf{x}=8)=\frac{5}{36}\\  P(\mathbf{x}=7)&=\frac{6}{36}.  \end{aligned}

這裡列出幾個分布函數的輸入與回傳值:

\displaystyle  \begin{aligned}  F(1)&=P(\mathbf{x}\le 1)=P(\emptyset)=0\\  F(3)&=P(\mathbf{x}\le 3)=P(\mathbf{x}=2)+P(\mathbf{x}=3)=\frac{3}{36}\\  F(3.5)&=P(\mathbf{x}\le 3.5)=P(\mathbf{x}=2)+P(\mathbf{x}=3)=\frac{3}{36}\\  F(13)&=P(\mathbf{x}\le 13)=P(\mathbf{x}=2)+\cdots+P(\mathbf{x}=12)=1.  \end{aligned}

分布函數 F(x) 是一個步階函數,\mathbf{x} 的值域 \{2,3,\ldots,12\} 的每一點都是不連續點。

 
F(x^{-})=\lim_{\epsilon\to 0^+} F(x-\epsilon)F(x^{+})=\lim_{\epsilon\to 0^+} F(x+\epsilon),其中 \epsilon\to 0^+ 表示 \epsilon>0\epsilon\to 0。下面列舉分布函數的一些性質:

(C1) F(-\infty)=0F(\infty)=1

因為 F(-\infty)=P(\mathbf{x}=-\infty)=0F(\infty)=P(\mathbf{x}\le\infty)=P(\Omega)=1

(C2) F 是一個單調遞增 (非遞減) 函數:若 x_1\le x_2,則 F(x_1)\le F(x_2)

\mathbf{x}(\omega)\le x_1,則 \mathbf{x}(\omega)\le x_2。因此,\{\mathbf{x}\le x_1\}\{\mathbf{x}\le x_2\} 的子集合,即有 P(\mathbf{x}\le x_1)\le P(\mathbf{x}\le x_2)

(C3) P(\mathbf{x}>x)=1-F(x)

事件 \{\mathbf{x}\le x\}\{\mathbf{x}> x\} 互斥且 \{\mathbf{x}\le x\}\cup\{\mathbf{x}>x\}=\Omega,故 P(\mathbf{x}\le x)+P(\mathbf{x}>x)=P(\Omega)=1

(C4)P(x_1<\mathbf{x}\le x_2)=F(x_2)-F(x_1)

事件 \{\mathbf{x}\le x_1\}\{x_1<\mathbf{x}\le x_2\} 互斥且 \{\mathbf{x}\le x_2\}=\{\mathbf{x}\le x_1\}\cup \{x_1<\mathbf{x}\le x_2\},故 P(\mathbf{x}\le x_2)=P(\mathbf{x}\le x_1)+P(x_1<\mathbf{x}\le x_2)

(C5) P(\mathbf{x}=x)=F(x)-F(x^-)

x_1=x-\epsilonx_2=x。由 (C4),P(x-\epsilon<\mathbf{x}\le x)=F(x)-F(x-\epsilon)。當 \epsilon\to 0^+,即得所求。

(C6) P(x_1\le \mathbf{x}\le x_2)=F(x_2)-F(x_1^-)

事件 \{\mathbf{x}=x_1\}\{x_1<\mathbf{x}\le x_2\} 互斥且 \{x_1\le\mathbf{x}\le x_2\}=\{\mathbf{x}=x_1\}\cup \{x_1<\mathbf{x}\le x_2\},由 (C4) 與 (C5) 推得

\begin{aligned}  P(x_1\le \mathbf{x}\le x_2)&=P(\mathbf{x}=x_1)+P(x_1<\mathbf{x}\le x_2)\\  &=F(x_1)-F(x_1^-)+F(x_2)-F(x_1)\\  &=F(x_2)-F(x_1^-).  \end{aligned}

(C7) F 從右邊連續,即 F(x^+)=F(x)

利用集合的極限可證明當 \epsilon\to 0^+\{\mathbf{x}\le x+\epsilon\} 趨於 \{\mathbf{x}\le x\},因此 P(\mathbf{x}\le x+\epsilon)=F(x+\epsilon) 趨於 P(\mathbf{x}\le x)=F(x)

 
機率密度函數

分布函數的性質 (C5) 區分出兩種情況。若 F(x) 是連續分布函數,\mathbf{x} 稱為連續型隨機變數。在此情形下,對於每一 xF(x^-)=F(x),故 P(\mathbf{x}=x)=F(x)-F(x^-)=0。若 F(x) 是步階函數,\mathbf{x} 稱為離散型隨機變數。設 x_iF(x) 的一個不連續點,則 P(\mathbf{x}=x_i)=F(x_i)-F(x_i^-) 可能不為零。如例1的投擲硬幣實驗,P(\mathbf{x}=1)=F(1)-F(1^-)=1-q=pP(\mathbf{x}=0)=F(0)-F(0^-)=q-0=q。令 \Omega_{\mathbf{x}}=\{\mathbf{x}(\omega)|\omega\in\Omega\} 表示隨機變數 \mathbf{x} 的值域。另一個區分隨機變數的方式:若 \Omega_\mathbf{x} 為一有限集或可數集,則 \mathbf{x} 為離散型隨機變數;若 \Omega_\mathbf{x} 為全部實數或由一部分區間組成,即 \{x\vert a\le x\le b \},則 \mathbf{x} 為連續型隨機變數。

 
我們定義隨機變數 \mathbf{x} 的機率密度函數 (probability density function,簡稱密度函數)為分布函數 F_\mathbf{x}(x) 的導數

\displaystyle f_\mathbf{x}(x)=\frac{dF_\mathbf{x}(x)}{dx}

在不造成混淆的情況下,以 f(x)f(y) 分別表示隨機變數 \mathbf{x}\mathbf{y} 的密度函數。若 \mathbf{x} 是離散型隨機變數且 P(\mathbf{x}=x_i)=p_i,則

\displaystyle  f(x)=\sum_{i}p_i\delta(x-x_i)

其中 \delta(z)=1z=0\delta(z)=0z\neq 0。因為 f(x_i)=P(\mathbf{x}=x_i)=p_ix_i\in\Omega_{\mathbf{x}},且 f(x_i)=0x_i\notin\Omega_\mathbf{x},離散型隨機變數的密度函數也稱為機率質量函數 (probability mass function),意思是質量集中於有限集或可數集 \Omega_\mathbf{x} 所包含的點上。

 
利用分布函數 F(x) 的性質可推得密度函數 f(x) 的性質:

(D1) f(x)\ge 0

因為 (C2) F(x) 是單調遞增函數。

(D2) \displaystyle  F(x)=\int_{-\infty}^xf(\xi)d\xi

因為 (C1) F(-\infty)=0,積分 f(x) 的定義式即得所求。

(D3) \displaystyle  \int_{-\infty}^\infty f(x)dx=1

因為 (C1) F(\infty)=1,由 (D2) 即得所求。

(D4) \displaystyle  P(x_1\le\mathbf{x}\le x_2)=\int_{x_1}^{x_2}f(x)dx

因為 (C6) P(x_1\le\mathbf{x}\le x_2)=F(x_2)-F(x_1^-),由 (D2),F(x_2)-F(x_1^-)=\int_{-\infty}^{x_2}f(x)dx-\int_{-\infty}^{x_1^-}f(x)dx=\int_{x_1}^{x_2}f(x)dx,合併即得證。

 
\mathbf{x} 是連續型隨機變數,設 x_1=xx_2=x+\Delta x,由 (D4),當 \Delta x 足夠小時,

\displaystyle  P(x\le\mathbf{x}\le x+\Delta)=\int_{x}^{x+\Delta x}f(\xi)d\xi\simeq f(x)\Delta x

因此,密度函數也可以定義為

\displaystyle  f(x)=\lim_{\Delta\to 0}\frac{P(x\le\mathbf{x}\le x+\Delta)}{\Delta x}

 
隨機變數 \mathbf{x} 及其分布函數 F(x) 與密度函數 f(x) 已經包含了我們關心的機率問題性質,因此沒有必要引述實驗的原始樣本空間 \Omega。使用隨機變數建立機率模型之前,有一個問題要釐清:給定一函數 f(x)F(x)=\int_{-\infty}^x f(\xi)d\xi,能否建立一個實驗與隨機變數 \mathbf{x} 使得 f(x) 為密度函數,F(x) 為分布函數?答案是肯定的,條件是 f(x) 不為負值且從 -\infty\infty 與水平軸所夾的面積為 1F(x) 從右邊連續,且當 x-\infty 增至 \inftyF(x)0 單調遞增至 1。作法如下:令實驗的樣本空間為 \Omega=\mathbb{R}。對於每一 x\in\mathbb{R},定義隨機變數 \mathbf{x}(x)=x,也就是說 x 是一個實驗結果,同樣也是指定給這個結果的一個數。對於事件 \{\mathbf{x}\le a\},設 P(\mathbf{x}\le a)=P(x\le a)=F(a)。因為 a 是任意數,F(x) 即為隨機變數 \mathbf{x} 的分布函數。

廣告
本篇發表於 機率統計 並標籤為 , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s