動差生成函數 (下)

本文的閱讀等級:中級

延續前文“動差生成函數 (上)”,本文將探討連續型隨機變數的動差生成函數。連續型隨機變數 X 的值域為全部實數或由一部分區間組成,即 \{x\vert a\le x\le b \},其中 -\infty<a<b<\infty。連續型隨機變數 X 的機率分布一般以下面兩種方式表示:

  1. 機率密度函數 (probability density function) f(x) 滿足 P(a\le X\le b)=\int_{a}^bf(x)dx
  2. 累積分布函數 F(x) 代表 P(X\le x)=\int_{-\infty}^xf(z)dz

連續型隨機變數 X 的期望值 \mu 和變異數 \sigma^2 定義為

\displaystyle\begin{aligned}  \mu&=E(X)=\int_{-\infty}^{\infty}xf(x)dx\\  \sigma^2&=E(X-\mu)^2=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx.\end{aligned}

我們稱 X^k 的期望值為 Xk 次動差,表示如下:

\displaystyle  \mu_k=E\left(X^k\right)=\int_{-\infty}^{\infty}x^kf(x)dx

前提是上式必須收斂。連續型隨機變數 X 的動差生成函數定義為

\displaystyle  m(t)=E\left(e^{Xt}\right)=E\left(\sum_{k=0}^{\infty}\frac{X^kt^k}{k!}\right)=\sum_{k=0}^{\infty}\frac{\mu_kt^k}{k!}=\int_{-\infty}^{\infty}e^{xt}f(x)dx

其中最後一個等號係因 E 是隨機變數的線性算子。計算 m(t)0k 次導數可得 \mu_k,因為

\displaystyle    m^{(k)}(t)=\int_{-\infty}^\infty x^ke^{xt}f(x)dx=E\left(X^ke^{Xt}\right)

立得 \displaystyle  m^{(k)}(0)=E(X^k)=\mu_k

 
在一般情形下,動差生成函數 m(t) 未必總是於任一 t 收斂,但如果 X 的值域為一有界集合,我們可以證明 m(t) 在每一 t 都收斂。

 
收斂性定理:令 X 為一連續型隨機變數,其值域為一有界區間 [-\delta,\delta]。對於每一 t,動差生成級數

\displaystyle    m(t)=\sum_{k=0}^\infty\frac{\mu_kt^k}{k!}

收斂至一光滑函數 (即無窮可導的函數)。

證明於下。考慮

\displaystyle    \mu_k=\int_{-\delta}^{\delta}x^kf(x)dx

上式取絕對值,

\displaystyle    \vert\mu_k\vert\le\int_{-\delta}^{\delta}\vert x^k\vert f(x)dx\le \delta^k\int_{-\delta}^{\delta}f(x)dx=\delta^k

上面我們使用了歸一性 \int_{-\delta}^{\delta}f(x)dx=1。對於任一正整數 r

\displaystyle   \sum_{k=0}^r\left|\frac{\mu_kt^k}{k!}\right|\le\sum_{k=0}^r\frac{\vert\delta t\vert^k}{k!}\le \sum_{k=0}^\infty\frac{\vert\delta t\vert^k}{k!}=e^{\vert \delta t\vert}

證明動差生成級數對於任一 t 總是收斂。動差生成級數是一無窮冪級數,因此它是一個光滑函數。

 
唯一性定理:令 X 為一連續型隨機變數,其值域為一有界區間。隨機變數 X 的機率密度函數 f 由動差生成函數 m(t) 唯一決定,反之亦然。

根據收斂性定理,動差生成函數 m(t)=\int_{-\infty}^\infty e^{xt}f(x)dx 在任一 t 都是收斂的。將 t=-2\pi i\taui=\sqrt{-1},代入 m(t)

\displaystyle   \psi(\tau)=m(-2\pi i\tau)=\int_{-\infty}^{\infty}e^{-2\pi ix\tau}f(x)dx

稱為隨機變數 X 的特徵函數 (characteristic function)[2]。值得注意的是,\psi(\tau) 即為機率密度函數 f(x) 的傅立葉轉換 (見“離散傅立葉轉換”)。我們知道傅立葉轉換存在逆轉換,即

\displaystyle   f(x)=\int_{-\infty}^{\infty}e^{2\pi ix\tau}\psi(\tau)d\tau

故特徵函數 \psi(\tau),同樣地,動差生成函數 m(t),唯一決定機率密度函數 f

 
下面舉例說明幾個機率分布的動差生成函數。

 
例一:指數分布

假設隨機變數 X 的值域為 [0,\infty)f(x)=\lambda e^{-\lambda x},則

\displaystyle  m(t)=\int_0^\infty e^{xt}\lambda e^{-\lambda x}dx=\int_0^\infty\lambda e^{(t-\lambda)x}dx=\left.\frac{\lambda e^{(t-\lambda)x}}{t-\lambda}\right|_0^\infty=\frac{\lambda}{\lambda-t}

上式僅當 \vert t\vert<\lambda 才會收斂。計算動差:

\displaystyle  \mu_k=m^{(k)}(0)=\left.\frac{\lambda k!}{(\lambda-t)^{k+1}}\right|_{t=0}=\frac{k!}{\lambda^k}

另一個作法調換執行順序,使用定義,

\displaystyle\begin{aligned}  \mu_k&=\int_{0}^{\infty}x^k\lambda e^{-\lambda x}dx=\lambda(-1)^k\frac{d^k}{d\lambda^k}\int_{0}^{\infty}e^{-\lambda x}dx\\  &=\lambda(-1)^k\frac{d^k}{d\lambda^k}\lambda^{-1}=\frac{k!}{\lambda^k},\end{aligned}

再寫出動差生成函數

\displaystyle  m(t)=\sum_{k=0}^\infty \frac{\mu_kt^k}{k!}=\sum_{k=0}^\infty\left(\frac{t}{\lambda}\right)^k=\frac{\lambda}{\lambda-t}

 
例二:標準常態分布

假設隨機變數 X 的機率分布為標準常態分布

\displaystyle  f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}

動差生成函數即為

\displaystyle\begin{aligned}  m(t)&=E\left(e^{Xt}\right)=\int_{-\infty}^\infty e^{xt}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx\\  &=e^{t^2/2}\int_{-\infty}^\infty\frac{1}{\sqrt{2\pi}}e^{-(x-t)^2/2}dx=e^{t^2/2}  .\end{aligned}

上面使用了機率密度函數的歸一性。直接計算導數 \mu_k=m^{(k)}(0) 較為麻煩,我們改用積分運算:

\displaystyle  \mu_k=E\left(X^k\right)=\int_{-\infty}^{\infty}x^k\frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}x^{k-1}\left(xe^{-x^2/2}\right)dx

k 是奇數時,由機率密度函數的對稱性可知上式等於零。以下考慮 k 是偶數的情形。使用部分積分技巧,令 u=x^{k-1}dv=xe^{-x^2/2}dx,即有 du=(k-1)x^{k-2}v=-e^{-x^2/2}。所以動差為

\displaystyle\begin{aligned}  E\left(X^k\right)&=\frac{1}{\sqrt{2\pi}}\left(\left.-x^{k-1}e^{-x^2/2}\right|_{-\infty}^{\infty}+(k-1)\int_{-\infty}^{\infty}x^{k-2}e^{-x^2/2}dx\right)\\  &=\frac{k-1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}x^{k-2}e^{-x^2/2}dx=(k-1)E\left(X^{k-2}\right)  .\end{aligned}

因為 E(X^0)=1,下列遞歸關係成立:

\displaystyle\begin{aligned}  E\left(X^k\right)&=(k-1)(k-3)\cdots 3\cdot 1\\  &=\frac{k!}{\prod_{j=1}^{k/2}2j}=\frac{k!}{2^{k/2}(k/2)!}.\end{aligned}

所以,

\displaystyle  \mu_k=\left\{\begin{matrix}  0& k\hbox{~odd}\\   2^{-k/2}\frac{k!}{(k/2)!} & k\hbox{~even.}   \end{matrix}\right.

 
關於其他連續型機率分布的動差生成函數請參考維基百科[1]。類似離散隨機變數,連續型隨機變數 X 的動差生成函數也有相同的兩個性質。

 
性質一:給定一隨機變數 X,若 Y=aX+b,則 m_Y(t)=e^{bt}m_X(at)

性質二:若 XY 是兩個獨立隨機變數,則 Z=X+Y 的動差生成函數為 m_Z(t)=m_X(t)m_Y(t)

 
下面兩個例子是性質一和性質二的應用。

 
例三:常態分布

假設隨機變數 X 的機率分布為標準常態分布。令 Y=\sigma X+\mu。隨機變數 Y 服從常態分布,特徵值為 \mu 且變異數為 \sigma^2,記作 Y\sim N(\mu,\sigma^2),機率密度函數為

\displaystyle  f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

使用例一結果和性質一,

\displaystyle  m_Y(t)=e^{\mu t}m_X(\sigma t)=e^{\mu t}e^{(\sigma t)^2/2}=e^{\mu t+\sigma^2t^2/2}

或以展開式表示:

\displaystyle\begin{aligned}  m_Y(t)&=e^{\mu t+\sigma^2t^2/2}=1+\left(\mu t+\frac{1}{2}\sigma^2t^2\right)+\frac{1}{2}\left(\mu t+\frac{1}{2}\sigma^2t^2\right)^2+\cdots\\  &=1+\mu t+\frac{1}{2}\left(\sigma^2+\mu^2\right)t^2+\cdots  ,\end{aligned}

其中 E(Y)=\muE(Y^2)=\sigma^2+\mu^2。據此,\sigma^2=E(Y^2)-\mu^2

 
例四:常態分布之和

假設 XY 是兩個獨立隨機變數,X\sim N(\mu_1,\sigma_1^2)Y\sim N(\mu_2,\sigma_2^2)。令 Z=X+Y。隨機變數 Z 的動差生成函數計算如下:

\displaystyle\begin{aligned}  m_Z(t)&=m_{X}(t)m_{Y}(t)=e^{\mu_1 t+\sigma_1^2t^2/2}e^{\mu_2 t+\sigma_2^2t^2/2}\\  &=e^{(\mu_1+\mu_2)t+(\sigma_1^2+\sigma_2^2)t^2/2}.\end{aligned}

所以,Z=X+Y 也是常態分布,期望值為 \mu_1+\mu_2,變異數為 \sigma_1^2+\sigma_2^2

 
最後我們利用動差生成函數來證明中央極限定理 (central limit theorem)。

中央極限定理:若 X_1,X_2,\ldots,X_n 是獨立且同分布的隨機變數,\mu 是有限期望值,\sigma^2 是有限變異數,則

\displaystyle\lim_{n\to\infty}\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\sim N(0,1)

其中 \overline{X}_n=\frac{1}{n}\sum_{i=1}^nX_i

直白地說,中央極限定理表明:當樣本數增大時,樣本平均數趨於常態分布。令 X_1,X_2,\ldots,X_n 表示獨立隨機變數。假設所有的隨機變數 X_i 有相同且到處收斂的動差生成函數 m(t)。令 S_n=X_1+X_2+\cdots+X_n\overline{X}_n=S_n/n。根據性質二,

\displaystyle  m_{S_n}(t)=\prod_{i=1}^nm_{X_i}(t)=\left(m(t)\right)^n

以及性質一,

\displaystyle  m_{\overline{X}_n}(t)=m_{S_n/n}(t)=m_{S_n}\left(\frac{t}{n}\right)=\left(m\left(\frac{t}{n}\right)\right)^n

\displaystyle  Z_n=\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}=\frac{\sqrt{n}}{\sigma}\overline{X}_n-\frac{\sqrt{n}\mu}{\sigma}

使用性質一和 m_{\overline{X}_n}(t) 的表達式,

\displaystyle  m_{Z_n}(t)=e^{-\sqrt{n}\mu t/\sigma}m_{\overline{X}_n}\left(\frac{\sqrt{n}t}{\sigma}\right)=e^{-\sqrt{n}\mu t/\sigma}\left(m\left(\frac{t}{\sigma\sqrt{n}}\right)\right)^n

v=t/(\sigma\sqrt{n})。計算自然對數,

\displaystyle\begin{aligned}  \log\left(m_{Z_n}(t)\right)&=-\frac{\sqrt{n}\mu t}{\sigma}+n\log\left(m\left(\frac{t}{\sigma\sqrt{n}}\right)\right)\\  &=-\frac{\mu t^2}{\sigma^2 v}+\frac{t^2}{\sigma^2 v^2}\log\left(m(v)\right)\\  &=\left(\frac{t^2}{\sigma^2}\right)\frac{\log(m(v))-\mu v}{v^2}.  \end{aligned}

n 趨於無窮大時,使用二次 l’Hôpital 法則以及 m(0)=1,可得

\displaystyle\begin{aligned}  \lim_{n\to\infty}\log(m_{Z_n}(t))&=\frac{t^2}{\sigma^2}\lim_{v\to 0}\frac{\log(m(v))-\mu v}{v^2}\\  &=\frac{t^2}{\sigma^2}\lim_{v\to 0}\frac{(m(v))^{-1}m'(v)-\mu}{2v}\\  &=\frac{t^2}{\sigma^2}\lim_{v\to 0}\frac{(m(v))^{-2}\left(m''(v)m(v)-(m'(v))^2\right)}{2}\\  &=\frac{t^2}{\sigma^2}\frac{m''(0)-(m'(0))^2}{2}\\  &=\frac{t^2}{\sigma^2}\frac{\mu_2-\mu^2_1}{2}=\frac{t^2}{2}.\end{aligned}

所以,

\displaystyle  \lim_{n\to\infty} m_{Z_n}(t)=e^{t^2/2}

n\to\infty,上式說明 Z_n=\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\sim N(0,1)

 
在上述證明過程中,我們假設隨機變數有收斂的動差生成函數,然而此性質未必成立。為了彌補這個漏洞,一般中央極限定理的證法採用特徵函數 (characteristic function)[2]

\displaystyle   \psi(t)=E(e^{iXt})=\int_{-\infty}^{\infty}e^{ixt}f(x)dx

因為任一 xt 滿足 \vert e^{ixt}\vert=1f(x)\ge 0,不論何種機率分布的特徵函數 \psi(t) 必定到處收斂,而且

\displaystyle  \vert \psi(t)\vert\le\int_{-\infty}^{\infty}\vert e^{ixt}\vert f(x)dx=\int_{-\infty}^{\infty}f(x)dx=\psi(0)=1

使用特徵函數的證明步驟與動差生成函數雷同,最後推得:當 n\to\infty\psi_{Z_n}(t)\to e^{-t^2/2}。標準常態分布 X\sim N(0,1) 的特徵函數為 \psi_X(t)=e^{-t^2/2}

 
參考來源:
[1] 維基百科:Moment generating function
[2] 維基百科:Characteristic function (probability theory)

廣告
本篇發表於 機率統計 並標籤為 , , , , , , , , 。將永久鏈結加入書籤。

2 Responses to 動差生成函數 (下)

  1. 張盛東 說道:

    老師,其實特徵函數是否可以完全替代動差生成函數?

    • ccjou 說道:

      可以的,動差生成函數未必收斂,但特徵函數一定收斂。我感覺比較艱深的概率學課本採用特徵函數 (可能因為涉及傅立葉轉換),比較簡易的概率學則使用動差生成函數。另外離散隨機變數有時候用機率母函數 (probability generating function) 較容易分析,即 G(z)=E(z^X)=\sum_{x=0}^\infty p(x)z^x。甚至在queueing theory會用pdf的Laplace變換,即 L(s)=E(e^{-sX})=\int_{0}^\infty f(x)e^{-sx}dx

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s