多變量常態分布

本文的閱讀等級:中級

在數學、統計學、物理和工程等領域,常態分佈 (normal distribution,Gaussian distribution) 是一個非常重要的連續型機率 (概率) 分布模型。本文將回答下列問題:

  • 如何推導多變量常態分布的機率密度函數 (probability density function)?
  • 怎麼證明服從常態分布的隨機向量的線性變換也為常態分布?
  • 怎麼證明服從常態分布的多隨機變數的子集合亦為常態分布?
  • 如何判別二組 (常態分布) 隨機變數集的獨立性?
  • 具有常態分布的條件機率密度函數為何?
  • 給定條件機率密度函數 p(\mathbf{y}|\mathbf{x}),如何計算 p(\mathbf{x}|\mathbf{y})

為了避免繁瑣的積分運算,我們以動差生成函數 (moment generating function) 推演,這個方法的理論基礎在於動差生成函數唯一決定機率密度函數 (見“動差生成函數 (上)”)。下面先介紹標準多變量常態分布,隨後通過仿射變換 (affine transformation) 推廣至一般多變量常態分布。

 
標準多變量常態分布

z 為一個連續型隨機變數,其值域為實數系 \mathbb{R}。機率學經常以 Z 表示隨機變數,z 表示其值。為簡化符號,在不造成混淆的情況下,本文以 z 代表隨機變數或其值。變數 z 服從標準常態分布 (standard normal distribution),若機率密度函數為[1]

\displaystyle  p_z(z)=\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z^2}{2}\right\}

密度函數 p_z(\cdot) 的下標 z 表示隨機變數,引數 z 表示其值。我們可以證明 p_z(z) 是一個合法的機率密度函數,因其回傳值不為負並滿足歸一性:

\displaystyle  \int_{-\infty}^\infty p_z(z)dz=1

期望值為 \hbox{E}[z]=0,且變異數為 \text{var}[z]=1 (證明見“共變異數矩陣與常態分布”)。以下用 z\sim\mathcal{N}(0,1) 來表示連續型隨機變數 z 服從標準常態分布。單變量標準常態分布可推廣至多變量標準常態分布。令 \mathbf{z}=(z_1,\ldots,z_p)^T 為隨機向量,其中 z_1,\ldots,z_p 是連續型隨機變數。我們說隨機向量 \mathbf{z} 服從標準多變量常態分布,若聯合 (joint) 機率密度函數為

\displaystyle  p_{\mathbf{z}}(\mathbf{z})=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac{\mathbf{z}^T\mathbf{z}}{2}\right\}

 
(1) 多變量機率密度函數與單變量密度函數的關係

將標準常態分布的聯合機率密度函數改寫如下:

\displaystyle\begin{aligned}  p_{\mathbf{z}}(\mathbf{z})&=\underbrace{\frac{1}{\sqrt{2\pi}}\frac{1}{\sqrt{2\pi}}\cdots\frac{1}{\sqrt{2\pi}}}_{p ~\text{times}}\exp\left\{-\frac{z_1^2}{2}-\frac{z_2^2}{2}-\cdots-\frac{z_p^2}{2}\right\}\\  &=\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_1^2}{2}\right\}\cdot\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_2^2}{2}\right\}\cdots\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_p^2}{2}\right\}\\  &=f(z_1)\cdot f(z_2)\cdots f(z_p),  \end{aligned}

上面定義了

\displaystyle  f(z_i)=\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_i^2}{2}\right\}

接著證明 f(z_i) 是變數 z_i 的邊際 (marginal) 密度函數。使用標準常態分布的密度函數的歸一性,

\displaystyle\begin{aligned}  p_{z_i}(z_i)&=\int_{-\infty}^\infty\cdots\int_{-\infty}^\infty p_{\mathbf{z}}(z_1,\ldots,z_{i-1},z_i,z_{i+1},\ldots,z_p)dz_1\cdots dz_{i-1}dz_{i+1}\cdots dz_p\\  &=\int_{-\infty}^\infty\cdots\int_{-\infty}^\infty f(z_1)\cdots f(z_{i-1})f(z_i)f(z_{i+1})\cdots f(z_p)dz_1\cdots dz_{i-1}dz_{i+1}\cdots dz_p\\  &=f(z_i)\int_{-\infty}^\infty f(z_1)dz_1\cdots \int_{-\infty}^\infty f(z_{i-1})dz_{i-1}\int_{-\infty}^\infty f(z_{i+1})dz_{i+1}\cdots \int_{-\infty}^\infty f(z_p)dz_p\\  &=f(z_i).  \end{aligned}

所以,z_i\sim\mathcal{N}(0,1)i=1,\ldots,p,且彼此獨立。

 
(2) 期望值

標準常態分布的隨機向量 \mathbf{z} 的期望值為

\displaystyle  \hbox{E}[\mathbf{z}]=\begin{bmatrix}  \hbox{E}[z_1]\\  \vdots\\  \hbox{E}[z_p]  \end{bmatrix}=\begin{bmatrix}  0\\  \vdots\\  0  \end{bmatrix}=\mathbf{0}

因為每一 z_i\sim\mathcal{N}(0,1) 的期望值等於零。

 
(3) 共變異數矩陣

隨機向量 \mathbf{z} 的共變異數矩陣定義為 (見“共變異數矩陣的性質”)

\displaystyle  \text{cov}[\mathbf{z}]=\hbox{E}\left[(\mathbf{z}-\hbox{E}[\mathbf{z}])(\mathbf{z}-\hbox{E}[\mathbf{z}])^T\right]=\begin{bmatrix}  \text{var}[z_1]&\text{cov}[z_1,z_2]&\cdots&\text{cov}[z_1,z_p]\\  \text{cov}[z_2,z_1]&\text{var}[z_2]&\cdots&\text{cov}[z_2,z_p]\\  \vdots&\vdots&\ddots&\vdots\\  \text{cov}[z_p,z_1]&\text{cov}[z_p,z_2]&\cdots&\text{var}[z_p]  \end{bmatrix}

因為 z_1,\ldots,z_p 是彼此獨立並為標準常態分布的隨機變數,\text{var}[z_i]=1i=1,\ldots,p,且 \text{cov}[z_i,z_j]=0i\neq j,故 \text{cov}[\mathbf{z}]=I。我們用 \mathbf{z}\sim\mathcal{N}(\mathbf{0},I) 表示隨機向量 \mathbf{z} 服從多變量標準常態分布。

 
(4) 聯合動差生成函數

連續型隨機變數 z 的動差生成函數定義為

\displaystyle  m_{z}(t)=\hbox{E}\left[\exp(tz)\right]

類似地,隨機向量 \mathbf{z} 的聯合 (joint) 動差生成函數定義為

\displaystyle  m_{\mathbf{z}}(\mathbf{t})=\hbox{E}\left[\exp\left(\mathbf{t}^T\mathbf{z}\right)\right]=\hbox{E}\left[\exp\left(t_1z_1+\cdots+t_pz_p\right)\right]

其中 \mathbf{t}=(t_1,\ldots,t_p)^T。使用 z_1,\ldots,z_p 的獨立性,

\displaystyle\begin{aligned}  m_{\mathbf{z}}(\mathbf{t})&=\hbox{E}\left[\exp\left(t_1z_1+\cdots+t_pz_p\right)\right]\\  &=\hbox{E}\left[\prod_{i=1}^p\exp(t_iz_i)\right]\\  &=\prod_{i=1}^p E\left[\exp(t_iz_i)\right]\\  &=\prod_{i=1}^p m_{z_i}(t_i).  \end{aligned}

標準常態分布的隨機變數 z_i 的動差生成函數為 (見“動差生成函數 (下)”)

\displaystyle  m_{z_i}(t_i)=\exp\left(\frac{t_i^2}{2}\right)

因此,標準常態分布的隨機向量 \mathbf{z} 的動差生成函數如下:

\displaystyle\begin{aligned}  m_{\mathbf{z}}(\mathbf{t})&=\prod_{i=1}^p m_{z_i}(t_i)\\  &=\prod_{i=1}^p\exp\left(\frac{t_i^2}{2}\right)\\  &=\exp\left(\frac{1}{2}\sum_{i=1}^pt_i^2\right)\\  &=\exp\left(\frac{\mathbf{t}^T\mathbf{t}}{2}\right).\end{aligned}

 
一般多變量常態分布

\mathbf{z}p 維標準常態分布的隨機向量,\boldsymbol{\mu}p 維常數向量,且 Bp\times p 階可逆矩陣。據此,\Sigma=BB^T 為對稱正定矩陣 (見“正定矩陣的性質與判別方法”,判別法四)。考慮下列仿射變換 (即線性變換加上平移,詳見“仿射變換”):

\displaystyle  \mathbf{x}=G(\mathbf{z})=B\mathbf{z}+\boldsymbol{\mu}

其中 G:\mathbb{R}^p\to\mathbb{R}^p 是一對一可導函數 (因為 B 可逆)。如何由隨機向量 \mathbf{z} 的機率密度函數 p_{\mathbf{z}}(\mathbf{z}) 得到 \mathbf{x} 的機率密度函數 p_{\mathbf{x}}(\mathbf{x})?考慮隨機向量 \mathbf{z} 出現在一個微小長方體 R=[z_1,z_1+dz_1]\times\cdots\times[z_p,z_p+dz_p] 的機率值,下列二個算式相等:

\displaystyle  p_{\mathbf{x}}(\mathbf{x})dV=p_{\mathbf{z}}(\mathbf{z})dz_1\cdots dz_p

其中 dVG(R)=\{G(\mathbf{z})\vert\mathbf{z}\in R\}\mathbb{R}^p 的體積,可表示為 (見“Jacobian 矩陣與行列式”)

\displaystyle  dV=\vert\det J(\mathbf{z})\vert dz_1\cdots dz_p

這裡 J(\mathbf{z})G(\mathbf{z}) 的 Jacobian 矩陣,即

\displaystyle  J(\mathbf{z})=\begin{bmatrix}  \frac{\partial x_1}{\partial z_1}&\frac{\partial x_1}{\partial z_2}&\cdots&\frac{\partial x_1}{\partial z_p}\\[0.3em]  \frac{\partial x_2}{\partial z_1}&\frac{\partial x_2}{\partial z_2}&\cdots&\frac{\partial x_2}{\partial z_p}\\  \vdots&\vdots&\ddots&\vdots\\  \frac{\partial x_p}{\partial z_1}&\frac{\partial x_p}{\partial z_2}&\cdots&\frac{\partial x_p}{\partial z_p}  \end{bmatrix}=B

合併上面結果,經過仿射變換後的機率密度函數為

\displaystyle  p_{\mathbf{x}}(\mathbf{x})=\frac{1}{\vert\det J(\mathbf{z})\vert}p_{\mathbf{z}}(\mathbf{z})=\frac{1}{\vert\det B\vert}p_{\mathbf{z}}(\mathbf{z})

代入 \mathbf{z}=B^{-1}(\mathbf{x}-\boldsymbol{\mu}),使用標準常態分布的密度函數,可得 (非退化) 多變量常態分布的密度函數:

\displaystyle\begin{aligned}  p_{\mathbf{x}}(\mathbf{x})&=\frac{1}{\vert \det B\vert}p_{\mathbf{z}}\left(B^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)\\  &=\frac{1}{\vert \det B\vert}\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac{1}{2}\left(B^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)^T\left(B^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)\right\}\\  &=\frac{1}{\vert \det B\vert^{1/2}}\frac{1}{\vert \det B\vert^{1/2}}\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T(B^{-1})^TB^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\\  &=\frac{1}{\vert \det B\vert^{1/2}}\frac{1}{\vert \det B^T\vert^{1/2}}\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T(B^{T})^{-1}B^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\\  &=\frac{1}{\vert \det(BB^T)\vert^{1/2}}\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T(BB^T)^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\\  &=\frac{1}{(2\pi)^{p/2}(\det \Sigma)^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\},  \end{aligned}

最後一個步驟移除了絕對值符號,乃因 \Sigma 是正定矩陣,其行列式大於零。

 
(1) 期望值

沿用前述記號,由期望值算子的線性性質可知

\displaystyle  \hbox{E}[\mathbf{x}]=\hbox{E}[B\mathbf{z}+\boldsymbol{\mu}]=B\hbox{E}[\mathbf{z}]+\boldsymbol{\mu}=B\mathbf{0}+\boldsymbol{\mu}=\boldsymbol{\mu}

 
(2) 共變異數矩陣

使用共變異數矩陣的仿射變換性質 (見“共變異數矩陣的性質”),

\displaystyle  \text{cov}[\mathbf{x}]=\text{cov}[B\mathbf{z}+\boldsymbol{\mu}]=B\,\text{cov}[\mathbf{z}]B^T=BIB^T=BB^T=\Sigma

 
具有多變量常態分布的隨機向量 \mathbf{x} 的密度函數完全由 \boldsymbol{\mu}\Sigma 決定,記為 \mathbf{x}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma),其中 \boldsymbol{\mu}=(\mu_1,\ldots,\mu_p)^T 為平均數向量,\Sigma=[\sigma_{ij}] 為共變異數矩陣。

 
(3) 相關係數

給定共變異數矩陣 \Sigma=[\sigma_{ij}],定義變數 x_ix_j 的相關係數 (correlation coefficient) 為

\displaystyle  \rho_{ij}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}}=\frac{\sigma_{ij}}{\sigma_i\sigma_j}

其中 \sigma_i=\sqrt{\text{var}[x_i]}\sigma_j=\sqrt{\text{var}[x_j]} 分別是變數 x_ix_j 的標準差 (standard deviation)。因為 \sigma_{ij}=\sigma_{ji},相關係數具有對稱性:\rho_{ij}=\rho_{ji}。正定矩陣的任一主子陣都是正定的 (見“正定矩陣的性質與判別方法”),故

\displaystyle  \begin{bmatrix}  \sigma_{ii}&\sigma_{ij}\\  \sigma_{ji}&\sigma_{jj}  \end{bmatrix}=\begin{bmatrix}  \sigma_i^2&\sigma_i\sigma_j\rho_{ij}\\  \sigma_i\sigma_j\rho_{ij}&\sigma_j^2  \end{bmatrix}

是正定矩陣,即知

\displaystyle  \begin{vmatrix}  \sigma_i^2&\sigma_i\sigma_j\rho_{ij}\\  \sigma_i\sigma_j\rho_{ij}&\sigma_j^2  \end{vmatrix}=\sigma_i^2\sigma_j^2(1-\rho_{ij}^2)>0

因此,-1<\rho_{ij}<1

 
若隨機向量 \mathbf{x}=(x_1,\ldots,x_p)^T 服從常態分布,則密度函數的設定參數包含平均數 \mu_ii=1,\ldots,p,變異數 \sigma_i^2i=1,\ldots,p,以及相關係數 \rho_{ij}i,j=1,\ldots,pi\neq j。以二變數常態分布 (p=2) 為例。對於隨機向量 \mathbf{x}=(x_1,x_2)^T,平均數向量為

\displaystyle  \hbox{E}[\mathbf{x}]=\hbox{E}\begin{bmatrix}  x_1\\  x_2  \end{bmatrix}=\begin{bmatrix}  \hbox{E}[x_1]\\\hbox{E}[x_2]  \end{bmatrix}=\begin{bmatrix}  \mu_1\\  \mu_2  \end{bmatrix}

共變異數矩陣為

\displaystyle\begin{aligned}  \boldsymbol{\Sigma}&=\hbox{E}\begin{bmatrix}  (\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^T  \end{bmatrix}=\hbox{E}\left(\begin{bmatrix}  x_1-\mu_1\\  x_2-\mu_2  \end{bmatrix}\begin{bmatrix}  x_1-\mu_1&x_2-\mu_2  \end{bmatrix}\right)\\  &=\hbox{E}\begin{bmatrix}  (x_1-\mu_1)^2&(x_1-\mu_1)(x_2-\mu_2)\\  (x_2-\mu_2)(x_1-\mu_1)^2&(x_2-\mu_2)^2  \end{bmatrix}\\  &=\begin{bmatrix}  \hbox{E}\begin{bmatrix}  (x_1-\mu_1)^2  \end{bmatrix}&\hbox{E}\begin{bmatrix}  (x_1-\mu_1)(x_2-\mu_2)  \end{bmatrix}\\  \hbox{E}\begin{bmatrix}  (x_1-\mu_1)(x_2-\mu_2)  \end{bmatrix}&\hbox{E}\begin{bmatrix}  (x_2-\mu_2)^2  \end{bmatrix}  \end{bmatrix}\\  &=\begin{bmatrix}  \sigma_{11}&\sigma_{12}\\  \sigma_{21}&\sigma_{22}  \end{bmatrix}=\begin{bmatrix}  \sigma_1^2&\sigma_1\sigma_2\rho\\  \sigma_1\sigma_2\rho&\sigma_2^2  \end{bmatrix},  \end{aligned}

其中 \rhox_1x_2 的相關係數。共變異數矩陣的逆矩陣為

\displaystyle  \boldsymbol{\Sigma}^{-1}=\frac{1}{\sigma_1^2\sigma_2^2(1-\rho^2)}\begin{bmatrix}  \sigma_2^2&-\sigma_1\sigma_2\rho\\  -\sigma_1\sigma_2\rho&\sigma_1^2  \end{bmatrix}=\frac{1}{1-\rho^2}\begin{bmatrix}  \frac{1}{\sigma_1^2}&-\frac{\rho}{\sigma_1\sigma_2}\\[0.3em]  -\frac{\rho}{\sigma_1\sigma_2}&\frac{1}{\sigma_2^2}  \end{bmatrix}

因此,x_1x_2 的聯合機率密度函數如下:

\displaystyle\begin{aligned}  p_{x_1,x_2}(x_1,x_2)&=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\times\\  &~~~~~\exp\left\{-\frac{1}{2(1-\rho^2)}\left[\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\right]\right\}.  \end{aligned}

 
(4) 聯合動差生成函數

根據定義,使用 \mathbf{x}=B\mathbf{z}+\boldsymbol{\mu} 及標準常態分布的聯合動差生成函數,可得

\displaystyle\begin{aligned}  m_{\mathbf{x}}(\mathbf{t})&=\hbox{E}\left[\exp\left(\mathbf{t}^T\mathbf{x}\right)\right]\\  &=\hbox{E}\left[\exp\left(\mathbf{t}^T(B\mathbf{z}+\boldsymbol{\mu})\right)\right]\\  &=\exp\left(\mathbf{t}^T\boldsymbol{\mu}\right)\hbox{E}\left[\exp\left((B^T\mathbf{t})^T\mathbf{z}\right)\right]\\  &=\exp\left(\mathbf{t}^T\boldsymbol{\mu}\right)m_{\mathbf{z}}(B^T\mathbf{t})\\  &=\exp\left(\mathbf{t}^T\boldsymbol{\mu}\right)\exp\left(\frac{1}{2}\mathbf{t}^TBB^T\mathbf{t}\right)\\  &=\exp\left(\mathbf{t}^T\boldsymbol{\mu}+\frac{1}{2}\mathbf{t}^T\Sigma\mathbf{t}\right).  \end{aligned}

 
(5) 仿射變換

\mathbf{x}p 維隨機向量,且 \mathbf{x}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma)。考慮仿射變換 \mathbf{y}=A\mathbf{x}+\mathbf{b},其中 \mathbf{y}n 維隨機向量,An\times p 階常數矩陣,\mathbf{b}n 維常數向量。運用聯合動差生成函數可證明

\displaystyle   \hbox{E}[\mathbf{y}]=A\boldsymbol{\mu}+\mathbf{b},~~~\text{cov}[\mathbf{y}]=A\Sigma A^T

\mathbf{y} 是常態分布的隨機向量,即 \mathbf{y}\sim \mathcal{N}(A\boldsymbol{\mu}+\mathbf{b},A\Sigma A^T),推導過程如下:

\displaystyle\begin{aligned}  m_{\mathbf{y}}(\mathbf{t})&=\hbox{E}\left[\exp\left(\mathbf{t}^T\mathbf{y}\right)\right]\\  &=\hbox{E}\left[\exp\left(\mathbf{t}^T(A\mathbf{x}+\mathbf{b})\right)\right]\\  &=\exp\left(\mathbf{t}^T\mathbf{b}\right)\hbox{E}\left[\exp\left((A^T\mathbf{t})^T\mathbf{x}\right)\right]\\  &=\exp\left(\mathbf{t}^T\mathbf{b}\right)m_{\mathbf{x}}(A^T\mathbf{t})\\  &=\exp\left(\mathbf{t}^T\mathbf{b}\right)\exp\left((A^T\mathbf{t})^T\boldsymbol{\mu}+\frac{1}{2}(A^T\mathbf{t})^T\Sigma(A^T\mathbf{t})\right)\\  &=\exp\left(\mathbf{t}^T(A\boldsymbol{\mu}+\mathbf{b})+\frac{1}{2}\mathbf{t}^T(A\Sigma A^T)\mathbf{t}\right).  \end{aligned}

將上式與常態分布的聯合動差生成函數 (4) 相比較,即證得所求。隨機向量 \mathbf{y} 為非退化常態分布的條件是 \text{cov}[\mathbf{y}]=A\Sigma A^T 可逆,也就是說,\text{rank}A=n\le p

 
下面介紹分塊隨機向量分析法。對於一個 p 維隨機向量 \mathbf{x}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma),將 \mathbf{x} 分解成

\displaystyle  \mathbf{x}=\begin{bmatrix}  \mathbf{x}_a\\  \mathbf{x}_b  \end{bmatrix}

其中 \mathbf{x}_aq 維隨機向量,\mathbf{x}_bp-q 維隨機向量。為便利說明,令 \boldsymbol{\mu}_a=\hbox{E}[\mathbf{x}_a]\boldsymbol{\mu}_b=\hbox{E}[\mathbf{x}_b]\Sigma_a=\text{cov}[\mathbf{x}_a]\Sigma_b=\text{cov}[\mathbf{x}_b],並定義 \mathbf{x}_a\mathbf{x}_b 的交互 (cross) 共變異數矩陣為下列 q\times (p-q) 階矩陣:

\displaystyle  \Sigma_{ab}=\text{cov}[\mathbf{x}_a,\mathbf{x}_b]=\hbox{E}\left[(\mathbf{x}_a-\hbox{E}[\mathbf{x}_a])(\mathbf{x}_b-\hbox{E}[\mathbf{x}_b])^T\right]

因此,

\displaystyle  \boldsymbol{\mu}=\begin{bmatrix}  \boldsymbol{\mu}_a\\  \boldsymbol{\mu}_a  \end{bmatrix},~~\Sigma=\begin{bmatrix}  \Sigma_a&\Sigma_{ab}\\  \Sigma_{ab}^T&\Sigma_b  \end{bmatrix}

 
(6) 隨機變數的子集合

隨機變數 x_1,\ldots,x_p 的任何子集合所構成的隨機向量為常態分布,即常態分布的邊際分布也服從常態分布。具體地說,\mathbf{x}_a\sim\mathcal{N}(\boldsymbol{\mu}_a,\Sigma_a)\mathbf{x}_b\sim\mathcal{N}(\boldsymbol{\mu}_b,\Sigma_b),見下圖。

二變量常態分布 From Wikimedia

寫出 \mathbf{x}_a=A\mathbf{x},其中 A=\begin{bmatrix}  I_{q}&0  \end{bmatrix}q\times p 階矩陣。根據常態分布的隨機向量 \mathbf{x} 的仿射變換性質 (5),可知 \mathbf{x}_a 為常態分布的隨機向量,且

\displaystyle  \hbox{E}[\mathbf{x}_a]=A\boldsymbol{\mu}=\begin{bmatrix}  I&0  \end{bmatrix}\begin{bmatrix}  \boldsymbol{\mu}_a\\  \boldsymbol{\mu}_b  \end{bmatrix}=\boldsymbol{\mu}_a

\displaystyle  \text{cov}[\mathbf{x}_a]=A\Sigma A^T=\begin{bmatrix}  I&0  \end{bmatrix}\begin{bmatrix}  \Sigma_a&\Sigma_{ab}\\  \Sigma_{ab}^T&\Sigma_b  \end{bmatrix}\begin{bmatrix}  I\\  0  \end{bmatrix}=\Sigma_a

使用相同的方法亦可證明 \mathbf{x}_b 是常態分布的隨機向量,\hbox{E}[\mathbf{x}_b]=\boldsymbol{\mu}_b\text{cov}[\mathbf{x}_b]=\Sigma_b

 
(7) 獨立的隨機向量

\Sigma_{ab}=0,則 \mathbf{x}_a\mathbf{x}_b 是獨立的隨機向量,反之亦然。欲證明 \mathbf{x}_a\mathbf{x}_b 是獨立的隨機向量,我們只要證明 \mathbf{x} 的聯合動差生成函數等於 \mathbf{x}_a\mathbf{x}_b 的聯合動差生成函數之積。性質 (6) 說 \mathbf{x}_a\sim\mathcal{N}(\boldsymbol{\mu}_a,\Sigma_a)\mathbf{x}_b\sim\mathcal{N}(\boldsymbol{\mu}_b,\Sigma_b),可知聯合動差生成函數為

\displaystyle\begin{aligned}  m_{\mathbf{x}_a}(\mathbf{t}_a)&=\exp\left(\mathbf{t}_a^T\boldsymbol{\mu}_a+\frac{1}{2}\mathbf{t}^T_a\Sigma_a\mathbf{t}_a\right)\\  m_{\mathbf{x}_b}(\mathbf{t}_b)&=\exp\left(\mathbf{t}_b^T\boldsymbol{\mu}_b+\frac{1}{2}\mathbf{t}^T_b\Sigma_b\mathbf{t}_b\right).  \end{aligned}

\mathbf{t}=\begin{bmatrix}  \mathbf{t}_a\\  \mathbf{t}_b  \end{bmatrix}。推演過程如下:

\displaystyle\begin{aligned}  m_{\mathbf{x}}(\mathbf{t})&=\exp\left(\mathbf{t}^T\boldsymbol{\mu}+\frac{1}{2}\mathbf{t}^T\Sigma\mathbf{t}\right)\\  &=\exp\left(\begin{bmatrix}  \mathbf{t}_a^T&\mathbf{t}_b^T  \end{bmatrix}\begin{bmatrix}  \boldsymbol{\mu}_a\\  \boldsymbol{\mu}_b  \end{bmatrix}+\frac{1}{2}\begin{bmatrix}  \mathbf{t}_a^T&\mathbf{t}_b^T  \end{bmatrix}\begin{bmatrix}  \Sigma_a&\Sigma_{ab}\\  \Sigma_{ab}^T&\Sigma_b  \end{bmatrix}\begin{bmatrix}  \mathbf{t}_a\\  \mathbf{t}_b  \end{bmatrix}\right)\\  &=\exp\left(\mathbf{t}_a^T\boldsymbol{\mu}_a+\mathbf{t}_b^T\boldsymbol{\mu}_b+\frac{1}{2}\mathbf{t}_a^T\Sigma_a\mathbf{t}_a+\frac{1}{2}\mathbf{t}_a^T\Sigma_{ab}\mathbf{t}_b+\frac{1}{2}\mathbf{t}_b^T\Sigma^T_{ab}\mathbf{t}_a+\frac{1}{2}\mathbf{t}_b^T\Sigma_b\mathbf{t}_b\right)\\  &=\exp\left(\mathbf{t}_a^T\boldsymbol{\mu}_a+\frac{1}{2}\mathbf{t}_a^T\Sigma_a\mathbf{t}_a+\mathbf{t}_b^T\boldsymbol{\mu}_b+\frac{1}{2}\mathbf{t}_b^T\Sigma_b\mathbf{t}_b\right)\\  &=\exp\left(\mathbf{t}_a^T\boldsymbol{\mu}_a+\frac{1}{2}\mathbf{t}^T_a\Sigma_a\mathbf{t}_a\right)\exp\left(\mathbf{t}_b^T\boldsymbol{\mu}_b+\frac{1}{2}\mathbf{t}^T_b\Sigma_b\mathbf{t}_b\right)\\  &=m_{\mathbf{x}_a}(\mathbf{t}_a)m_{\mathbf{x}_b}(\mathbf{t}_b).  \end{aligned}

 
(8) 條件機率密度函數

給定 \mathbf{x}_b,若 \det \Sigma_{b}>0,則 \mathbf{x}_a 的條件分布為常態分布,且

\displaystyle  \hbox{E}[\mathbf{x}_a\vert\mathbf{x}_b]=\boldsymbol{\mu}_a+\Sigma_{ab}\Sigma_{b}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)

\displaystyle  \text{cov}[\mathbf{x}_a\vert\mathbf{x}_b]=\Sigma_a-\Sigma_{ab}\Sigma_{b}^{-1}\Sigma_{ab}^T

直接計算條件機率函數相當麻煩,這裡介紹一個運用矩陣代數的間接證法。寫出 p\times p 階矩陣

\displaystyle  A=\begin{bmatrix}  I_{q}&-\Sigma_{ab}\Sigma_b^{-1}\\  0&I_{p-q}  \end{bmatrix}

考慮 \mathbf{x}-\boldsymbol{\mu} 的線性變換

\displaystyle  A(\mathbf{x}-\boldsymbol{\mu})=\begin{bmatrix}  I&-\Sigma_{ab}\Sigma_b^{-1}\\  0&I  \end{bmatrix}\begin{bmatrix}  \mathbf{x}_a-\boldsymbol{\mu}_a\\  \mathbf{x}_b-\boldsymbol{\mu}_b  \end{bmatrix}=\begin{bmatrix}  \mathbf{x}_a-\boldsymbol{\mu}_a-\Sigma_{ab}\Sigma_b^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)\\  \mathbf{x}_b-\boldsymbol{\mu}_b  \end{bmatrix}

其共變異數矩陣為

\displaystyle\begin{aligned}  \text{cov}[A(\mathbf{x}-\boldsymbol{\mu})]&=A\Sigma A^T\\  &=\begin{bmatrix}  I&-\Sigma_{ab}\Sigma_b^{-1}\\  0&I  \end{bmatrix}\begin{bmatrix}  \Sigma_a&\Sigma_{ab}\\  \Sigma_{ab}^T&\Sigma_b  \end{bmatrix}\begin{bmatrix}  I&0\\  -\Sigma_b^{-1}\Sigma_{ab}^T&I  \end{bmatrix}\\  &=\begin{bmatrix}  \Sigma_a-\Sigma_{ab}\Sigma_b^{-1}\Sigma_{ab}^T&0\\  0&\Sigma_b  \end{bmatrix}.  \end{aligned}

由性質 (7) 可知 \mathbf{x}_a-\boldsymbol{\mu}_a-\Sigma_{ab}\Sigma_b^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)\mathbf{x}_b-\boldsymbol{\mu}_b 是獨立的隨機向量。又因 \hbox{E}[A(\mathbf{x}-\boldsymbol{\mu})]=A(\hbox{E}[\mathbf{x}]-\boldsymbol{\mu})=\mathbf{0},由 (5) 和 (6) 推得

\displaystyle  \mathbf{x}_a-\boldsymbol{\mu}_a-\Sigma_{ab}\Sigma_b^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)\sim\mathcal{N}(\mathbf{0},\Sigma_a-\Sigma_{ab}\Sigma_b^{-1}\Sigma_{ab}^T)

\mathbf{x}_b 給定時,\boldsymbol{\mu}_a+\Sigma_{ab}\Sigma_{b}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b) 為常數向量,故上式中,\hbox{E}\left[\mathbf{x}_a-\boldsymbol{\mu}_a-\Sigma_{ab}\Sigma_b^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)\right]=\mathbf{0} 等價於

\displaystyle  \hbox{E}[\mathbf{x}_a]=\boldsymbol{\mu}_a+\Sigma_{ab}\Sigma_{b}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)

\displaystyle  \text{cov}[\mathbf{x}_a]=\text{cov}\left[\mathbf{x}_a-\boldsymbol{\mu}_a-\Sigma_{ab}\Sigma_b^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)\right]=\Sigma_a-\Sigma_{ab}\Sigma_b^{-1}\Sigma_{ab}^T

 
利用條件密度函數的一般表達式很容易推演出給定常態分布變數 x,常態分布變數 y 的條件密度函數 p_{y\vert x}(y\vert x)。將 \mathbf{x}_a\mathbf{x}_b 分別以 yx 取代,可得

\displaystyle  \hbox{E}[y\vert x]=\mu_y+\frac{\sigma_{xy}}{\sigma_x^2}(x-\mu_x)=\mu_y+\rho\frac{\sigma_y}{\sigma_x}(x-\mu_x)

以及

\displaystyle  \text{cov}[y\vert x]=\sigma_y^2-\frac{\sigma^2_{xy}}{\sigma_x^2}=\sigma_y^2(1-\rho^2)

其中 \mu_x=\hbox{E}[x]\mu_y=\hbox{E}[y]\sigma_x=\sqrt{\text{var}[x]}\sigma_y=\sqrt{\text{var}[y]}\sigma_{xy}=\text{cov}[x,y]\rhoxy 的相關係數。所以,

\displaystyle  y\vert x\sim\mathcal{N}\left(\mu_y+\rho\frac{\sigma_y}{\sigma_x}(x-\mu_x),\sigma_y^2(1-\rho^2)\right)

 
(9) 變數置換的條件密度函數

\mathbf{x}p 維隨機向量,\mathbf{y}n 維隨機向量。假設

\displaystyle   \mathbf{x}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma),  ~~~\mathbf{y}|\mathbf{x}\sim\mathcal{N}(A\mathbf{x}+\mathbf{b},\Psi),

其中 An\times p 階常數矩陣,\mathbf{b}n 維常數向量。我們的目標是求得 \mathbf{y} 的密度函數與 \mathbf{x}|\mathbf{y} 的條件機率密度函數。先計算 \mathbf{x}\mathbf{y} 的聯合密度函數。在不造成混淆的情況下,省略密度函數的下標。令

\displaystyle   \mathbf{z}=\begin{bmatrix}  \mathbf{x}\\  \mathbf{y}  \end{bmatrix}

利用聯合動差生成函數可以證明 \mathbf{z} 服從常態分布。底下計算 \mathbf{z} 的平均數向量與共變異數矩陣。考慮聯合密度函數的對數:

\displaystyle \begin{aligned}  \log p(\mathbf{z})&=-\frac{1}{2}(\mathbf{z}-\text{E}[\mathbf{z}])^T\text{cov}[\mathbf{z}]^{-1}(\mathbf{z}-\text{E}[\mathbf{z}])\\  &=-\frac{1}{2}\mathbf{z}^T\text{cov}[\mathbf{z}]^{-1}\mathbf{z}+\mathbf{z}^T\text{cov}[\mathbf{z}]^{-1}\text{E}[\mathbf{z}]+c_1,  \end{aligned}

使用定義,

\displaystyle   \begin{aligned}  \log p(\mathbf{z})&=\log p(\mathbf{x},\mathbf{y})=\log\left(p(\mathbf{x})p(\mathbf{y}|\mathbf{x})\right)=\log p(\mathbf{x})+\log p(\mathbf{y}|\mathbf{x})\\  &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})-\frac{1}{2}(\mathbf{y}-A\mathbf{x}-\mathbf{b})^T\Psi^{-1}(\mathbf{y}-A\mathbf{x}-\mathbf{b})+c_2,  \end{aligned}

其中 c_1,c_2 代表所有與 \mathbf{x}, \mathbf{y}\mathbf{z} 無關的常數之和。整理上式中涉及 \mathbf{x}\mathbf{y} 的二次 項,如下:

\displaystyle   \begin{aligned}  &-\frac{1}{2}\mathbf{x}^T\left(\Sigma^{-1}+A^T\Psi^{-1}A\right)\mathbf{x}-\frac{1}{2}\mathbf{y}^T\Psi^{-1}\mathbf{y}+\frac{1}{2}\mathbf{x}^TA^T\Psi^{-1}\mathbf{y}+\frac{1}{2}\mathbf{y}^T\Psi^{-1}A\mathbf{x}\\  &~~~=-\frac{1}{2}\begin{bmatrix}  \mathbf{x}\\  \mathbf{y}  \end{bmatrix}^T\begin{bmatrix}  \Sigma^{-1}+A^T\Psi^{-1}A&-A^T\Psi^{-1}\\  -\Psi^{-1}A&\Psi^{-1}\end{bmatrix}  \begin{bmatrix}  \mathbf{x}\\  \mathbf{y}  \end{bmatrix}\\  &=-\frac{1}{2}\mathbf{z}^T\text{cov}[\mathbf{z}]^{-1}\mathbf{z},  \end{aligned}

可得

\displaystyle   \text{cov}[\mathbf{z}]=\begin{bmatrix}  \Sigma^{-1}+A^T\Psi^{-1}A&-A^T\Psi^{-1}\\  -\Psi^{-1}A&\Psi^{-1}\end{bmatrix}^{-1}=\begin{bmatrix}  \Sigma&\Sigma A^T\\  A\Sigma&\Psi+A\Sigma A^T  \end{bmatrix}

上面使用了二階分塊方陣的逆矩陣公式[2] (見“兩矩陣和的逆矩陣”)。接著提出 \log p(\mathbf{z}) 中涉及 \mathbf{x}\mathbf{y} 的一次項:

\displaystyle   \begin{aligned}  \mathbf{x}^T\Sigma^{-1}\boldsymbol{\mu}-\mathbf{x}^TA^T\Psi^{-1}\mathbf{b}+\mathbf{y}^T\Psi^{-1}\mathbf{b}  &=\begin{bmatrix}  \mathbf{x}\\  \mathbf{y}  \end{bmatrix}^T\begin{bmatrix}  \Sigma^{-1}\boldsymbol{\mu}-A^T\Psi^{-1}\mathbf{b}\\  \Psi^{-1}\mathbf{b}  \end{bmatrix}\\  &=\mathbf{z}^T\text{cov}[\mathbf{z}]^{-1}\text{E}[\mathbf{z}],  \end{aligned}

即可得到

\displaystyle   \begin{aligned}  \text{E}[\mathbf{z}]&=\text{cov}[\mathbf{z}]\begin{bmatrix}  \Sigma^{-1}\boldsymbol{\mu}-A^T\Psi^{-1}\mathbf{b}\\  \Psi^{-1}\mathbf{b}  \end{bmatrix}\\  &=\begin{bmatrix}  \Sigma&\Sigma A^T\\  A\Sigma&\Psi+A\Sigma A^T  \end{bmatrix}\begin{bmatrix}  \Sigma^{-1}\boldsymbol{\mu}-A^T\Psi^{-1}\mathbf{b}\\  \Psi^{-1}\mathbf{b}  \end{bmatrix}\\  &=\begin{bmatrix}  \Sigma(\Sigma^{-1}\boldsymbol{\mu}-A^T\Psi^{-1}\mathbf{b})+\Sigma A^T\Psi^{-1}\mathbf{b}\\  A\Sigma(\Sigma^{-1}\boldsymbol{\mu}-A^T\Psi^{-1}\mathbf{b})+(\Psi+A\Sigma A^T)\Psi^{-1}\mathbf{b}  \end{bmatrix}\\  &=\begin{bmatrix}  \boldsymbol{\mu}\\  A\boldsymbol{\mu}+\mathbf{b}  \end{bmatrix}.  \end{aligned}

 
\text{E}[\mathbf{z}]\text{cov}[\mathbf{z}] 的表達式立刻讀出

\displaystyle   \text{E}[\mathbf{y}]=A\boldsymbol{\mu}+\mathbf{b},~~~\text{cov}[\mathbf{y}]=\Psi+A\Sigma A^T

使用性質 (8),\mathbf{x}|\mathbf{y} 的平均數向量與共變異數矩陣分別為

\displaystyle   \begin{aligned}  \text{E}[\mathbf{x}|\mathbf{y}]&=\boldsymbol{\mu}+\Sigma A^T\left(\Psi+A\Sigma A^T\right)^{-1}(\mathbf{y}-A\boldsymbol{\mu}-\mathbf{b})\\  \text{cov}[\mathbf{x}|\mathbf{y}]&=\Sigma-\Sigma A^T\left(\Psi+A\Sigma A^T\right)^{-1} A\Sigma.  \end{aligned}

套用 Woodbury 矩陣公式 (見“兩矩陣和的逆矩陣”),

\displaystyle   \left(\Sigma^{-1}+A^T\Psi^{-1} A\right)^{-1}=\Sigma-\Sigma A^T\left(\Psi+A\Sigma A^T\right)^{-1} A\Sigma

經過複雜的分解重組步驟,可得

\displaystyle   \begin{aligned}  \text{E}[\mathbf{x}|\mathbf{y}]&=\left(\Sigma^{-1}+A^T\Psi^{-1} A\right)^{-1}\left(A^T\Psi^{-1}(\mathbf{y}-\mathbf{b})+\Sigma^{-1}\boldsymbol{\mu}\right)\\  \text{cov}[\mathbf{x}|\mathbf{y}]&=\left(\Sigma^{-1}+A^T\Psi^{-1} A\right)^{-1}.\end{aligned}

 
常態分布在統計學的多變量分析和機器學習極具重要性,例如,線性判別分析 (見“線性判別分析”),日後我們將討論多變量常態分布的最大似然估計並介紹它在線性回歸分析的應用。

 
註解
[1] 連續型隨機變數 x 的機率密度函數 p_x(x_0) 定義為

\displaystyle  p_x(x_0)=\lim_{\epsilon\to 0}\frac{1}{\epsilon}P(x_0\le x\le x_0+\epsilon)

其中 P 是機率 (質量) 函數。

[2] 二階分塊方陣的逆矩陣公式:

\displaystyle   \left[\!\begin{array}{cc}  A & B \\  C & D  \end{array}\!\right]^{-1}\!=\!  \left[\!\begin{array}{cc}  (A-BD^{-1}C)^{-1} & -(A-BD^{-1}C)^{-1}BD^{-1}\\  -D^{-1}C(A-BD^{-1}C)^{-1} & D^{-1}C(A-BD^{-1}C)^{-1}BD^{-1}+D^{-1} \\  \end{array}\!\right]

相關閱讀:
Advertisement
This entry was posted in 機率統計 and tagged , , , , , , , , , . Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s