共變異數矩陣與常態分布

本文的閱讀等級:中級

常態分布 (normal distribution),也稱高斯分布 (Gaussian distribution),其機率密度函數為

\displaystyle  \mathcal{N}(x\vert\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}

其中 \mu 是平均數 (mean),\sigma^2 是變異數 (variance)。對於 \mathbf{x}\in\mathbb{R}^n,多變量常態分布的形式如下 (見“ 多變量常態分布”):

\displaystyle  \mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}

其中 \boldsymbol{\mu}\in\mathbb{R}^n 是平均數向量,\Sigman\times n 階共變異數矩陣 (covariance matrix),\vert\Sigma\vert=\det \Sigma\Sigma 的行列式。常態分布是一種應用相當廣泛的連續型機率分布,原因之一是大自然產生的變數經常具有常態分布,譬如,某城市成年男子的身高,某田地產出的蘿蔔重量;另外,對於從母體隨機抽取出的樣本,當樣本數增大時,樣本平均數的分布逼近常態分布[1] (見“ 樣本平均數、變異數和共變異數”)。圖1為 n=2 的一個常態分布樣本。本文從線性代數觀點探討常態分布與共變異數矩陣的幾何涵義。

Normal distribution 1

圖1 常態分布樣本

 
馬氏距離

常態分布的機率密度函數由下列二次型決定:

\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})

其中 \Delta 稱為 \boldsymbol{\mu}\mathbf{x} 的馬氏距離 (Mahalanobis distance)。若 \Sigma=I_n,則 \Delta^2=\Vert\mathbf{x}-\boldsymbol{\mu}\Vert^2,馬氏距離退化為歐氏距離 (Euclidean distance)。通過解析馬氏距離的二次型表達式,我們可以深入瞭解常態分布的幾何型態。

 
任何一個實方陣可分解為對稱矩陣與反對稱矩陣之和 (稱為卡氏分解),且反對稱矩陣的二次型必為零 (見“ 特殊矩陣 (13):反對稱矩陣”)。在不失一般性的原則下,假設 \Sigma 是一個實對稱矩陣。考慮特徵方程 \Sigma\mathbf{q}_i=\lambda_i\mathbf{q}_i,其中 \Vert\mathbf{q}_i\Vert=1i=1,\ldots,n。實對稱矩陣 \Sigma 的特徵值 \lambda_i 與特徵向量 \mathbf{q}_i 有下列性質 (見“ 實對稱矩陣可正交對角化的證明”):

  • 特徵值 \lambda_1,\ldots,\lambda_n 是實數,
  • 單位特徵向量 \mathbf{q}_1,\ldots,\mathbf{q}_n 組成一個單範正交集 (orthonormal set),即 \mathbf{q}_i^T\mathbf{q}_j=1i=j\mathbf{q}_i^T\mathbf{q}_j=0i\neq j

Q=\begin{bmatrix}  \mathbf{q}_1&\cdots&\mathbf{q}_n  \end{bmatrix}\Lambda=\mathrm{diag}(\lambda_1,\ldots,\lambda_n)。不難驗證 Q 是一個實正交 (orthogonal) 矩陣,滿足 Q^TQ=I。共變異數矩陣 \Sigma 可正交對角化如下:

\Sigma=Q\Lambda Q^T=\begin{bmatrix}  \mathbf{q}_1&\cdots&\mathbf{q}_n  \end{bmatrix}\begin{bmatrix}  \lambda_1&&\\  &\ddots&\\  &&\lambda_n  \end{bmatrix}\begin{bmatrix}  \mathbf{q}_1^T\\  \vdots\\  \mathbf{q}_n^T  \end{bmatrix}=\displaystyle\sum_{i=1}^n\lambda_i\mathbf{q}_i\mathbf{q}_i^T

同樣地,逆共變異數矩陣亦可正交對角化為

\Sigma^{-1}=(Q\Lambda Q^T)^{-1}=Q\Lambda^{-1}Q^T=\displaystyle\sum_{i=1}^n\frac{1}{\lambda_i}\mathbf{q}_i\mathbf{q}_i^T

將上式代入馬氏距離公式,

\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^TQ\Lambda^{-1}Q^T(\mathbf{x}-\boldsymbol{\mu})=\mathbf{y}^T\Lambda^{-1}\mathbf{y}=\displaystyle\sum_{i=1}^n\frac{y_i^2}{\lambda_i}

上面我們令 \mathbf{y}=Q^T(\mathbf{x}-\boldsymbol{\mu})。為了有定義良好的馬氏距離 \Delta,上式指出 \lambda_i 必須為正數,換句話說,我們要求共變異數矩陣 \Sigma 是一個正定矩陣 (見“ 特殊矩陣 (6):正定矩陣”)。因為 Q^T=Q^{-1}

\mathbf{x}-\boldsymbol{\mu}=Q\mathbf{y}=\begin{bmatrix}  \mathbf{q}_1&\cdots&\mathbf{q}_n  \end{bmatrix}\begin{bmatrix}  y_1\\  \vdots\\  y_n  \end{bmatrix}=y_1\mathbf{q}_1+\cdots+y_n\mathbf{q}_n

可知 \mathbf{x}-\boldsymbol{\mu} 參考基底 \{\mathbf{q}_1,\ldots,\mathbf{q}_n\} 的座標向量即為 \mathbf{y}=(y_1,\ldots,y_n)^T,其中 y_i=\mathbf{q}_i^T(\mathbf{x}-\boldsymbol{\mu})i=1,\ldots,n。另外,\mathbf{x}=Q\mathbf{y}+\boldsymbol{\mu} 可以解讀為 \mathbf{y}\mathbf{x} 的仿射變換 (見“ 仿射變換”),也就是說,\mathbf{y} 經過旋轉或鏡射 Q,再平移 \boldsymbol{\mu} 即得 \mathbf{x}

 
等高線

透過等高線 (contour line),我們可以視覺化常態分布的型態。為方便說明,考慮 n=2 的情形。若 \Delta=1,馬氏距離公式給出

\displaystyle  \left(\frac{y_1}{\sqrt{\lambda_1}}\right)^2+\left(\frac{y_2}{\sqrt{\lambda_2}}\right)^2=1

如果 \lambda_1\ge\lambda_2>0,在新座標系統 (y_1,y_2),等高線的軌跡為一個標準橢圓,長軸 (即 y_1 軸) 半徑等於 \sqrt{\lambda_1},短軸 (即 y_2 軸) 半徑等於 \sqrt{\lambda_2}。在標準座標系統 (x_1,x_2),特徵向量 \mathbf{q}_1 指向長軸方向,\mathbf{q}_2 指向短軸方向 (見圖2)。橢圓上的任何一個點 \mathbf{x}\boldsymbol{\mu} 的馬氏距離都等於 1。若 \lambda_2 逼近 0,則橢圓趨於中心為 \boldsymbol{\mu} 長度等於 2\sqrt{\lambda_1} 的線段。

Normal distribution 3

圖2 共變異數矩陣等高線:橢圓軌跡

 
對於 n 維隨機向量 \mathbf{x} (在不造成混淆的情況下,由上下文決定 \mathbf{x} 代表一個隨機向量或其值),實對稱共變異數矩陣 \Sigma 包含 n(n+1)/2 個獨立參數。當 n 增大時,我們需要大樣本才能準確估計 \Sigma,不僅如此,逆矩陣 \Sigma^{-1} 的計算也變得格外困難。因為這個緣故,我們經常限制共變異數矩陣的型態。圖3顯示三種等高線圖,(a) 一般共變異數矩陣;(b) 共變異數矩陣是對角矩陣 \Sigma=\mathrm{diag}(\sigma_1^2,\ldots,\sigma_n^2),其中 \sigma_i^2 代表隨機變數 x_i 的變異數 (稍後將詳細說明);(c) 所有隨機變數 x_i 有相同的共變異數,即 \Sigma=\sigma^2I

Normal distribution 2

圖3 共變異數矩陣等高線

 
歸一性

我們證明多變量常態分布 \mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma) 滿足機率密度函數的歸一性 (normalization)。考慮座標系統 (y_1,\ldots,y_n) 的常態分布型態。將座標變換 \mathbf{x}-\boldsymbol{\mu}=Q\mathbf{y} 代入機率密度函數,設為 p(\mathbf{y}),利用 \vert\Sigma\vert=\lambda_1\cdots\lambda_n,可得

\begin{aligned}  p(\mathbf{y})&=\frac{1}{(2\pi)^{n/2}\prod_{i=1}^n\lambda_i^{1/2}}\exp\left\{-\frac{1}{2}\sum_{i=1}^n\frac{y_i^2}{\lambda_i}\right\}\\  &=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\lambda_i}}\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\},  \end{aligned}

上式顯示 p(\mathbf{y})n 個獨立單變量常態分布之積,其中各分布的平均數為零,變異數為 \lambda_ii=1,\ldots,n。利用高斯積分 (見註解[2]),立得

\displaystyle  \int p(\mathbf{y})d\mathbf{y}=\prod_{i=1}^n\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\lambda_i}}\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}dy_i=1

將仿射變換 \mathbf{x}=Q\mathbf{y}+\boldsymbol{\mu} 視為一向量函數 \mathbf{x}=F(\mathbf{y}),定義 Jacobian 矩陣 (見“ Jacobian 矩陣與行列式”):

J=\begin{bmatrix}  \displaystyle\frac{\partial x_1}{\partial y_1}&\displaystyle\frac{\partial x_1}{\partial y_2}&\cdots&\displaystyle\frac{\partial x_1}{\partial y_n}\\[1em]  \displaystyle\frac{\partial x_2}{\partial y_1}&\displaystyle\frac{\partial x_2}{\partial y_2}&\cdots&\displaystyle\frac{\partial x_2}{\partial y_n}\\  \vdots&\vdots&\ddots&\vdots\\  \displaystyle\frac{\partial x_n}{\partial y_1}&\displaystyle\frac{\partial x_n}{\partial y_2}&\cdots&\displaystyle\frac{\partial x_n}{\partial y_n}  \end{bmatrix}=\begin{bmatrix}  q_{11}&q_{12}&\cdots&q_{1n}\\  q_{21}&q_{22}&\cdots&q_{2n}\\  \vdots&\vdots&\ddots&\vdots\\  q_{n1}&q_{n2}&\cdots&q_{nn}  \end{bmatrix}=Q

利用 QQ^T=I

(\det J)^2=(\det Q)(\det Q)=(\det Q)(\det Q^T)=\det(QQ^T)=\det I=1

因此 \vert\det J\vert=1。運用多重積分換元積分法,可得

\displaystyle  \int \mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma)d\mathbf{x}=\int p(\mathbf{y})\vert\det J\vert d\mathbf{y}=\int p(\mathbf{y})d\mathbf{y}=1

證明 \mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma) 具有歸一性。

 
動差

首先,考慮單變量常態分布的動差 (moment)。令 w=x-\mu,明顯地,\mathcal{N}(w\vert 0,\sigma^2) 對稱於 w=0,立得

\displaystyle \begin{aligned}  \text{E}[x]&=\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}xdx\\  &=\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}(w+\mu)dw\\  &=\mu\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}dw=\mu.  \end{aligned}

因為

\displaystyle  \int\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx=\sqrt{2\pi}\sigma

\sigma 求導數,可得

\displaystyle  \int\frac{(x-\mu)^2}{\sigma^3}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx=\sqrt{2\pi}

上式等號兩邊同時乘以 \sigma^2/\sqrt{2\pi},即有 \text{E}\left[(x-\mu)^2\right]=\sigma^2。以上結果說明單變量常態分布的參數 \mu 是平均數,\sigma^2 是變異數。

 
接下來,我們討論多變量常態分布的動差並解釋參數 \boldsymbol{\mu}\Sigma 的意義。計算隨機向量 \mathbf{x} 的期望值,使用變數變換 \mathbf{w}=\mathbf{x}-\boldsymbol{\mu},計算過程如下:

\displaystyle \begin{aligned}  \text{E}[\mathbf{x}]&=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}d\mathbf{x}\\  &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}(\mathbf{w}+\boldsymbol{\mu})d\mathbf{w}\\  &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\left(\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}\mathbf{w}d\mathbf{w}+\boldsymbol{\mu}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}d\mathbf{w}\right).  \end{aligned}

指數函數 \exp\mathbf{w} 的偶函數,且積分範圍是 (-\infty,\infty),根據對稱性可知上式第一項等於零,故得

\displaystyle  \text{E}[\mathbf{x}]=\boldsymbol{\mu}\int\mathcal{N}(\mathbf{w}\vert\mathbf{0},\Sigma)d\mathbf{w}=\boldsymbol{\mu}

因此我們稱 \boldsymbol{\mu} 是常態分布的平均數向量。再考慮二階動差。對於單變量情形,二階動差由 \text{E}[x^2] 給定。對於多變量情形,共有 n^2 個二階動差 \text{E}[x_ix_j]i,j=1,\ldots,n。因為期望值是線性運算,所有的二階動差可合併為一個 n\times n 階矩陣 \text{E}[\mathbf{x}\mathbf{x}^T],計算如下:

\displaystyle \begin{aligned}  \text{E}\left[\mathbf{x}\mathbf{x}^T\right]&=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}\mathbf{x}^Td\mathbf{x}\\  &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}(\mathbf{w}+\boldsymbol{\mu})(\mathbf{w}+\boldsymbol{\mu})^Td\mathbf{w}.  \end{aligned}

上式中,(\mathbf{w}+\boldsymbol{\mu})(\mathbf{w}+\boldsymbol{\mu})^T=\mathbf{w}\mathbf{w}^T+\mathbf{w}\boldsymbol{\mu}^T+\boldsymbol{\mu}\mathbf{w}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T。根據對稱性,交互項 \mathbf{w}\boldsymbol{\mu}^T\boldsymbol{\mu}\mathbf{w}^T 的積分等於零。常數項 \boldsymbol{\mu}\boldsymbol{\mu}^T 可提出,剩下的機率密度函數積分等於 1。最後我們考慮包含 \mathbf{w}\mathbf{w}^T 的積分。令 \mathbf{v}=Q^T\mathbf{w},就有 \mathbf{w}=Q\mathbf{v}=\sum_{i=1}^nv_i\mathbf{q}_i,則 \mathbf{w}\mathbf{w}^T=\sum_{i=1}^n\sum_{j=1}^nv_iv_j\mathbf{q}_i\mathbf{q}_j^T\mathbf{w}^T\Sigma^{-1}\mathbf{w}=\mathbf{v}^TQ^T\Sigma^{-1} Q\mathbf{v}=\mathbf{v}^T\Lambda^{-1}\mathbf{v}=\sum_{k=1}^nv_k^2/\lambda_k,故積分為

\displaystyle \begin{aligned}  ~~&\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}\mathbf{w}\mathbf{w}^Td\mathbf{w}\\  &=\sum_{i=1}^n\sum_{j=1}^n\mathbf{q}_i\mathbf{q}_j^T\frac{1}{(2\pi)^{n/2}(\lambda_1\cdots\lambda_n)^{1/2}}\int\exp\left\{-\sum_{k=1}^n\frac{v_k^2}{2\lambda_k}\right\}v_iv_jd\mathbf{v}\\  &=\sum_{i=1}^n\mathbf{q}_i\mathbf{q}_i^T\left(\prod_{k=1\atop k\neq i}^n\frac{1}{(2\pi\lambda_k)^{1/2}}\int\exp\left\{-\frac{v_k^2}{2\lambda_k}\right\}dv_k\cdot\frac{1}{(2\pi\lambda_i)^{1/2}}\int\exp\left\{-\frac{v_i^2}{2\lambda_i}\right\}v_i^2dv_i\right)\\  &=\sum_{i=1}^n\mathbf{q}_i\mathbf{q}_i^T\lambda_i=\Sigma.  \end{aligned}

上式中,當 i\neq j,根據對稱性可知積分為零,並使用單變量變異數 \hbox{E}\left[v_i^2\right]=\lambda_i。因此,

\displaystyle  \hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]=\boldsymbol{\mu}\boldsymbol{\mu}^T+\Sigma

類似單變量變異數,我們定義隨機向量 \mathbf{x} 的共變異數矩陣如下:

\displaystyle  \hbox{cov}\left[\mathbf{x}\right]=\hbox{E}\left[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^T\right]

對於常態分布,利用 \text{E}[\mathbf{x}]=\boldsymbol{\mu} 和前面結果,可得

\begin{aligned}  \hbox{cov}[\mathbf{x}]&=  \hbox{E}\left[\mathbf{x}\mathbf{x}^T-\mathbf{x}\boldsymbol{\mu}^T-\boldsymbol{\mu}\mathbf{x}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\right]\\  &=\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]-\text{E}[\mathbf{x}]\boldsymbol{\mu}^T-\boldsymbol{\mu}\text{E}\left[\mathbf{x}\right]^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\\  &=\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]-\boldsymbol{\mu}\boldsymbol{\mu}^T=\Sigma,\end{aligned}

即證明 \Sigma 是常態分布的共變異數矩陣。

 
Cholesky 分解與極分解

運用矩陣分解可以從另一個角度認識常態分布和共變異數矩陣。考慮 \Sigma 的 Cholesky 分解 \Sigma=CC^T (見“Cholesky 分解”),其中 C 是唯一存在的 n\times n 階下三角矩陣且主對角元都是正數。不過,分解矩陣 C 不具備清晰的幾何意義。另外,我們可以改寫 \Sigma 的正交對角化表達式為 \Sigma=Q\Lambda Q^T=BB^T,其中 B=Q\Lambda^{1/2} 稱為極分解 (見“極分解”),Q 是一個正交矩陣表示旋轉或鏡射,\Lambda^{1/2}=\hbox{diag}(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n}) 是一個正定矩陣表示伸縮。利用極分解,馬氏距離可表示成

\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^T(B^{-1})^TB^{-1}(\mathbf{x}-\boldsymbol{\mu})=\Vert B^{-1}(\mathbf{x}-\boldsymbol{\mu})\Vert^2=\Vert\Lambda^{-1/2}Q^T(\mathbf{x}-\boldsymbol{\mu})\Vert^2

\mathbf{z}=\Lambda^{-1/2}Q^T(\mathbf{x}-\boldsymbol{\mu}),即有 \Delta^2=\mathbf{z}^T\mathbf{z},隨機向量 \mathbf{z} 的機率密度函數變成

\displaystyle  p(\mathbf{z})=\frac{1}{(2\pi)^{n/2}}\exp\left\{-\frac{1}{2}\mathbf{z}^T\mathbf{z}\right\}=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_i^2}{2}\right\}

稱為標準常態分布,平均數向量是 \boldsymbol{\mu}=\mathbf{0},共變異數矩陣是 \Sigma=I。從標準常態分布出發,即 \mathcal{N}(\mathbf{z}\vert\mathbf{0},I),具有一般常態分布的隨機向量 \mathbf{x} 其生成過程可表示為仿射變換:

\mathbf{x}=Q\Lambda^{1/2}\mathbf{z}+\boldsymbol{\mu}

解釋如下:先伸縮標準常態分布的隨機向量 \mathbf{z} 各個變數 (乘以 \Lambda^{1/2}),再旋轉 (乘以 Q),最後平移 (加上 \boldsymbol{\mu}),如圖4所示。最後這個結論值得你牢記:共變異數矩陣 \Sigma 的作用在於決定常態分布的伸縮 \Lambda^{1/2} 和旋轉 Q

Normal distribution 4

圖4 從標準常態分布至一般常態分布

 
註解

[1] 中央極限定理 (central limit theorem):如果從平均數為 \mu,變異數為 \sigma^2 的母體抽取大小為 N 的樣本,那麼這些樣本的平均數將近似服從平均數為 \mu,變異數為 \sigma^2/N 的常態分布。樣本大小 N 越大,則越近似常態分布。

[2] 考慮單變量的高斯積分

\displaystyle  I=\int_{-\infty}^{\infty}\exp\left(-\frac{x^2}{2\lambda}\right)dx

將積分平方,運用換元積分法,如下:

\displaystyle  \begin{aligned}  I^2&=\int_{-\infty}^{\infty}\exp\left(\frac{-x^2}{2\lambda}\right)dx\cdot\int_{-\infty}^{\infty}\exp\left(-\frac{y^2}{2\lambda}\right)dy\\  &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp\left(-\frac{x^2+y^2}{2\lambda}\right)dxdy\\  &=\int_0^{\infty}\exp\left(-\frac{r^2}{2\lambda}\right)rdr\int_0^{2\pi}d\theta\\  &=\int_0^{\infty}\exp\left(-\frac{u}{\lambda}\right)du\cdot 2\pi\\  &=2\pi\lambda,\end{aligned}

其中使用變數變換 x=r\cos\thetay=r\sin\theta,並設 u=r^2/2。上式開平方根,可得

\displaystyle  \int_{-\infty}^{\infty}\exp\left(-\frac{x^2}{2\lambda}\right)dx=\sqrt{2\pi\lambda}

也就有

\displaystyle  \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\lambda}}\exp\left(-\frac{x^2}{2\lambda}\right)dx=1

This entry was posted in 機率統計 and tagged , , , , , , , , , , , , , . Bookmark the permalink.

5 Responses to 共變異數矩陣與常態分布

  1. 張盛東 says:

    周老師,今天我收到通知我們學校這個星期四有一個Dissertation Proposal Defense,關於central matrix method in dimension reduction regression。我google了一下沒找到相關資料。是不是這個method有其他的名字?

  2. Ou Yang says:

    老師,請問一下若是兩變數獨立的話,共變異數矩陣是不是一個只有對角線上有值,上三角和下三角都是零的矩陣?

Leave a comment