共變異數矩陣與常態分布

本文的閱讀等級：中級

常態分布 (normal distribution)，也稱高斯分布 (Gaussian distribution)，其機率密度函數為

$\displaystyle \mathcal{N}(x\vert\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$ ，

其中 $\mu$ 是平均數 (mean)， $\sigma^2$ 是變異數 (variance)。對於 $\mathbf{x}\in\mathbb{R}^n$ ，多變量常態分布的形式如下 (見“ 多變量常態分布”)：

$\displaystyle \mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}$ ，

其中 $\boldsymbol{\mu}\in\mathbb{R}^n$ 是平均數向量， $\Sigma$ 是 $n\times n$ 階共變異數矩陣 (covariance matrix)， $\vert\Sigma\vert=\det \Sigma$ 是 $\Sigma$ 的行列式。常態分布是一種應用相當廣泛的連續型機率分布，原因之一是大自然產生的變數經常具有常態分布，譬如，某城市成年男子的身高，某田地產出的蘿蔔重量；另外，對於從母體隨機抽取出的樣本，當樣本數增大時，樣本平均數的分布逼近常態分布^[1] (見“ 樣本平均數、變異數和共變異數”)。圖1為 $n=2$ 的一個常態分布樣本。本文從線性代數觀點探討常態分布與共變異數矩陣的幾何涵義。

圖1 常態分布樣本

馬氏距離

常態分布的機率密度函數由下列二次型決定：

$\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})$ ，

其中 $\Delta$ 稱為 $\boldsymbol{\mu}$ 與 $\mathbf{x}$ 的馬氏距離 (Mahalanobis distance)。若 $\Sigma=I_n$ ，則 $\Delta^2=\Vert\mathbf{x}-\boldsymbol{\mu}\Vert^2$ ，馬氏距離退化為歐氏距離 (Euclidean distance)。通過解析馬氏距離的二次型表達式，我們可以深入瞭解常態分布的幾何型態。

任何一個實方陣可分解為對稱矩陣與反對稱矩陣之和 (稱為卡氏分解)，且反對稱矩陣的二次型必為零 (見“ 特殊矩陣 (13)：反對稱矩陣”)。在不失一般性的原則下，假設 $\Sigma$ 是一個實對稱矩陣。考慮特徵方程 $\Sigma\mathbf{q}_i=\lambda_i\mathbf{q}_i$ ，其中 $\Vert\mathbf{q}_i\Vert=1$ ， $i=1,\ldots,n$ 。實對稱矩陣 $\Sigma$ 的特徵值 $\lambda_i$ 與特徵向量 $\mathbf{q}_i$ 有下列性質 (見“ 實對稱矩陣可正交對角化的證明”)：

特徵值 $\lambda_1,\ldots,\lambda_n$ 是實數，
單位特徵向量 $\mathbf{q}_1,\ldots,\mathbf{q}_n$ 組成一個單範正交集 (orthonormal set)，即 $\mathbf{q}_i^T\mathbf{q}_j=1$ 若 $i=j$ ， $\mathbf{q}_i^T\mathbf{q}_j=0$ 若 $i\neq j$ 。

令 $Q=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_n \end{bmatrix}$ 且 $\Lambda=\mathrm{diag}(\lambda_1,\ldots,\lambda_n)$ 。不難驗證 $Q$ 是一個實正交 (orthogonal) 矩陣，滿足 $Q^TQ=I$ 。共變異數矩陣 $\Sigma$ 可正交對角化如下：

$\Sigma=Q\Lambda Q^T=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_n \end{bmatrix}\begin{bmatrix} \lambda_1&&\\ &\ddots&\\ &&\lambda_n \end{bmatrix}\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_n^T \end{bmatrix}=\displaystyle\sum_{i=1}^n\lambda_i\mathbf{q}_i\mathbf{q}_i^T$ 。

同樣地，逆共變異數矩陣亦可正交對角化為

$\Sigma^{-1}=(Q\Lambda Q^T)^{-1}=Q\Lambda^{-1}Q^T=\displaystyle\sum_{i=1}^n\frac{1}{\lambda_i}\mathbf{q}_i\mathbf{q}_i^T$ 。

將上式代入馬氏距離公式，

$\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^TQ\Lambda^{-1}Q^T(\mathbf{x}-\boldsymbol{\mu})=\mathbf{y}^T\Lambda^{-1}\mathbf{y}=\displaystyle\sum_{i=1}^n\frac{y_i^2}{\lambda_i}$ ，

上面我們令 $\mathbf{y}=Q^T(\mathbf{x}-\boldsymbol{\mu})$ 。為了有定義良好的馬氏距離 $\Delta$ ，上式指出 $\lambda_i$ 必須為正數，換句話說，我們要求共變異數矩陣 $\Sigma$ 是一個正定矩陣 (見“ 特殊矩陣 (6)：正定矩陣”)。因為 $Q^T=Q^{-1}$ ，

$\mathbf{x}-\boldsymbol{\mu}=Q\mathbf{y}=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_n \end{bmatrix}\begin{bmatrix} y_1\\ \vdots\\ y_n \end{bmatrix}=y_1\mathbf{q}_1+\cdots+y_n\mathbf{q}_n$ ，

可知 $\mathbf{x}-\boldsymbol{\mu}$ 參考基底 $\{\mathbf{q}_1,\ldots,\mathbf{q}_n\}$ 的座標向量即為 $\mathbf{y}=(y_1,\ldots,y_n)^T$ ，其中 $y_i=\mathbf{q}_i^T(\mathbf{x}-\boldsymbol{\mu})$ ， $i=1,\ldots,n$ 。另外， $\mathbf{x}=Q\mathbf{y}+\boldsymbol{\mu}$ 可以解讀為 $\mathbf{y}$ 至 $\mathbf{x}$ 的仿射變換 (見“ 仿射變換”)，也就是說， $\mathbf{y}$ 經過旋轉或鏡射 $Q$ ，再平移 $\boldsymbol{\mu}$ 即得 $\mathbf{x}$ 。

等高線

透過等高線 (contour line)，我們可以視覺化常態分布的型態。為方便說明，考慮 $n=2$ 的情形。若 $\Delta=1$ ，馬氏距離公式給出

$\displaystyle \left(\frac{y_1}{\sqrt{\lambda_1}}\right)^2+\left(\frac{y_2}{\sqrt{\lambda_2}}\right)^2=1$ 。

如果 $\lambda_1\ge\lambda_2>0$ ，在新座標系統 $(y_1,y_2)$ ，等高線的軌跡為一個標準橢圓，長軸 (即 $y_1$ 軸) 半徑等於 $\sqrt{\lambda_1}$ ，短軸 (即 $y_2$ 軸) 半徑等於 $\sqrt{\lambda_2}$ 。在標準座標系統 $(x_1,x_2)$ ，特徵向量 $\mathbf{q}_1$ 指向長軸方向， $\mathbf{q}_2$ 指向短軸方向 (見圖2)。橢圓上的任何一個點 $\mathbf{x}$ 至 $\boldsymbol{\mu}$ 的馬氏距離都等於 $1$ 。若 $\lambda_2$ 逼近 $0$ ，則橢圓趨於中心為 $\boldsymbol{\mu}$ 長度等於 $2\sqrt{\lambda_1}$ 的線段。

圖2 共變異數矩陣等高線：橢圓軌跡

對於 $n$ 維隨機向量 $\mathbf{x}$ (在不造成混淆的情況下，由上下文決定 $\mathbf{x}$ 代表一個隨機向量或其值)，實對稱共變異數矩陣 $\Sigma$ 包含 $n(n+1)/2$ 個獨立參數。當 $n$ 增大時，我們需要大樣本才能準確估計 $\Sigma$ ，不僅如此，逆矩陣 $\Sigma^{-1}$ 的計算也變得格外困難。因為這個緣故，我們經常限制共變異數矩陣的型態。圖3顯示三種等高線圖，(a) 一般共變異數矩陣；(b) 共變異數矩陣是對角矩陣 $\Sigma=\mathrm{diag}(\sigma_1^2,\ldots,\sigma_n^2)$ ，其中 $\sigma_i^2$ 代表隨機變數 $x_i$ 的變異數 (稍後將詳細說明)；(c) 所有隨機變數 $x_i$ 有相同的共變異數，即 $\Sigma=\sigma^2I$ 。

圖3 共變異數矩陣等高線

歸一性

我們證明多變量常態分布 $\mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma)$ 滿足機率密度函數的歸一性 (normalization)。考慮座標系統 $(y_1,\ldots,y_n)$ 的常態分布型態。將座標變換 $\mathbf{x}-\boldsymbol{\mu}=Q\mathbf{y}$ 代入機率密度函數，設為 $p(\mathbf{y})$ ，利用 $\vert\Sigma\vert=\lambda_1\cdots\lambda_n$ ，可得

$\begin{aligned} p(\mathbf{y})&=\frac{1}{(2\pi)^{n/2}\prod_{i=1}^n\lambda_i^{1/2}}\exp\left\{-\frac{1}{2}\sum_{i=1}^n\frac{y_i^2}{\lambda_i}\right\}\\ &=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\lambda_i}}\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}, \end{aligned}$

上式顯示 $p(\mathbf{y})$ 是 $n$ 個獨立單變量常態分布之積，其中各分布的平均數為零，變異數為 $\lambda_i$ ， $i=1,\ldots,n$ 。利用高斯積分 (見註解^[2])，立得

$\displaystyle \int p(\mathbf{y})d\mathbf{y}=\prod_{i=1}^n\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\lambda_i}}\exp\left\{-\frac{y_i^2}{2\lambda_i}\right\}dy_i=1$ 。

將仿射變換 $\mathbf{x}=Q\mathbf{y}+\boldsymbol{\mu}$ 視為一向量函數 $\mathbf{x}=F(\mathbf{y})$ ，定義 Jacobian 矩陣 (見“ Jacobian 矩陣與行列式”)：

$J=\begin{bmatrix} \displaystyle\frac{\partial x_1}{\partial y_1}&\displaystyle\frac{\partial x_1}{\partial y_2}&\cdots&\displaystyle\frac{\partial x_1}{\partial y_n}\\[1em] \displaystyle\frac{\partial x_2}{\partial y_1}&\displaystyle\frac{\partial x_2}{\partial y_2}&\cdots&\displaystyle\frac{\partial x_2}{\partial y_n}\\ \vdots&\vdots&\ddots&\vdots\\ \displaystyle\frac{\partial x_n}{\partial y_1}&\displaystyle\frac{\partial x_n}{\partial y_2}&\cdots&\displaystyle\frac{\partial x_n}{\partial y_n} \end{bmatrix}=\begin{bmatrix} q_{11}&q_{12}&\cdots&q_{1n}\\ q_{21}&q_{22}&\cdots&q_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ q_{n1}&q_{n2}&\cdots&q_{nn} \end{bmatrix}=Q$ 。

利用 $QQ^T=I$ ，

$(\det J)^2=(\det Q)(\det Q)=(\det Q)(\det Q^T)=\det(QQ^T)=\det I=1$ ，

因此 $\vert\det J\vert=1$ 。運用多重積分換元積分法，可得

$\displaystyle \int \mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma)d\mathbf{x}=\int p(\mathbf{y})\vert\det J\vert d\mathbf{y}=\int p(\mathbf{y})d\mathbf{y}=1$ ，

證明 $\mathcal{N}(\mathbf{x}\vert\boldsymbol{\mu},\Sigma)$ 具有歸一性。

動差

首先，考慮單變量常態分布的動差 (moment)。令 $w=x-\mu$ ，明顯地， $\mathcal{N}(w\vert 0,\sigma^2)$ 對稱於 $w=0$ ，立得

$\displaystyle \begin{aligned} \text{E}[x]&=\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}xdx\\ &=\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}(w+\mu)dw\\ &=\mu\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}dw=\mu. \end{aligned}$

因為

$\displaystyle \int\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx=\sqrt{2\pi}\sigma$ ，

對 $\sigma$ 求導數，可得

$\displaystyle \int\frac{(x-\mu)^2}{\sigma^3}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx=\sqrt{2\pi}$ 。

上式等號兩邊同時乘以 $\sigma^2/\sqrt{2\pi}$ ，即有 $\text{E}\left[(x-\mu)^2\right]=\sigma^2$ 。以上結果說明單變量常態分布的參數 $\mu$ 是平均數， $\sigma^2$ 是變異數。

接下來，我們討論多變量常態分布的動差並解釋參數 $\boldsymbol{\mu}$ 和 $\Sigma$ 的意義。計算隨機向量 $\mathbf{x}$ 的期望值，使用變數變換 $\mathbf{w}=\mathbf{x}-\boldsymbol{\mu}$ ，計算過程如下：

$\displaystyle \begin{aligned} \text{E}[\mathbf{x}]&=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}d\mathbf{x}\\ &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}(\mathbf{w}+\boldsymbol{\mu})d\mathbf{w}\\ &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\left(\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}\mathbf{w}d\mathbf{w}+\boldsymbol{\mu}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}d\mathbf{w}\right). \end{aligned}$

指數函數 $\exp$ 是 $\mathbf{w}$ 的偶函數，且積分範圍是 $(-\infty,\infty)$ ，根據對稱性可知上式第一項等於零，故得

$\displaystyle \text{E}[\mathbf{x}]=\boldsymbol{\mu}\int\mathcal{N}(\mathbf{w}\vert\mathbf{0},\Sigma)d\mathbf{w}=\boldsymbol{\mu}$ ，

因此我們稱 $\boldsymbol{\mu}$ 是常態分布的平均數向量。再考慮二階動差。對於單變量情形，二階動差由 $\text{E}[x^2]$ 給定。對於多變量情形，共有 $n^2$ 個二階動差 $\text{E}[x_ix_j]$ ， $i,j=1,\ldots,n$ 。因為期望值是線性運算，所有的二階動差可合併為一個 $n\times n$ 階矩陣 $\text{E}[\mathbf{x}\mathbf{x}^T]$ ，計算如下：

$\displaystyle \begin{aligned} \text{E}\left[\mathbf{x}\mathbf{x}^T\right]&=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}\mathbf{x}^Td\mathbf{x}\\ &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}(\mathbf{w}+\boldsymbol{\mu})(\mathbf{w}+\boldsymbol{\mu})^Td\mathbf{w}. \end{aligned}$

上式中， $(\mathbf{w}+\boldsymbol{\mu})(\mathbf{w}+\boldsymbol{\mu})^T=\mathbf{w}\mathbf{w}^T+\mathbf{w}\boldsymbol{\mu}^T+\boldsymbol{\mu}\mathbf{w}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T$ 。根據對稱性，交互項 $\mathbf{w}\boldsymbol{\mu}^T$ 和 $\boldsymbol{\mu}\mathbf{w}^T$ 的積分等於零。常數項 $\boldsymbol{\mu}\boldsymbol{\mu}^T$ 可提出，剩下的機率密度函數積分等於 $1$ 。最後我們考慮包含 $\mathbf{w}\mathbf{w}^T$ 的積分。令 $\mathbf{v}=Q^T\mathbf{w}$ ，就有 $\mathbf{w}=Q\mathbf{v}=\sum_{i=1}^nv_i\mathbf{q}_i$ ，則 $\mathbf{w}\mathbf{w}^T=\sum_{i=1}^n\sum_{j=1}^nv_iv_j\mathbf{q}_i\mathbf{q}_j^T$ 且 $\mathbf{w}^T\Sigma^{-1}\mathbf{w}=\mathbf{v}^TQ^T\Sigma^{-1} Q\mathbf{v}=\mathbf{v}^T\Lambda^{-1}\mathbf{v}=\sum_{k=1}^nv_k^2/\lambda_k$ ，故積分為

$\displaystyle \begin{aligned} ~~&\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}\mathbf{w}\mathbf{w}^Td\mathbf{w}\\ &=\sum_{i=1}^n\sum_{j=1}^n\mathbf{q}_i\mathbf{q}_j^T\frac{1}{(2\pi)^{n/2}(\lambda_1\cdots\lambda_n)^{1/2}}\int\exp\left\{-\sum_{k=1}^n\frac{v_k^2}{2\lambda_k}\right\}v_iv_jd\mathbf{v}\\ &=\sum_{i=1}^n\mathbf{q}_i\mathbf{q}_i^T\left(\prod_{k=1\atop k\neq i}^n\frac{1}{(2\pi\lambda_k)^{1/2}}\int\exp\left\{-\frac{v_k^2}{2\lambda_k}\right\}dv_k\cdot\frac{1}{(2\pi\lambda_i)^{1/2}}\int\exp\left\{-\frac{v_i^2}{2\lambda_i}\right\}v_i^2dv_i\right)\\ &=\sum_{i=1}^n\mathbf{q}_i\mathbf{q}_i^T\lambda_i=\Sigma. \end{aligned}$

上式中，當 $i\neq j$ ，根據對稱性可知積分為零，並使用單變量變異數 $\hbox{E}\left[v_i^2\right]=\lambda_i$ 。因此，

$\displaystyle \hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]=\boldsymbol{\mu}\boldsymbol{\mu}^T+\Sigma$ 。

類似單變量變異數，我們定義隨機向量 $\mathbf{x}$ 的共變異數矩陣如下：

$\displaystyle \hbox{cov}\left[\mathbf{x}\right]=\hbox{E}\left[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^T\right]$ 。

對於常態分布，利用 $\text{E}[\mathbf{x}]=\boldsymbol{\mu}$ 和前面結果，可得

$\begin{aligned} \hbox{cov}[\mathbf{x}]&= \hbox{E}\left[\mathbf{x}\mathbf{x}^T-\mathbf{x}\boldsymbol{\mu}^T-\boldsymbol{\mu}\mathbf{x}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\right]\\ &=\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]-\text{E}[\mathbf{x}]\boldsymbol{\mu}^T-\boldsymbol{\mu}\text{E}\left[\mathbf{x}\right]^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\\ &=\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]-\boldsymbol{\mu}\boldsymbol{\mu}^T=\Sigma,\end{aligned}$

即證明 $\Sigma$ 是常態分布的共變異數矩陣。

Cholesky 分解與極分解

運用矩陣分解可以從另一個角度認識常態分布和共變異數矩陣。考慮 $\Sigma$ 的 Cholesky 分解 $\Sigma=CC^T$ (見“Cholesky 分解”)，其中 $C$ 是唯一存在的 $n\times n$ 階下三角矩陣且主對角元都是正數。不過，分解矩陣 $C$ 不具備清晰的幾何意義。另外，我們可以改寫 $\Sigma$ 的正交對角化表達式為 $\Sigma=Q\Lambda Q^T=BB^T$ ，其中 $B=Q\Lambda^{1/2}$ 稱為極分解 (見“極分解”)， $Q$ 是一個正交矩陣表示旋轉或鏡射， $\Lambda^{1/2}=\hbox{diag}(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n})$ 是一個正定矩陣表示伸縮。利用極分解，馬氏距離可表示成

$\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^T(B^{-1})^TB^{-1}(\mathbf{x}-\boldsymbol{\mu})=\Vert B^{-1}(\mathbf{x}-\boldsymbol{\mu})\Vert^2=\Vert\Lambda^{-1/2}Q^T(\mathbf{x}-\boldsymbol{\mu})\Vert^2$ 。

令 $\mathbf{z}=\Lambda^{-1/2}Q^T(\mathbf{x}-\boldsymbol{\mu})$ ，即有 $\Delta^2=\mathbf{z}^T\mathbf{z}$ ，隨機向量 $\mathbf{z}$ 的機率密度函數變成

$\displaystyle p(\mathbf{z})=\frac{1}{(2\pi)^{n/2}}\exp\left\{-\frac{1}{2}\mathbf{z}^T\mathbf{z}\right\}=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_i^2}{2}\right\}$ ，

稱為標準常態分布，平均數向量是 $\boldsymbol{\mu}=\mathbf{0}$ ，共變異數矩陣是 $\Sigma=I$ 。從標準常態分布出發，即 $\mathcal{N}(\mathbf{z}\vert\mathbf{0},I)$ ，具有一般常態分布的隨機向量 $\mathbf{x}$ 其生成過程可表示為仿射變換：

$\mathbf{x}=Q\Lambda^{1/2}\mathbf{z}+\boldsymbol{\mu}$ 。

解釋如下：先伸縮標準常態分布的隨機向量 $\mathbf{z}$ 各個變數 (乘以 $\Lambda^{1/2}$ )，再旋轉 (乘以 $Q$ )，最後平移 (加上 $\boldsymbol{\mu}$ )，如圖4所示。最後這個結論值得你牢記：共變異數矩陣 $\Sigma$ 的作用在於決定常態分布的伸縮 $\Lambda^{1/2}$ 和旋轉 $Q$ 。

圖4 從標準常態分布至一般常態分布

註解

[1] 中央極限定理 (central limit theorem)：如果從平均數為 $\mu$ ，變異數為 $\sigma^2$ 的母體抽取大小為 $N$ 的樣本，那麼這些樣本的平均數將近似服從平均數為 $\mu$ ，變異數為 $\sigma^2/N$ 的常態分布。樣本大小 $N$ 越大，則越近似常態分布。

[2] 考慮單變量的高斯積分

$\displaystyle I=\int_{-\infty}^{\infty}\exp\left(-\frac{x^2}{2\lambda}\right)dx$ 。

將積分平方，運用換元積分法，如下：

$\displaystyle \begin{aligned} I^2&=\int_{-\infty}^{\infty}\exp\left(\frac{-x^2}{2\lambda}\right)dx\cdot\int_{-\infty}^{\infty}\exp\left(-\frac{y^2}{2\lambda}\right)dy\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp\left(-\frac{x^2+y^2}{2\lambda}\right)dxdy\\ &=\int_0^{\infty}\exp\left(-\frac{r^2}{2\lambda}\right)rdr\int_0^{2\pi}d\theta\\ &=\int_0^{\infty}\exp\left(-\frac{u}{\lambda}\right)du\cdot 2\pi\\ &=2\pi\lambda,\end{aligned}$

其中使用變數變換 $x=r\cos\theta$ ， $y=r\sin\theta$ ，並設 $u=r^2/2$ 。上式開平方根，可得

$\displaystyle \int_{-\infty}^{\infty}\exp\left(-\frac{x^2}{2\lambda}\right)dx=\sqrt{2\pi\lambda}$ ，

也就有

$\displaystyle \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\lambda}}\exp\left(-\frac{x^2}{2\lambda}\right)dx=1$ 。

5 Responses to 共變異數矩陣與常態分布

張盛東 says:

11/19/2013 at 8:13 am

周老師，今天我收到通知我們學校這個星期四有一個Dissertation Proposal Defense，關於central matrix method in dimension reduction regression。我google了一下沒找到相關資料。是不是這個method有其他的名字？

- ccjou says:
  
  11/19/2013 at 8:29 am
  
  central matrix based method 不是一個公認的名稱，我僅查找到一篇文章：
  http://onlinelibrary.wiley.com/doi/10.1002/cjs.11181/abstract
  
  可能是 Sliced inverse regression 的變形：
  http://en.wikipedia.org/wiki/Sliced_inverse_regression
  
  - 張盛東 says:
    
    11/19/2013 at 8:45 am
    
    謝謝老師。
    
Ou Yang says:

04/12/2015 at 5:10 pm

老師，請問一下若是兩變數獨立的話，共變異數矩陣是不是一個只有對角線上有值，上三角和下三角都是零的矩陣？

- ccjou says:
  
  04/13/2015 at 8:22 am
  
  是的，相關討論見
  
  共變異數矩陣的性質

	jianglong on Strassen 演算法──分治矩陣乘法
	jianglong on Strassen 演算法──分治矩陣乘法
	xmj on 內積的定義
	Ning ChingSan on 線性代數的第一堂課──矩陣乘法的定義
	momo on 兩岸線性代數用詞參照
	訪客 on 克拉瑪公式的簡易幾何證明