可對角化矩陣的譜分解

本文的閱讀等級：中級

在矩陣分析中，對角化 (diagonalization) 是一個非常重要的概念與工具。如果 $n\times n$ 階矩陣 $A$ 相似於一個對角矩陣，我們稱 $A$ 是可對角化矩陣 (diagonalizable matrix)，具體地說，存在一個同階可逆矩陣 $S$ 使得 $\Lambda=S^{-1}AS$ 為對角矩陣，意味矩陣 $A$ 可分解為 $A=S\Lambda S^{-1}$ 。矩陣的對角化與特徵分析有密切的關係，對角矩陣 $\Lambda=\hbox{diag}(\lambda_1,\ldots,\lambda_n)$ 的主對角元 $\lambda_i$ 為 $A$ 的特徵值，而對角化的變換矩陣 $S$ 的行向量 (column vector) $\mathbf{x}_i$ 為對應特徵值 $\lambda_i$ 的特徵向量， $i=1,\ldots,n$ 。所以，如果 $n\times n$ 階矩陣 $A$ 擁有完整的 $n$ 個線性獨立的特徵向量，則 $A$ 是可對角化矩陣。此外，可對角化矩陣的直觀解釋是如果以特徵向量 $\{\mathbf{x}_1,\ldots,\mathbf{x}_n\}$ 當作基底，則參考這組基底的線性變換表示矩陣，即特徵值矩陣 $\Lambda$ ，具有最簡約的主對角形式。本文介紹可對角化矩陣的另一個分解表達式，稱為譜分解 (spectral decomposition) 或譜定理，它的特點是能夠表現更豐富的幾何意義，同時也具備簡化可對角化矩陣函數計算的功用 (見“矩陣函數 (上)”)。

我先用一個例子說明可對角化矩陣的譜分解計算過程。考慮 $3\times 3$ 階矩陣

$A=\left[\!\!\begin{array}{rrr} -5&-6&-9\\ 3&4&9\\ 0&0&-2 \end{array}\!\!\right]$ 。

矩陣 $A$ 有特徵值 $\lambda_1=1$ ，相重數為 $1$ ， $\lambda_2=-2$ ，相重數為 $2$ ，或者說特徵多項式為 $p_A(t)=\det(A-tI)=-(t-1)(t+2)^2$ 。特徵值的相重數也稱為代數重數 (algebraic multiplicity)。特徵空間 $N(A-\lambda_1I)$ (即 $A-\lambda_1I$ 的零空間) 的基底為對應特徵值 $\lambda_1=1$ 的特徵向量，

$N(A-\lambda_1I)=\mathrm{span}\left\{\left[\!\!\begin{array}{r} 1\\ -1\\ 0 \end{array}\!\!\right]\right\}$ 。

另由 $N(A-\lambda_2I)$ 求出對應特徵值 $\lambda_2=-2$ 的兩個線性獨立特徵向量，

$N(A-\lambda_2I)=\mathrm{span}\left\{\left[\!\!\begin{array}{r} -1\\ 2\\ -1 \end{array}\!\!\right],\left[\!\!\begin{array}{r} 1\\ 1\\ -1 \end{array}\!\!\right]\right\}$ 。

附帶一提，可對角化矩陣 $A$ 的另一個等價條件是每一特徵值 $\lambda_i$ 的代數重數都等於對應的特徵空間維數， $\dim N(A-\lambda_iI)$ ，稱為幾何重數 (參閱“可對角化矩陣與缺陷矩陣的判定”)。本例 $A$ 符合上述條件，故為可對角化矩陣。令 $\Lambda=\text{diag}(1,-2,-2)$ 。將對應的特徵向量依序合併成特徵向量矩陣

$S=\left[\!\!\begin{array}{rrr} 1&-1&1\\ -1&2&1\\ 0&-1&-1 \end{array}\!\!\right]$ 。

因為 $S$ 有線性獨立的行向量， $S$ 是可逆矩陣，即

$S^{-1}=\left[\!\!\begin{array}{rrr} -1&-2&-3\\ -1&-1&-2\\ 1&1&1 \end{array}\!\!\right]$ 。

接著，將特徵方程 $AS=S\Lambda$ 改寫為 $A=S\Lambda S^{-1}$ ，代入數值並以行列乘法展開矩陣乘積，可得

$\begin{aligned} A&=\left[\!\!\begin{array}{rrr} 1&-1&1\\ -1&2&1\\ 0&-1&-1 \end{array}\!\!\right]\left[\!\!\begin{array}{crr} 1&0&0\\ 0&-2&0\\ 0&0&-2 \end{array}\!\!\right]\left[\!\!\begin{array}{rrr} -1&-2&-3\\ -1&-1&-2\\ 1&1&1 \end{array}\!\!\right]\\ &=1\left[\!\!\begin{array}{r} 1\\ -1\\ 0 \end{array}\!\!\right]\begin{bmatrix} -1&-2&-3 \end{bmatrix}+(-2)\left[\!\!\begin{array}{r} -1\\ 2\\ -1 \end{array}\!\!\right]\begin{bmatrix} -1&-1&-2 \end{bmatrix}+ (-2)\left[\!\!\begin{array}{r} 1\\ 1\\ -1 \end{array}\!\!\right]\begin{bmatrix} 1&1&1 \end{bmatrix}.\end{aligned}$

提出相同係數 $-2$ ，整理後就得到下面的譜分解式：

$A=\left[\!\!\begin{array}{rrr} -1&-2&-3\\ 1&2&3\\ 0&0&0 \end{array}\!\!\right]+(-2)\left[\!\!\begin{array}{rrr} 2&2&3\\ -1&-1&-3\\ 0&0&1 \end{array}\!\!\right]$ 。

我們定義矩陣譜 (spectrum) $\{\lambda_1,\ldots,\lambda_m\}$ 為 $n\times n$ 階矩陣 $A$ 的相異特徵值所形成的集合。令特徵值 $\lambda_j$ 的代數重數為 $\beta_j$ 。將主對角特徵值矩陣 $\Lambda$ 以分塊形式表示為

$\Lambda=\begin{bmatrix} \lambda_1I_{\beta_1}&~&~\\ ~&\ddots&~\\ ~&~&\lambda_mI_{\beta_m} \end{bmatrix}$ 。

因為 $n$ 階方陣恰有 $n$ 個特徵值 (包含重複特徵值)，也就有 $\sum_{j=1}^m\beta_j=n$ 。若 $A$ 是可對角化的，對應每一特徵值 $\lambda_j$ 的幾何重數，即特徵空間 $N(A-\lambda_jI)$ 的維數，必等於代數重數 $\beta_j$ ，也就是說，我們總能夠找到 $\beta_j$ 個線性獨立的特徵向量。設 $n\times\beta_j$ 階矩陣 $X_j$ 的行向量由對應 $\lambda_j$ 的特徵向量組成，即 $C(X_j)=N(A-\lambda_jI)$ 且 $\dim C(X_j)=\beta_j$ ，故特徵向量矩陣 $S$ 可以表示為

$S=\begin{bmatrix} X_1&\cdots&X_m \end{bmatrix}$ 。

將 $S^{-1}$ 也寫為分塊形式，如下：

$S^{-1}=\begin{bmatrix} Y_1^T\\ \vdots\\ Y_m^T \end{bmatrix}$ ，

其中分塊 $Y_j^T$ 為 $\beta_j\times n$ 階矩陣。代入分塊矩陣計算 $A=S\Lambda S^{-1}$ ，可得

$\begin{aligned} A&=S\Lambda S^{-1}\\ &=\begin{bmatrix} X_1&\cdots&X_m \end{bmatrix}\begin{bmatrix} \lambda_1I_{\beta_1}&~&~\\ ~&\ddots&~\\ ~&~&\lambda_mI_{\beta_m} \end{bmatrix}\begin{bmatrix} Y_1^T\\ \vdots\\ Y_m^T \end{bmatrix}\\ &=\lambda_1X_1Y^T_1+\cdots+\lambda_mX_mY^T_m\\ &=\lambda_1P_1+\cdots+\lambda_mP_m.\end{aligned}$

可對角化矩陣的譜分解就是將 $A$ 分解為特徵向量構造的 $P_j=X_jY_j^T$ 分量，而特徵值 $\lambda_j$ 即為線性組合的係數。另外，在不計算特徵向量的情況下，譜分解矩陣 $P_j$ 可由下式算得 (見“矩陣函數 (上)”)：

$\displaystyle P_j=\prod_{i\neq j}\left(\frac{A-\lambda_iI}{\lambda_j-\lambda_i}\right),~~1\le j\le m.$

譜分解的價值在於 $P_j$ 擁有下列不尋常的性質：

$P_j^2=P_j$ ， $j=1,\ldots,m$ 。
若 $i\neq j$ ， $P_iP_j=0$ 。
$P_1+\cdots+P_m=I.$

證明僅需使用基礎矩陣代數。因為 $S=\begin{bmatrix} X_1&\cdots&X_m \end{bmatrix}$ ， $S^{-1}=\begin{bmatrix} Y_1^T\\ \vdots\\ Y_m^T \end{bmatrix}$ ，將 $S^{-1}S=I$ 乘開，比較等號兩邊可以確認 $Y_j^TX_j=I_{\beta_j}$ ， $Y_i^TX_j=0 (i\neq j)$ 。使用上面等式，可得 $P_j^2=X_j(Y_j^TX_j)Y_j^T=X_jY_j^T=P_j$ ，且若 $i\neq j$ ， $P_iP_j=X_i(Y_i^TX_j)Y_j^T=0$ 。另一方面，乘開 $SS^{-1}=I$ ，可導出 $\sum_{j=1}^mX_jY_j^T=\sum_{j=1}^mP_j=I$ 。

由性質1我們知道 $P_j$ 是對應特徵值 $\lambda_j$ 的投影矩陣，稱為冪等 (idempotent) 矩陣 (見“特殊矩陣 (5)：冪等矩陣”)，也稱為譜投影算子 (spectral projector)。透過行空間分析可以深入理解譜投影算子 $P_j$ 的幾何意義，下面是主要結果：

(a) $P_j$ 是沿著子空間 $C(A-\lambda_jI)$ 至特徵空間 $N(A-\lambda_jI)$ 的唯一投影矩陣 (見“直和與投影”)，亦即 $C(P_j)=N(A-\lambda_jI)$ 且 $N(P_j)=C(A-\lambda_jI)$ 。這個結果同時表明可對角化矩陣有唯一的譜分解。

(b) 若 $i\neq j$ ， $C(P_i)$ 和 $C(P_j)$ 不交集，即 $C(P_i)\cap C(P_j)=\{\mathbf{0}\}$ 。

證明這三個性質需要靈活運用向量空間分析技巧，包括矩陣乘積的子空間關係、直和以及秩—零度定理。欲證明 (a)，運用矩陣乘積的行空間變化性質 $C(AB)\subseteq C(A)$ (見“矩陣乘積的子空間分析”) 可得

$C(P_j)=C(X_jY_j^T)\subseteq C(X_j)$ 。

再使用關係式 $Y_j^TX_j=I_{\beta_j}$ ，就有

$C(X_j)=C(X_jY_j^TX_j)=C(P_jX_j)\subseteq C(P_j)$ ，

故 $C(P_j)=C(X_j)=N(A-\lambda_jI)$ 。利用矩陣譜分解及性質2和3，

$P_j(A-\lambda_jI)=P_j\displaystyle\left(\sum_{i=1}^m\lambda_iP_i-\lambda_j\sum_{i=1}^mP_i\right)=\lambda_jP_j^2-\lambda_jP_j^2=0$ ，

這指出 $C(A-\lambda_jI)\subseteq N(P_j)$ 。利用前面結果 $C(P_j)=N(A-\lambda_jI)$ ，連續使用兩次秩—零度定理可推得

$\dim C(A-\lambda_jI)=n-\dim N(A-\lambda_jI)=n-\dim C(P_j)=\dim N(P_j)$ ，

由此可知 $N(P_j)=C(A-\lambda_jI)$ 。欲證明 (b)，設 $\mathbf{x}\in C(P_i)\cap C(P_j)$ ， $i\neq j$ ，亦即存在 $\mathbf{y}$ 和 $\mathbf{z}$ 使得 $\mathbf{x}=P_i\mathbf{y}=P_j\mathbf{z}$ ，利用性質 (1-2) 就得到

$\mathbf{x}=P_i^2\mathbf{y}=P_i\mathbf{x}=P_iP_j\mathbf{z}=\mathbf{0}$ 。

最後證明陳述 (c)。若 $i\neq j$ ， $C(P_i)\cap C(P_j)=\mathcal{O}$ 等價於 $C(P_i)+C(P_j)=C(P_i)\oplus C(P_j)$ (見“補子空間與直和”)，也就滿足 $\dim (C(P_i)+C(P_j))=\dim C(P_i)+\dim C(P_j)$ 。再者， $C(P_i+P_j)\subseteq C(P_i)+C(P_j)$ ，利用性質3，

$C(I_n)=C(P_1+\cdots+P_m)\subseteq C(P_1)+\cdots+C(P_m)=C(P_1)\oplus\cdots\oplus C(P_m)\subseteq \mathbb{C}^n$ 。

上式中，子空間維數滿足 $n\le\dim C(P_1)+\cdots+\dim C(P_m)\le n$ ，證得 $n=\sum_{j=1}^m\dim C(P_j)$ 。

可對角化矩陣的譜分解常見於實對稱矩陣或 Hermitian 矩陣，理由是這兩種矩陣同屬正規矩陣，滿足 $AA^{\ast}=A^{\ast}A$ 。正規矩陣的特性是可么正對角化 (見“特殊矩陣(2)：正規矩陣”)，也就是說，正規矩陣的譜分解為

$A=U\Lambda U^{\ast}=\lambda_1P_1+\cdots+\lambda_mP_m$ ，

其中 $U$ 為么正矩陣 (unitary matrix) 滿足 $U^{\ast}U=I$ 。因為 $P_j^{\ast}=(X_jX_j^{\ast})^{\ast}=X_jX_j^{\ast}=P_j$ ， $P_j$ 為正交投影算子。除了前述三個性質，正交投影算子還滿足 $C(P_i)\perp C(P_j)$ ， $i\neq j$ 。證明很簡單，設 $\mathbf{x}\in C(P_i)$ ， $\mathbf{y}\in C(P_j)$ ，就有 $P_i\mathbf{x}=\mathbf{x}$ ， $P_j\mathbf{y}=\mathbf{y}$ ，計算內積發現 $\mathbf{x}$ 和 $\mathbf{y}$ 正交：

$\mathbf{x}^{\ast}\mathbf{y}=(P_i\mathbf{x})^{\ast}(P_j\mathbf{y})=\mathbf{x}^{\ast}P_i^{\ast}P_j\mathbf{y}=\mathbf{x}^{\ast}(P_iP_j)\mathbf{y}=0$ 。

可對角化矩陣譜分解的主要應用在於計算矩陣函數和解決跟交換律有關的矩陣分析問題，請讀者參閱下面的文章。

5 Responses to 可對角化矩陣的譜分解

fkdds says:

06/08/2013 at 10:04 pm

不好意思
想在這裡請問一下教授
我在我們講義發現談論這個主題所提出的例子都是對稱矩陣
對於一般的可對角化矩陣並沒有提到
是為什麼呢?
如果問的問題太糟糕還請教授包涵

- ccjou says:
  
  06/09/2013 at 8:17 am
  
  所謂我們講義是指我的”教學光碟”的講義本嗎?如果是的話，應該沒有你提到的情況發生。如果不是的話，一時我也猜不透是什麼原因。
  
  - fkdds says:
    
    06/09/2013 at 12:22 pm
    
    感謝教授回復
    講義是指我的線代教授根據原文書所編出的講義
    我有去翻閱過原文書發現原文書的例子也是只有對稱矩陣
    
    - ccjou says:
      
      06/09/2013 at 2:30 pm
      
      我想到的唯一一個理由是”方便”，因為對稱矩陣可正交對角化。其實要設計非對稱且含整數元的可對角化矩陣並不困難：首先選定特徵值，建立一對角矩陣，如 $D=\hbox{diag}(1,2,2)$ 。挑選一上三角矩陣，令主對角元為1或-1，其餘元可為任意整數，如此行列式等於1或-1；接著對此上三角矩陣隨意執行若干次高斯消去法的取代或交換運算，行列式的絶對值仍為1。令結果為P。最後算出 $PDP^{-1}$ ，此矩陣相似於D，且每一元都是整數。
      
fkdds says:

06/09/2013 at 4:23 pm

感謝教授解惑

	xmj on 內積的定義
	Ning ChingSan on 線性代數的第一堂課──矩陣乘法的定義
	momo on 兩岸線性代數用詞參照
	訪客 on 克拉瑪公式的簡易幾何證明
	悟 on 條件機率與貝氏定理
	jeremy on 內積與外積是怎麼來的？