可對角化矩陣的譜分解

本文的閱讀等級:中級

在矩陣分析中,對角化 (diagonalization) 是一個非常重要的概念與工具。如果 n\times n 階矩陣 A 相似於一個對角矩陣,我們稱 A 是可對角化矩陣 (diagonalizable matrix),具體地說,存在一個同階可逆矩陣 S 使得 \Lambda=S^{-1}AS 為對角矩陣,意味矩陣 A 可分解為 A=S\Lambda S^{-1}。矩陣的對角化與特徵分析有密切的關係,對角矩陣 \Lambda=\hbox{diag}(\lambda_1,\ldots,\lambda_n) 的主對角元 \lambda_iA 的特徵值,而對角化的變換矩陣 S 的行向量 (column vector) \mathbf{x}_i 為對應特徵值 \lambda_i 的特徵向量,i=1,\ldots,n。可對角化矩陣的直觀解釋是如果以特徵向量 \{\mathbf{x}_1,\ldots,\mathbf{x}_n\} 當作基底,則參考這組基底的線性變換表示矩陣,即特徵值矩陣 \Lambda,具有最簡約的主對角形式。本文介紹可對角化矩陣的另一個分解表達式,稱為譜分解 (spectral decomposition) 或譜定理,它的特點是能夠表現更豐富的幾何意義,同時也具備簡化可對角化矩陣函數計算的功用 (見“矩陣函數 (上)”)。

 
我先用一個例子說明可對角化矩陣的譜分解計算過程。考慮 3\times 3 階矩陣

A=\left[\!\!\begin{array}{rrr}    -5&-6&-9\\    3&4&9\\    0&0&-2    \end{array}\!\!\right]

矩陣 A 有特徵值 \lambda_1=1,相重數為 1\lambda_2=-2,相重數為 2,或者說特徵多項式為 p_A(t)=\det(A-tI)=-(t-1)(t+2)^2。特徵值的相重數也稱為代數重數 (algebraic multiplicity)。特徵空間 N(A-\lambda_1I) (即 A-\lambda_1I 的零空間) 的基底為對應特徵值 \lambda_1=1 的特徵向量,

N(A-\lambda_1I)=\mathrm{span}\left\{\left[\!\!\begin{array}{r}    1\\    -1\\    0    \end{array}\!\!\right]\right\}

另由 N(A-\lambda_2I) 求出對應特徵值 \lambda_2=-2 的兩個線性獨立特徵向量,

N(A-\lambda_2I)=\mathrm{span}\left\{\left[\!\!\begin{array}{r}    -1\\    2\\    -1    \end{array}\!\!\right],\left[\!\!\begin{array}{r}    1\\    1\\    -1    \end{array}\!\!\right]\right\}

可對角化矩陣最直接的判定方法是 A 擁有完整的 n 個線性獨立特徵向量,另一個等價檢查條件是每一特徵值 \lambda_i 的代數重數都等於特徵空間維數,\dim N(A-\lambda_iI),稱為幾何重數 (參閱“可對角化矩陣與缺陷矩陣的判定”)。本例 A 符合上述條件,故為可對角化矩陣。令 \Lambda=\text{diag}(1,-2,-2)。將對應的特徵向量依序合併成特徵向量矩陣

S=\left[\!\!\begin{array}{rrr}    1&-1&1\\    -1&2&1\\    0&-1&-1    \end{array}\!\!\right]

因為 S 有線性獨立的行向量,S 是可逆矩陣,即

S^{-1}=\left[\!\!\begin{array}{rrr}    -1&-2&-3\\    -1&-1&-2\\    1&1&1    \end{array}\!\!\right]

接著,將特徵方程 AS=S\Lambda 改寫為 A=S\Lambda S^{-1},代入數值並以行列乘法展開矩陣乘積,可得

\begin{aligned}  A&=\left[\!\!\begin{array}{rrr}    1&-1&1\\    -1&2&1\\    0&-1&-1    \end{array}\!\!\right]\left[\!\!\begin{array}{crr}    1&0&0\\    0&-2&0\\    0&0&-2    \end{array}\!\!\right]\left[\!\!\begin{array}{rrr}    -1&-2&-3\\    -1&-1&-2\\    1&1&1    \end{array}\!\!\right]\\    &=1\left[\!\!\begin{array}{r}    1\\    -1\\    0    \end{array}\!\!\right]\begin{bmatrix}    -1&-2&-3    \end{bmatrix}+(-2)\left[\!\!\begin{array}{r}    -1\\    2\\    -1    \end{array}\!\!\right]\begin{bmatrix}    -1&-1&-2    \end{bmatrix}+ (-2)\left[\!\!\begin{array}{r}    1\\    1\\    -1    \end{array}\!\!\right]\begin{bmatrix}    1&1&1    \end{bmatrix}.\end{aligned}

提出相同係數 -2,整理後就得到下面的譜分解式:

A=\left[\!\!\begin{array}{rrr}    -1&-2&-3\\    1&2&3\\    0&0&0    \end{array}\!\!\right]+(-2)\left[\!\!\begin{array}{rrr}    2&2&3\\    -1&-1&-3\\    0&0&1    \end{array}\!\!\right]

 
我們定義矩陣譜 (spectrum) \{\lambda_1,\ldots,\lambda_m\}n\times n 階矩陣 A 的相異特徵值所形成的集合。令特徵值 \lambda_j 的代數重數為 \beta_j。將主對角特徵值矩陣 \Lambda 以分塊形式表示為

\Lambda=\begin{bmatrix}    \lambda_1I_{\beta_1}&~&~\\    ~&\ddots&~\\    ~&~&\lambda_mI_{\beta_m}    \end{bmatrix}

因為 n 階方陣恰有 n 個特徵值 (包含重複特徵值),也就有 \sum_{j=1}^m\beta_j=n。若 A 可對角化,對應每一特徵值 \lambda_j 的幾何重數,即特徵空間 N(A-\lambda_jI) 的維數,必等於代數重數 \beta_j,也就是說,我們總能夠找到 \beta_j 個線性獨立的特徵向量。設 n\times\beta_j 階矩陣 X_j 的行向量由對應 \lambda_j 的特徵向量組成,即 C(X_j)=N(A-\lambda_jI)\dim C(X_j)=\beta_j,故特徵向量矩陣 S 可以表示為

S=\begin{bmatrix}    X_1&\cdots&X_m    \end{bmatrix}

S^{-1} 也寫為分塊形式,如下:

S^{-1}=\begin{bmatrix}    Y_1^T\\    \vdots\\    Y_m^T    \end{bmatrix}

其中分塊 Y_j^T\beta_j\times n 階矩陣。代入分塊矩陣計算 A=S\Lambda S^{-1},可得

\begin{aligned}  A&=S\Lambda S^{-1}\\  &=\begin{bmatrix}    X_1&\cdots&X_m    \end{bmatrix}\begin{bmatrix}    \lambda_1I_{\beta_1}&~&~\\    ~&\ddots&~\\    ~&~&\lambda_mI_{\beta_m}    \end{bmatrix}\begin{bmatrix}    Y_1^T\\    \vdots\\    Y_m^T    \end{bmatrix}\\    &=\lambda_1X_1Y^T_1+\cdots+\lambda_mX_mY^T_m\\  &=\lambda_1P_1+\cdots+\lambda_mP_m.\end{aligned}

可對角化矩陣的譜分解就是將 A 分解為特徵向量構造的 P_j=X_jY_j^T 分量,而特徵值 \lambda_j 即為線性組合的係數。另外,在不計算特徵向量的情況下,譜分解矩陣 P_j 可由下式算得 (見“矩陣函數 (上)”):

\displaystyle  P_j=\prod_{i\neq j}\left(\frac{A-\lambda_iI}{\lambda_j-\lambda_i}\right),~~1\le j\le m.

 
譜分解的價值在於 P_j 擁有下列不尋常的性質:

  1. P_j^2=P_jj=1,\ldots,m
  2. i\neq jP_iP_j=0
  3. P_1+\cdots+P_m=I.

證明僅需使用基礎矩陣代數。因為 S=\begin{bmatrix}    X_1&\cdots&X_m    \end{bmatrix}S^{-1}=\begin{bmatrix}    Y_1^T\\    \vdots\\    Y_m^T    \end{bmatrix},將 S^{-1}S=I 乘開,比較等號兩邊可以確認 Y_j^TX_j=I_{\beta_j}Y_i^TX_j=0 (i\neq j)。使用上面等式,可得 P_j^2=X_j(Y_j^TX_j)Y_j^T=X_jY_j^T=P_j,且若 i\neq jP_iP_j=X_i(Y_i^TX_j)Y_j^T=0。另一方面,乘開 SS^{-1}=I,可導出 \sum_{j=1}^mX_jY_j^T=\sum_{j=1}^mP_j=I

 
由性質1我們知道 P_j 是對應特徵值 \lambda_j 的投影矩陣,稱為冪等 (idempotent) 矩陣 (見“特殊矩陣 (5):冪等矩陣”),也稱為譜投影算子 (spectral projector)。透過行空間分析可以深入理解譜投影算子 P_j 的幾何意義,下面是主要結果:

(a) P_j 是沿著子空間 C(A-\lambda_jI) 至特徵空間 N(A-\lambda_jI) 的唯一投影矩陣 (見“直和與投影”),亦即 C(P_j)=N(A-\lambda_jI)N(P_j)=C(A-\lambda_jI)。這個結果同時表明可對角化矩陣有唯一的譜分解。

(b) 若 i\neq jC(P_i)C(P_j) 不交集,即 C(P_i)\cap C(P_j)=\{\mathbf{0}\}

(c) \dim C(P_1)+\cdots+\dim C(P_m)=n.

證明這三個性質需要靈活運用向量空間分析技巧,包括矩陣乘積的子空間關係、直和以及秩—零度定理。欲證明 (a),運用矩陣乘積的行空間變化性質 C(AB)\subseteq C(A) (見“矩陣乘積的子空間分析”) 可得

C(P_j)=C(X_jY_j^T)\subseteq C(X_j)

再使用關係式 Y_j^TX_j=I_{\beta_j},就有

C(X_j)=C(X_jY_j^TX_j)=C(P_jX_j)\subseteq C(P_j)

C(P_j)=C(X_j)=N(A-\lambda_jI)。利用矩陣譜分解及性質2和3,

P_j(A-\lambda_jI)=P_j\displaystyle\left(\sum_{i=1}^m\lambda_iP_i-\lambda_j\sum_{i=1}^mP_i\right)=\lambda_jP_j^2-\lambda_jP_j^2=0

這指出 C(A-\lambda_jI)\subseteq N(P_j)。利用前面結果 C(P_j)=N(A-\lambda_jI),連續使用兩次秩—零度定理可推得

\dim C(A-\lambda_jI)=n-\dim N(A-\lambda_jI)=n-\dim C(P_j)=\dim N(P_j)

由此可知 N(P_j)=C(A-\lambda_jI)。欲證明 (b),設 \mathbf{x}\in C(P_i)\cap C(P_j)i\neq j,亦即存在 \mathbf{y}\mathbf{z} 使得 \mathbf{x}=P_i\mathbf{y}=P_j\mathbf{z},利用性質 (1-2) 就得到

\mathbf{x}=P_i^2\mathbf{y}=P_i\mathbf{x}=P_iP_j\mathbf{z}=\mathbf{0}

最後證明陳述 (c)。若 i\neq jC(P_i)\cap C(P_j)=\mathcal{O} 等價於 C(P_i)+C(P_j)=C(P_i)\oplus C(P_j) (見“補子空間與直和”),也就滿足 \dim (C(P_i)+C(P_j))=\dim C(P_i)+\dim C(P_j)。再者,C(P_i+P_j)\subseteq C(P_i)+C(P_j),利用性質3,

C(I_n)=C(P_1+\cdots+P_m)\subseteq C(P_1)+\cdots+C(P_m)=C(P_1)\oplus\cdots\oplus C(P_m)\subseteq \mathbb{C}^n

上式中,子空間維數滿足 n\le\dim C(P_1)+\cdots+\dim C(P_m)\le n,證得 n=\sum_{j=1}^m\dim C(P_j)

 
可對角化矩陣的譜分解常見於實對稱矩陣或 Hermitian 矩陣,理由是這兩種矩陣同屬正規矩陣,滿足 AA^{\ast}=A^{\ast}A。正規矩陣的特性是可么正對角化 (見“特殊矩陣(2):正規矩陣”),也就是說,正規矩陣的譜分解為

A=U\Lambda U^{\ast}=\lambda_1P_1+\cdots+\lambda_mP_m

其中 U 為么正矩陣 (unitary matrix) 滿足 U^{\ast}U=I。因為 P_j^{\ast}=(X_jX_j^{\ast})^{\ast}=X_jX_j^{\ast}=P_jP_j 為正交投影算子。除了前述三個性質,正交投影算子還滿足 C(P_i)\perp C(P_j)i\neq j。證明很簡單,設 \mathbf{x}\in C(P_i)\mathbf{y}\in C(P_j),就有 P_i\mathbf{x}=\mathbf{x}P_j\mathbf{y}=\mathbf{y},計算內積發現 \mathbf{x}\mathbf{y} 正交:

\mathbf{x}^{\ast}\mathbf{y}=(P_i\mathbf{x})^{\ast}(P_j\mathbf{y})=\mathbf{x}^{\ast}P_i^{\ast}P_j\mathbf{y}=\mathbf{x}^{\ast}(P_iP_j)\mathbf{y}=0

 
可對角化矩陣譜分解的主要應用在於計算矩陣函數和解決跟交換律有關的矩陣分析問題,請讀者參閱下面的文章。

相關閱讀:
Advertisement
This entry was posted in 特徵分析, 線性代數專欄 and tagged , , , , , , , . Bookmark the permalink.

5 Responses to 可對角化矩陣的譜分解

  1. fkdds says:

    不好意思
    想在這裡請問一下教授
    我在我們講義發現談論這個主題所提出的例子都是對稱矩陣
    對於一般的可對角化矩陣並沒有提到
    是為什麼呢?
    如果問的問題太糟糕還請教授包涵

    • ccjou says:

      所謂我們講義是指我的”教學光碟”的講義本嗎?如果是的話,應該沒有你提到的情況發生。如果不是的話,一時我也猜不透是什麼原因。

      • fkdds says:

        感謝教授回復
        講義是指我的線代教授根據原文書所編出的講義
        我有去翻閱過原文書 發現原文書的例子也是只有對稱矩陣

        • ccjou says:

          我想到的唯一一個理由是”方便”,因為對稱矩陣可正交對角化。其實要設計非對稱且含整數元的可對角化矩陣並不困難:首先選定特徵值,建立一對角矩陣,如D=\hbox{diag}(1,2,2)。挑選一上三角矩陣,令主對角元為1或-1,其餘元可為任意整數,如此行列式等於1或-1;接著對此上三角矩陣隨意執行若干次高斯消去法的取代或交換運算,行列式的絶對值仍為1。令結果為P。最後算出PDP^{-1},此矩陣相似於D,且每一元都是整數。

  2. fkdds says:

    感謝教授解惑

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s