可對角化矩陣的譜分解──續篇(下)

本文的閱讀等級:中級

我們曾經在“可對角化矩陣的譜分解──續篇(上)”證明譜定理 (spectrum theorem) 的反向命題:若 n\times n 階矩陣 A 可表示為

\displaystyle   A=\lambda_1P_1+\cdots+\lambda_mP_m

其中 \lambda_1,\ldots,\lambda_m 為相異數,P_1,\ldots,P_m 是非零矩陣並滿足 P_iP_j=0i\neq j,以及 P_1+\cdots+P_m=I,則 A 可對角化 (若未註明階數,以下 I 表示 n\times n 階單位矩陣 I_n)。本文介紹一個採用建構式的證明,我們的思路是從給定條件先推論 P_i 是冪等 (idempotent) 矩陣,從而導出 A 的對角化形式 A=XDX^{-1},其中 D=\text{diag}(d_1,\ldots,d_n),每一 d_i\in\{\lambda_1,\ldots,\lambda_m\},表明 \lambda_1,\ldots,\lambda_mA 的特徵值,X 是特徵向量矩陣。這個證明所使用的線性代數定理與分析方法包括分塊矩陣的保秩變換、秩─零度定理、可對角化矩陣的成立條件、秩分解 (rank decomposition),以及透過相似變換用跡數來計算秩。為便於閱讀,我將證明分成幾個步驟。(本文的證明由網友Meiyue Shao提供,原始文本請見“Spectral_decomposition”。)

 
(1) P_1,\ldots,P_m 是冪等矩陣,即 P_i^2=P_i

使用 P_iP_j=0i\neq j,和 P_1+\cdots+P_m=I,可得

\displaystyle  P_i=P_iI=P_i(P_1+\cdots+P_m)=P_iP_1+\cdots+P_iP_m=P_i^2

 
(2) \text{rank}P_i+\text{rank}(I-P_i)=ni=1,\ldots,m

運用向量空間分析即可證明,請讀者參閱“特殊矩陣 (5):冪等矩陣”。下面介紹採用形如相合變換 (congruence transformation) S^TBS 的分塊矩陣運算證法,S 是可逆矩陣 (見“相合變換”)。寫出

\displaystyle  \begin{bmatrix}  I&0\\  I&I  \end{bmatrix}\begin{bmatrix}  P_i&0\\  0&I-P_i  \end{bmatrix}\begin{bmatrix}  I&I\\  0&I  \end{bmatrix}=\begin{bmatrix}  P_i&P_i\\  P_i&I  \end{bmatrix}

以及

\displaystyle  \begin{bmatrix}  I&-P_i\\  0&I  \end{bmatrix}\begin{bmatrix}  P_i&P_i\\  P_i&I  \end{bmatrix}\begin{bmatrix}  I&0\\  -P_i&I  \end{bmatrix}=\begin{bmatrix}  P_i-P_i^2&0\\  0&I  \end{bmatrix}

上面的變換矩陣皆可逆,故不改變矩陣秩,也就有

\displaystyle\begin{aligned}  \text{rank}P_i+\text{rank}(I-P_i)&=\text{rank}\begin{bmatrix}  P_i&0\\  0&I-P_i  \end{bmatrix}=\text{rank}\begin{bmatrix}  P_i&P_i\\  P_i&I  \end{bmatrix}\\  &=\text{rank}\begin{bmatrix}  P_i-P_i^2&0\\  0&I  \end{bmatrix}=\text{rank}\begin{bmatrix}  0&0\\  0&I  \end{bmatrix}=n.\end{aligned}

 
(3) 冪等矩陣 P_i 可對角化,且特徵值屬於 \{0,1\}i=1,\ldots,m

\muP_i 的特徵值。因為 P_i^2=P_i,可知 \mu^2=\mu,故 \mu=01,對應的特徵空間分別是 N(P_i)N(I-P_i),這裡 N(\cdot) 表示矩陣的零空間 (nullspace)。使用秩─零度定理 (見“使用輸入輸出模型活化秩─零度定理”),

\displaystyle  \text{rank}P_i=n-\dim N(P_i),~~\text{rank}(I-P_i)=n-\dim N(I-P_i)

令兩式相加,使用 (2) 可得 \dim N(P_i)+\dim N(I-P_i)=n,其中 \dim N(P_i)=\text{rank}(I-P_i)\dim N(I-P_i)=\text{rank}P_i 分別是特徵值 01 的幾何重數 (最大線性獨立的特徵向量數)。特徵值的幾何重數不大於代數重數 (特徵值的相重數) (見“幾何重數不大於代數重數的證明”),而所有相異特徵值的代數重數和等於矩陣的階數 n,推論特徵值 01 的代數重數等於幾何重數,所以 P_i 是可對角化矩陣 (見“可對角化矩陣與缺陷矩陣的判定”)。

 
(4) 存在 n\times k_i 階矩陣 X_iY_i 使得 P_i=X_iY_i^\ast,其中 k_i=\text{rank}P_i>0 (命題給定 P_i 為非零矩陣),i=1,\ldots,m

P_i 可對角化為

\displaystyle  P_i=Z_i\begin{bmatrix}  I_{k_i}&0\\  0&0  \end{bmatrix}Z_i^{-1}=\begin{bmatrix}  X_i &\tilde{X}_i  \end{bmatrix}\begin{bmatrix}  I_{k_i}&0\\  0&0  \end{bmatrix}\begin{bmatrix}  Y_i^\ast\\  \tilde{Y}_i^\ast  \end{bmatrix}=X_iY_i^\ast

其中 X_iY^\ast_i 稱為秩分解 (見“秩分解──目視行秩等於列秩”),X_i 由特徵向量矩陣 Z_i 的前 k_i 個行 (column) 組成,Y_i^\astZ_i^{-1} 的前 k_i 個列 (row) 組成。

 
(5) k_1+\cdots+k_m=n,即 \text{rank}P_1+\cdots+\text{rank}P_m=n

矩陣的跡數等於特徵值之和,由 (4) 可知 \text{trace}P_i=\text{trace}\begin{bmatrix}  I_{k_i}&0\\  0&0  \end{bmatrix}=k_i=\text{rank}P_i。所以,

\displaystyle\begin{aligned}  k_1+\cdots+k_m&=\text{trace}P_1+\cdots+\text{trace}P_m\\  &=\text{trace}(P_1+\cdots+P_m)\\  &=\text{trace}I_n=n.\end{aligned}

 
(6) X=\begin{bmatrix}  X_1&\cdots &X_m  \end{bmatrix}Y=\begin{bmatrix}  Y_1&\cdots&Y_m  \end{bmatrix}n\times n 階矩陣,且 XY^\ast=I

由 (4) 和 (5) 確定 XYn 階方陣,且

\displaystyle\begin{aligned}  XY^\ast&=\begin{bmatrix}  X_1&\cdots &X_m  \end{bmatrix}\begin{bmatrix}  Y_1^\ast\\  \vdots\\  Y_m^\ast  \end{bmatrix}\\  &=X_1Y_1^\ast+\cdots+X_mY_m^\ast\\  &=P_1+\cdots+P_m=I.\end{aligned}

(7) A 是可對角化矩陣。

由 (6),Y^\ast=X^{-1}。使用 (4),A 的對角化形式推導如下:

\displaystyle\begin{aligned}  A&=\lambda_1P_1+\cdots+\lambda_mP_m\\  &=\lambda_1X_1Y_1^\ast+\cdots+\lambda_mX_mY_m^\ast\\  &=\begin{bmatrix}  X_1&\cdots&X_m  \end{bmatrix}\begin{bmatrix}  \lambda_1I_{k_1}&&\\  &\ddots&\\  &&\lambda_mI_{k_m}  \end{bmatrix}  \begin{bmatrix}  Y_1^\ast\\  \vdots\\  Y_m^\ast  \end{bmatrix}\\  &=X\begin{bmatrix}  \lambda_1I_{k_1}&&\\  &\ddots&\\  &&\lambda_mI_{k_m}  \end{bmatrix}Y^\ast.  \end{aligned}

上式稱為譜分解 (spectral decomposition),表明 A 有相異的特徵值 \lambda_1,\ldots,\lambda_m (互異性已由命題給定),n\times k_i 階分塊 X_i 的行空間 ( P_i 的行空間) 即為對應 \lambda_i 的特徵空間 N(A-\lambda_iI)

 
最後再補充一個快捷的證法。令 n\times n 階矩陣 A 的相異特徵值為 \lambda_1,\ldots,\lambda_m,對應特徵值 \lambda_i 的代數重數為 k_i,指標 (index,最大 Jordan 分塊階數) 為 r_i。矩陣 A 可對角化等價於以下任一條件 (見“最小多項式 (下)”):

  1. 對於每一特徵值 \lambda_i,幾何重數都等於代數重數,即 \dim N(A-\lambda_i I)=k_i
  2. 對於每一特徵值 \lambda_i,對應指標皆為 r_i=1
  3. 矩陣 A 的 Jordan 形式的所有 (基本) Jordan 分塊階數皆為 1
  4. 最小多項式 (minimal polynomial) 為 m_A(t)= (t-\lambda_1)\cdots(t-\lambda_m)

我們可以利用最小多項式來證明 (3) 和 (2)。寫出 P_i(P_i-I)=0,立知 t(t-1)P_i 的一個消滅多項式 (或稱零化多項式)。因為不可能存在次數更小的消滅多項式,t(t-1)P_i 的最小多項式,由上述可對角化條件4:最小多項式不含重根推得 (3) P_i 可對角化。因此,特徵值 0 的幾何重數 \dim N(P_i) 與特徵值 1 的幾何重數 \dim N(I-P_i) 滿足 \dim N(P_i)+\dim N(I-P_i)=n。使用兩次秩─零度定理,可得 (2) 的矩陣秩公式:

\displaystyle\begin{aligned}  \text{rank}P_i+\text{rank}(I-P_i)&=n-\dim N(P_i)+\text{rank}(I-P_i)\\  &=\dim N(I-P_i)+\text{rank}(I-P_i)=n.\end{aligned}

 
既然最小多項式可證明冪等矩陣 P_i 可對角化,何不直接應用於證明譜定理?為方便說明,下面考慮 m=3 的情況:

\displaystyle  A=\lambda_1P_1+\lambda_2P_2+\lambda_3P_3

其中 P_iP_j=0i\neq j,且 P_1+P_2+P_3=I。我們的目標是證明

\displaystyle  (A-\lambda_1I)(A-\lambda_2I)(A-\lambda_3I)=0

即表明 A 的最小多項式為 (t-\lambda_1)(t-\lambda_2)(t-\lambda_3)。計算過程如下:

\displaystyle\begin{aligned}  &(A-\lambda_1I)(A-\lambda_2I)(A-\lambda_3I)\\  &=\left(\lambda_1(P_1-I)+\lambda_2P_2+\lambda_3P_3\right)\left(\lambda_1P_1+\lambda_2(P_2-I)+\lambda_3P_3\right)\left(\lambda_1P_1+\lambda_2P_2+\lambda_3(P_3-I)\right)\\  &=\left(-\lambda_1(P_2+P_3)+\lambda_2P_2+\lambda_3P_3\right)\left(\lambda_1P_1-\lambda_2(P_1+P_3)+\lambda_3P_3\right)\left(\lambda_1P_1+\lambda_2P_2-\lambda_3(P_1+P_2)\right)\\  &=\left((\lambda_2-\lambda_1)P_2+(\lambda_3-\lambda_1)P_3\right)\left((\lambda_1-\lambda_2)P_1+(\lambda_3-\lambda_2)P_3\right)\left((\lambda_1-\lambda_3)P_1+(\lambda_2-\lambda_3)P_2\right)\\  &=0,  \end{aligned}

最後一個等式乃因所有展開項都包含 P_iP_ji\neq j。對於一般情況,1\le m\le n,不難確認 (A-\lambda_1I)\cdots(A-\lambda_mI)=0 同樣成立。

 
從冪等矩陣出發到最終推得對角化形式的論證過程包含七個步驟,看似大費周章。最小多項式證法一蹴可幾,既省時又省力,何樂而不為?速度與效率並非檢驗事物良窳的唯一標準,我們往往還要考量行為背後的動機與目的。就學習而論,我的想法是乘坐直升機登玉山還不如一步一腳印慢走塔塔加鞍部步道欣賞沿途的綺麗風光來得有趣。

Advertisement
This entry was posted in 特徵分析, 線性代數專欄 and tagged , , , . Bookmark the permalink.

5 Responses to 可對角化矩陣的譜分解──續篇(下)

  1. kobe says:

    非常感谢您的分享,我是在中国大陆百度做数据挖掘的工程师,请问您能共享您的pdf文件或课件吗

  2. says:

    您好,请教一个肤浅的问题:算子和矩阵一样吗?共轭算子和共轭矩阵呢?谢谢 Regan

  3. Regan Yuan says:

    请教老师一个肤浅的问题,算子和矩阵有什么不一样?二者可等同吗?共轭算子和共轭矩阵呢?谢谢

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s