實矩陣的分塊三角化與分塊對角化

本文的閱讀等級:中級

實係數多項式未必存在實根,例如,x^2+1=0。專業的數學語彙是實數體 \mathbb{R} 並非一個代數閉體 (algebraically closed field)。這個事實表現在實矩陣可能不存在實特徵值,如下例,

\displaystyle  A=\left[\!\!\begin{array}{cr}  a&-b\\  b&a  \end{array}\!\!\right]

其中 ab 是實數且 b\neq 0。不難驗證 A 有共軛特徵值 a\pm ib,其中 i=\sqrt{-1}。在矩陣理論中,Schur 定理表明任一 n\times n 階矩陣 A 必可通過相似變換三角化為 U^\ast AU=T,其中 T 是一上三角矩陣,U 是一么正 (unitary) 矩陣,滿足 U^\ast U=I (見“矩陣三角化的 Schur 定理”)。考慮 A 是實矩陣的情況。若 A 的特徵值都是實數,則 T 為實矩陣且 U 為實正交 (orthogonal) 矩陣,U^TU=I。以下實正交矩陣簡稱為正交矩陣。若 A 有複 (共軛) 特徵值,則 UT 都是複矩陣。在此情況下,如果我們要求 U 是正交矩陣,則 T 不再是複上三角矩陣,本文將證明 T 可以簡化至一個實分塊上三角矩陣。更進一步,若 A 是可對角化矩陣,則存在一可逆矩陣 S,使得 S^{-1}AS 為一實分塊對角矩陣。以下令

\displaystyle   \sigma(A)=\{\lambda\vert~ A\mathbf{x}=\lambda\mathbf{x},\mathbf{x}\in\mathbb{C}^n,\mathbf{x}\neq\mathbf{0}\}

稱為矩陣譜 (spectrum),即 A 的所有特徵值形成的集合。

 
實分塊三角化定理:對於任一 n\times n 階實矩陣 A,存在一正交矩陣 U 和實矩陣 B_{ij} 使得

\displaystyle  U^TAU=\begin{bmatrix}  B_{11}&B_{12}&\cdots&B_{1k}\\  0&B_{22}&\cdots&B_{2k}\\  \vdots&\vdots&\ddots&\vdots\\  0&0&\cdots&B_{kk}  \end{bmatrix}=T

其中 B_{jj}1\times 12\times 2 階。若 B_{jj}=[\lambda_j]1\times 1 階,則 \sigma(B_{jj})=\{\lambda_j\}\subseteq\sigma(A);若 B_{jj}2\times 2 階,則 \sigma(B_{jj})=\{\lambda_j,\overline{\lambda}_j\}\subseteq\sigma(A)

 
為方便說明,我們稱上述分塊上三角矩陣 T 為實 Schur 形式,故此定理可以簡述為任一實矩陣皆正交相似於一實 Schur 形式。我們用數學歸納法來證明。當 n=1,命題顯然成立。對於 n>1,假設 (n-1)\times(n-1) 階矩陣正交相似於一實 Schur 形式。考慮 n\times n 階矩陣 A。下面分別討論實特徵值和複特徵值。

(1) 若 A 有一實特徵值 \lambda,對應實特徵向量 \mathbf{x}\Vert\mathbf{x}\Vert=1,設 Householder 矩陣 H=I-2\mathbf{v}\mathbf{v}^T,其中 \mathbf{v}=(\mathbf{x}-\mathbf{e}_1)/\Vert\mathbf{x}-\mathbf{e}_1\Vert\mathbf{e}_1=(1,0,\ldots,0)^T。直接計算可證明 H=H^T=H^{-1}H\mathbf{x}=\mathbf{e}_1 (見“Householder 變換於 QR 分解的應用”)。因為 H^2=I,可得 \mathbf{x}=H\mathbf{e}_1,表明 H 的第一個行向量為 \mathbf{x}。寫出 H=\begin{bmatrix}  \mathbf{x}&V  \end{bmatrix},則

\displaystyle  HAH=HA\begin{bmatrix}  \mathbf{x}&V  \end{bmatrix}=H\begin{bmatrix}  \lambda\mathbf{x}&AV  \end{bmatrix}=\begin{bmatrix}  \lambda\mathbf{e}_1&H^TAV  \end{bmatrix}=\begin{bmatrix}  \lambda&\mathbf{x}^TAV\\  \mathbf{0}&V^TAV  \end{bmatrix}

因為 V^TAV(n-1)\times (n-1) 階分塊,根據歸納假設,存在一正交矩陣 \tilde{U} 使得 \tilde{U}^T(V^TAV)\tilde{U}=\tilde{T} 為實 Schur 形式。設 U=H\begin{bmatrix}  1&\mathbf{0}^T\\  \mathbf{0}&\tilde{U}  \end{bmatrix},不難確認 U^TU=I,且

\displaystyle\begin{aligned}  U^TAU&=\begin{bmatrix}  1&\mathbf{0}^T\\  \mathbf{0}&\tilde{U}^T  \end{bmatrix}HAH\begin{bmatrix}  1&\mathbf{0}^T\\  \mathbf{0}&\tilde{U}  \end{bmatrix}\\  &=\begin{bmatrix}  1&\mathbf{0}^T\\  \mathbf{0}&\tilde{U}^T  \end{bmatrix}\begin{bmatrix}  \lambda&\mathbf{x}^TAV\\  \mathbf{0}&V^TAV  \end{bmatrix}\begin{bmatrix}  1&\mathbf{0}^T\\  \mathbf{0}&\tilde{U}  \end{bmatrix}\\  &=\begin{bmatrix}  \lambda&\mathbf{x}^TAV\tilde{U}\\  \mathbf{0}&\tilde{U}^TV^TAV\tilde{U}  \end{bmatrix}=\begin{bmatrix}  \lambda&\mathbf{x}^TAV\tilde{U}\\  \mathbf{0}&\tilde{T}  \end{bmatrix}=T  \end{aligned}

具有實 Schur 形式。

(2) 若 A 有複共軛特徵值 \lambda\overline{\lambda},則對應的特徵向量亦存在共軛關係 (見“解讀複特徵值”),故可設特徵向量分別為 \mathbf{x}\overline{\mathbf{x}}。因為 \lambda\neq\overline{\lambda}\{\mathbf{x},\overline{\mathbf{x}}\} 是線性獨立集。寫出 \mathbf{x}=\mathbf{u}+i\mathbf{v},其中 \mathbf{u}=\text{Re}(\mathbf{x})\mathbf{v}=\text{Im}(\mathbf{x}),則 \{\mathbf{u},\mathbf{v}\} 也是線性獨立集,否則 \mathbf{v}=c\mathbf{u} 意味 \mathbf{x}=(1+ic)\mathbf{u}\overline{\mathbf{x}}=(1-ci)\mathbf{u},違反 \mathbf{x}\overline{\mathbf{x}} 的線性獨立性。令 \lambda=a-iba,b\in\mathbb{R}b\neq 0。特徵方程 A\mathbf{x}=\lambda\mathbf{x} 可表示為 \displaystyle  A(\mathbf{u}+i\mathbf{v})=(a-ib)(\mathbf{u}+i\mathbf{v}),乘開並分離實部和虛部,可得

\displaystyle\begin{aligned}  A\mathbf{u}&=a\mathbf{u}+b\mathbf{v}\\  A\mathbf{v}&=-b\mathbf{u}+a\mathbf{v}.\end{aligned}

將二式合併為

\displaystyle  AW=W\left[\!\!\begin{array}{cr}  a&-b\\  b&a  \end{array}\!\!\right]

其中 W=\begin{bmatrix}  \mathbf{u}&\mathbf{v}  \end{bmatrix}。令 W 的 QR 分解為 W=QR,其中 Qn\times 2 階矩陣,滿足 Q^TQ=I_2R2\times 2 階可逆上三角矩陣 (見“線代膠囊──QR 分解”)。將 QR 分解代入上式,AQR=QR \left[\!\!\begin{array}{cr}  a&-b\\  b&a  \end{array}\!\!\right],左乘 Q^T,右乘 R^{-1},就有

\displaystyle  Q^TAQ=R\left[\!\!\begin{array}{cr}  a&-b\\  b&a  \end{array}\!\!\right]R^{-1}=B

其中 \sigma(B)=\{\lambda,\overline{\lambda}\}。設 \begin{bmatrix}  Q&V  \end{bmatrix} 為一正交矩陣,其中 n\times(n-2) 階矩陣 V 滿足 V^TV=I_{n-2}V^TQ=0,即有 V^TAQ=V^TQB=0。因為 V^TAV(n-2)\times (n-2) 階矩陣,根據歸納假設,存在一正交矩陣 \tilde{U} 使得 \tilde{U}^T(V^TAV)\tilde{U}=\tilde{T} 為實 Schur 形式。設 U=\begin{bmatrix}  Q&V  \end{bmatrix}\begin{bmatrix}  I_2&0\\  0&\tilde{U}  \end{bmatrix},直接計算可證明 U^TAU 具有實 Schur 形式:

\displaystyle\begin{aligned}  U^TAU&=\begin{bmatrix}  I_2&0\\  0&\tilde{U}^T  \end{bmatrix}\begin{bmatrix}  Q^T\\V^T  \end{bmatrix}A\begin{bmatrix}  Q&V  \end{bmatrix}\begin{bmatrix}  I_2&0\\  0&\tilde{U}  \end{bmatrix}\\  &=\begin{bmatrix}  I_2&0\\  0&\tilde{U}^T  \end{bmatrix}\begin{bmatrix}  Q^TAQ&Q^TAV\\  V^TAQ&V^TAV  \end{bmatrix}\begin{bmatrix}  I_2&0\\  0&\tilde{U}  \end{bmatrix}\\  &=\begin{bmatrix}  I_2&0\\  0&\tilde{U}^T  \end{bmatrix}\begin{bmatrix}  B&Q^TAV\\  0&V^TAV  \end{bmatrix}\begin{bmatrix}  I_2&0\\  0&\tilde{U}  \end{bmatrix}\\  &=\begin{bmatrix}  B&Q^TAV\tilde{U}\\  0&\tilde{U}^TV^TAV\tilde{U}  \end{bmatrix}=\begin{bmatrix}  B&Q^TAV\tilde{U}\\  0&\tilde{T}  \end{bmatrix}=T.\end{aligned}

 
利用實分塊三角化定理很容易證明實對稱矩陣可正交對角化 (見“實對稱矩陣可正交對角化的證明”)。若 A 為一實對稱矩陣,則 A^T=(UTU^T)^T=UT^TU^T=UTU^T=A,立得 T^T=T,也就有 B_{ij}=0i\neq j,且 B_{jj}^T=B_{jj}1\le j\le k。實對稱矩陣的特徵值必為實數,可知 \sigma(B_{jj}) 為一個實數集,換句話說,所有的主對角分塊 B_{jj} 都是 1\times 1 階,證明 T 是一對角矩陣。另一方面,如果 A 是一反對稱矩陣 (見“特殊矩陣 (13): 反對稱矩陣”),即 A^T=-A,則 T^T=-T,也就有 B_{ij}=0i\neq j,且 B_{jj}^T=-B_{jj}1\le j\le k。若 B_{jj}1\times 1 階,則 B_{jj}=[0];若 B_{jj}2\times 2 階,則 B_{jj}=\begin{bmatrix}  0&-b_j\\  b_j&0  \end{bmatrix}。所以反對稱矩陣的特徵值必定是零或共軛純虛數。

 
實分塊對角化定理:若 n\times n 階實矩陣 A 可對角化,則存在一可逆實矩陣 S 和實矩陣 B_{j} 使得

\displaystyle  S^{-1}AS=\begin{bmatrix}  B_{1}&0&\cdots&0\\  0&B_{2}&\cdots&0\\  \vdots&\vdots&\ddots&\vdots\\  0&0&\cdots&B_{k}  \end{bmatrix}

其中 B_{j}1\times 12\times 2 階。若 B_{j}=[\lambda_j]1\times 1 階,則 \sigma(B_{j})=\{\lambda_j\}\subseteq\sigma(A);若 B_{j}2\times 2 階,則 \sigma(B_{j})=\{\lambda_j,\overline{\lambda}_j\}\subseteq\sigma(A)

 
假設 n\times n 階實矩陣 Ar 個實特徵值 \mu_1,\ldots,\mu_r,對應實特徵向量 \mathbf{x}_1,\ldots,\mathbf{x}_r,並有 2s 個複共軛特徵值 \lambda_1,\overline{\lambda}_1,\ldots,\lambda_s,\overline{\lambda}_s,對應複共軛特徵向量 \mathbf{y}_1,\overline{\mathbf{y}}_1,\ldots,\mathbf{y}_s,\overline{\mathbf{y}}_s,其中 r+2s=n。因為 A 可對角化,特徵向量矩陣 P=\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_r&\mathbf{y}_1&\overline{\mathbf{y}}_1&\cdots&\mathbf{y}_s&\overline{\mathbf{y}}_s  \end{bmatrix} 必定可逆。令 \lambda_j=a_j-ib_ja_j,b_j\in\mathbb{R}b_j\neq 0,且 \mathbf{y}_j=\mathbf{u}_j+i\mathbf{v}_j,其中 \mathbf{u}_j=\text{Re}(\mathbf{y}_j)\mathbf{v}_j=\text{Im}(\mathbf{y}_j)1\le j\le s。下面證明 S=\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_r&\mathbf{u}_1&\mathbf{v}_1&\cdots&\mathbf{u}_s&\mathbf{v}_s  \end{bmatrix} 亦為可逆矩陣。令 R=\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_r  \end{bmatrix}。若 s=1,則 S=\begin{bmatrix}  R&\mathbf{u}_1&\mathbf{v}_1  \end{bmatrix}。利用行列式基本性質,

\displaystyle\begin{aligned}  \det P&=\det\begin{bmatrix}  R&\mathbf{y}_1&\overline{\mathbf{y}}_1  \end{bmatrix}=\det\begin{bmatrix}  R&\mathbf{u}_1+i\mathbf{v}_1&\mathbf{u}_1-i\mathbf{v}_1  \end{bmatrix}\\  &=\det\begin{bmatrix}  R&\mathbf{u}_1&\mathbf{u}_1  \end{bmatrix}+\det\begin{bmatrix}  R&\mathbf{u}_1&-i\mathbf{v}_1  \end{bmatrix}+\det\begin{bmatrix}  R&i\mathbf{v}_1&\mathbf{u}_1  \end{bmatrix}+\det\begin{bmatrix}  R&i\mathbf{v}_1&-i\mathbf{v}_1  \end{bmatrix}\\  &=-i\det\begin{bmatrix}  R&\mathbf{u}_1&\mathbf{v}_1  \end{bmatrix}+i\det\begin{bmatrix}  R&\mathbf{v}_1&\mathbf{u}_1  \end{bmatrix}\\  &=-i\det\begin{bmatrix}  R&\mathbf{u}_1&\mathbf{v}_1  \end{bmatrix}-i\det\begin{bmatrix}  R&\mathbf{u}_1&\mathbf{v}_1  \end{bmatrix}=2(-i)\det S.  \end{aligned}

按此方式可歸納 \det P=2^s(-i)^s\det S,故 \det S\neq 0。接著我們整理出所有的特徵方程,乘開 A(\mathbf{u}_j+i\mathbf{v}_j)=(a_j-ib_j)(\mathbf{u}_j+i\mathbf{v}_j),比較等號兩邊的實部和虛部,可得

\displaystyle\begin{aligned}  A\mathbf{x}_i&=\mu_i\mathbf{x}_i,~~i=1,\ldots,r\\  A\mathbf{u}_j&=a_j\mathbf{u}_j+b_j\mathbf{v}_j,~~j=1,\ldots,s\\  A\mathbf{v}_j&=-b_j\mathbf{u}_j+a_j\mathbf{v}_j,~~j=1,\ldots,s.  \end{aligned}

將上面 n 個式子合併成矩陣形式:

\displaystyle\begin{aligned}  AS&=A\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_r&\mathbf{u}_1&\mathbf{v}_1&\cdots&\mathbf{u}_s&\mathbf{v}_s  \end{bmatrix}\\  &=\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_r&\mathbf{u}_1&\mathbf{v}_1&\cdots&\mathbf{u}_s&\mathbf{v}_s  \end{bmatrix}\left[\!\!\begin{array}{ccccrccr}  \mu_1&&&&&&&\\  &\ddots&&&&&&\\  &&\mu_r&&&&&\\  &&&a_1&-b_1&&&\\  &&&b_1&a_1&&&\\  &&&&&\ddots&&\\  &&&&&&a_s&-b_s\\  &&&&&&b_s&a_s  \end{array}\!\!\right].\end{aligned}

所以,

\displaystyle  S^{-1}AS=\begin{bmatrix}  D&&&\\  &B_1&&\\  &&\ddots&\\  &&&B_s  \end{bmatrix}

其中 D=\text{diag}(\mu_1,\ldots,\mu_r)B_j=\left[\!\!\begin{array}{cr}  a_j&-b_j\\  b_j&a_j  \end{array}\!\!\right]1\le j\le s

廣告
本篇發表於 特徵分析, 線性代數專欄 並標籤為 , , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s