二對稱矩陣分解

本文的閱讀等級:中級

因為近代線性代數教科書隻字不提,多數人可能從未聽聞過這個定理:任一實方陣 A 可分解為兩個實對稱矩陣的乘積 A=BC,其中 B 是可逆矩陣;類似地,任一複方陣 A 可分解為兩個複對稱矩陣的乘積 A=BC,其中 B 是可逆矩陣[1]。對稱矩陣 P 滿足 P^T=P,Hermitian 矩陣 Q 滿足 Q^\ast=\overline{Q}^T=Q。對於實矩陣,對稱矩陣等同於 Hermitian 矩陣;對於複矩陣,對稱矩陣不同於 Hermitian 矩陣。方陣的二對稱矩陣分解看似玄妙,但課本都不講述的定理能有甚麼用途呢?莊子曰:「人皆知有用之用,而莫知無用之用也。」按莊子的看法,「有用之用」與「無用之用」的區別在於個人的主觀認知。本文介紹二對稱矩陣分解的動機純粹是為了演練矩陣分析技巧,下面分別就複矩陣和實矩陣說明採行 Jordan 典型形式的建構式證法。至於這個矩陣分解式到底有用抑或無用,暫且不必急著下定論。

 
假設 A 可對角化為 A=SDS^{-1},其中 D 是特徵值構成的對角矩陣,則

\displaystyle A=SDS^{-1}=SS^T(S^T)^{-1}DS^{-1}

上式中,SS^T(S^T)^{-1}DS^{-1} 都是對稱矩陣,且 SS^T 可逆。下面我們考慮 A 不可對角化的情況。

 
複矩陣

A 為一 n\times n 階複矩陣。設 A 的 Jordan 形式為 A=SJS^{-1},其中 Jordan 矩陣 J 是由 Jordan 分塊構成的分塊對角矩陣 (見“Jordan 形式大解讀 (上)”),以直和表示為

\displaystyle J=J_1\oplus\cdots\oplus J_q=\begin{bmatrix} J_1&&\\ &\ddots&\\ &&J_q \end{bmatrix}

其中 J_in_i\times n_i 階 Jordan 分塊 (見“Jordan 分塊”),n_1+\cdots+n_q=n,如下所示:

\displaystyle J_i(\lambda)=\begin{bmatrix} \lambda&1&&\\ &\ddots&\ddots&\\ &&\ddots&1\\ &&&\lambda \end{bmatrix}

對於 i\neq j,Jordan 分塊 J_i 的特徵值和 J_j 的特徵值未必相同。下為一例:

\displaystyle J=\begin{bmatrix} 3&1\\ 0&3 \end{bmatrix}\oplus\begin{bmatrix} 5&1&0\\ 0&5&1\\ 0&0&5 \end{bmatrix}\oplus\begin{bmatrix} 5 \end{bmatrix}=\begin{bmatrix} 3&1&\vline& & & & & \\ &3&\vline& & & & & \\\cline{1-6} & &\vline & 5& 1& & \vline & \\ & &\vline & & 5&1& \vline & \\ & &\vline & & & 5& \vline & \\\cline{4-8} & & & & & & \vline & 5 \end{bmatrix}

 
我們需要這個性質:任一 Jordan 分塊可表示為實對稱矩陣和複對稱矩陣的積。將 Jordan 分塊 J_i(\lambda) 的列向量 (row vector) 反向排序,並以矩陣乘法表示成 J_i(\lambda)=K_iC_i(\lambda),其中 K_i 是反對角 (anti-diagonal) 排列矩陣。以 4\times 4 階矩陣為例,

\displaystyle J_i(\lambda)=\begin{bmatrix} \lambda&1&0&0\\ 0&\lambda&1&0\\ 0&0&\lambda&1\\ 0&0&0&\lambda \end{bmatrix}=\begin{bmatrix} 0&0&0&1\\ 0&0&1&0\\ 0&1&0&0\\ 1&0&0&0 \end{bmatrix}\begin{bmatrix} 0&0&0&\lambda\\ 0&0&\lambda&1\\ 0&\lambda&1&0\\ \lambda&1&0&0 \end{bmatrix}=K_iC_i(\lambda)

明顯地,K_i 是可逆實對稱矩陣,C_i=C_i(\lambda) 是複對稱矩陣 (因為 \lambda 可能是複數)。因此,Jordan 矩陣有下列分解式:

\displaystyle J=\begin{bmatrix} K_1C_1&&\\ &\ddots&\\ &&K_qC_q \end{bmatrix}=\begin{bmatrix} K_1&&\\ &\ddots&\\ &&K_q \end{bmatrix}\begin{bmatrix} C_1&&\\ &\ddots&\\ &&C_q \end{bmatrix}=KC

其中 K=K_1\oplus\cdots\oplus K_q 是可逆實對稱矩陣,C=C_1\oplus\cdots\oplus C_q 是複對稱矩陣。將上式代入 A 的 Jordan 典型形式,

\displaystyle A=S(KC)S^{-1}=SKS^T(S^T)^{-1}CS^{-1}=\left(SKS^T\right)\left((S^{-1})^TCS^{-1}\right)

其中 SKS^T 是可逆複對稱矩陣,(S^{-1})^TCS^{-1} 是複對稱矩陣,即證得所求。

 
實矩陣

A 為一 n\times n 階實矩陣。因為 A 的特徵多項式的係數都是實數,A 的特徵值 (即特徵多項式的根) 必為實數或成對的共軛複數。對 A=SJS^{-1} 取共軛,\overline{A}=\overline{S}~\overline{J}~\overline{S}^{-1}。因為 A=\overline{A},可知 J 相似於 \overline{J},也就是說,\overline{J} 的 Jordan 矩陣為 J。通過排列相似變換 PJP^TP 為一排列矩陣,P^TP=I,我們可以置換 J 的 Jordan 分塊位置 (見“矩陣視覺化”):

\displaystyle J'=PJP^T=\begin{bmatrix} J'_1&&\\ &J'_2&\\ &&J'_3 \end{bmatrix}

使得 J'_1J'_2 包含複 Jordan 分塊且 J'_2=\overline{J}'_1J'_3 則包含所有的實 Jordan 分塊,即 J'_3=\overline{J}'_3。見下例,

\displaystyle J=\begin{bmatrix} 2+i&1&\vline& & & & & &\\ &2+i&\vline& & & & & &\\\cline{1-5} & &\vline & 2-i& 1& \vline & & &\\ & &\vline & & 2-i& \vline & & &\\\cline{4-9} & & & & & \vline &3 &1 &\\ & & & & & \vline &  & 3& \\ & & & & & \vline &  & & 4 \end{bmatrix}

改寫 Jordan 形式為 A=SJS^{-1}=SP^TJ'(SP^T)^{-1}。設 J'=K'C',其中

\displaystyle K'=\begin{bmatrix} K'_1&&\\ &K'_2&\\ &&K'_3 \end{bmatrix},~~ C'=\begin{bmatrix} C'_1&&\\ &C'_2&\\ &&C'_3 \end{bmatrix}

K'_i 是反對稱排列矩陣的直和,K'_1=K'_2 (因為 J'_1J'_2 有相同的結構),且 J'_i=K'_iC'_ii=1,2,3。將 SP^T 以分塊矩陣表示為 SP^T=\begin{bmatrix} S_1&S_2&S_3 \end{bmatrix},其中 S_i 對應 J'_i。代入 ASP^T=SP^TJ',可得

\displaystyle\begin{aligned} \begin{bmatrix} AS_1&AS_2&AS_3 \end{bmatrix}&=A\begin{bmatrix} S_1&S_2&S_3 \end{bmatrix}=\begin{bmatrix} S_1&S_2&S_3 \end{bmatrix}\begin{bmatrix} J'_1&&\\ &J'_2&\\ &&J'_3 \end{bmatrix}\\ &=\begin{bmatrix} S_1J'_1&S_2J'_2&S_3J'_3 \end{bmatrix},\end{aligned}

就有 AS_i=S_iJ'_ii=1,2,3。因為 A\overline{S}_1=\overline{S}_1\overline{J}'_1=\overline{S}_1J'_2,表明 \overline{S}_1 由對應 J'_2 的特徵向量和廣義特徵向量組合而成。另外,AJ'_3 是實矩陣,必存在對應 J'_3 的實特徵向量和實廣義特徵向量 (見“Jordan 形式大解讀之尋找廣義特徵向量”),故組成的 S_3 為實矩陣。令 M=\begin{bmatrix} S_1&\overline{S}_1&S_3 \end{bmatrix}。由於 J'_1,J'_2,J'_3 包含相異的特徵值,S_1, \overline{S}_1, S_3 的行向量構成一組完整的線性獨立集,也就是說,M 是可逆矩陣。寫出

\displaystyle AM=\begin{bmatrix} AS_1&A\overline{S}_1&AS_3 \end{bmatrix}=\begin{bmatrix} S_1J'_1&\overline{S}_1J'_2&S_3J'_3 \end{bmatrix}=MJ'

合併以上結果,

\displaystyle A=MJ'M^{-1}=MK'C'M^{-1}=\left(MK'M^T\right)\left((M^{-1})^TC'M^{-1}\right)

上式中,

\displaystyle\begin{aligned} MK'M^T&=\begin{bmatrix} S_1&\overline{S}_1&S_3 \end{bmatrix}\begin{bmatrix} K'_1&&\\ &K'_2&\\ &&K'_3 \end{bmatrix} \begin{bmatrix} S_1^T\\ \overline{S}_1^T\\ S_3^T \end{bmatrix}\\ &=S_1K'_1S_1^T+\overline{S}_1K'_2\overline{S}_1^T+S_3K'_3S_3^T\\ &=(S_1K'_1S_1^T+\overline{S}_1\overline{K}'_1\overline{S}_1^T)+(S_3K'_3S_3^T)\\ \end{aligned}

是可逆實對稱矩陣;因為 C' 是複對稱矩陣,

\displaystyle (M^{-1})^TC'M^{-1}=(M^{-1})^TK'^{-1}J'M^{-1}=(M^{-1})^TK'^{-1}M^{-1}A=\left(MK'M^T\right)^{-1}A

是兩個實矩陣的積,故為實對稱矩陣。

 
《莊子─雜篇》記載:

惠子謂莊子曰:「子言無用。」
莊子曰:「知無用而始可與言用矣。天地非不廣且大也,人之所用容足耳。然則廁足而墊之至黃泉,人尚有用乎?」
惠子曰:「無用。」
莊子曰:「然則無用之為用也亦明矣。」

閱畢上文,讀者認為二對稱矩陣分解純屬「子言無用」,還是「無用之為用也亦明矣」?

 
如果我們想計算實矩陣 A 的特徵值 \lambda,寫出特徵方程式 A\mathbf{x}=\lambda\mathbf{x}。設 A 的二對稱矩陣分解為 A=ST,其中 S 是可逆對稱矩陣,T 是對稱矩陣。合併上面兩式,可得 T\mathbf{x}=\lambda S^{-1}\mathbf{x}\lambda 稱為 TS^{-1} 的廣義特徵值 (見“廣義特徵值問題”)。一般矩陣的特徵值問題可替換為廣義特徵值問題,這麼做的好處是廣義特徵值存在優異的數值算法,稱為 QZ 分解 (或廣義 Schur 分解)[2]。試舉一個應用:多項式的求根問題。給定首一 (領先係數為 1) 多項式

\displaystyle p(x)=x^n+c_{n-1}x^{n-1}+\cdots+c_1x+c_0

定義 n\times n 階相伴矩陣

\displaystyle C=\begin{bmatrix} 0&1&0&\cdots&0\\ 0&0&1&\cdots&0\\ \vdots&\vdots&\ddots&\ddots&\vdots\\ 0&0&0&\cdots&1\\ -c_0&-c_1&-c_2&\cdots&-c_{n-1} \end{bmatrix}

多項式 p(x) 的根即為相伴矩陣 C 的特徵值 (見“窮人的多項式求根法”)。設二對稱矩陣分解為 C=ST,以 n=4 為例,

\displaystyle C=\begin{bmatrix} 0&1&0&0\\ 0&0&1&0\\ 0&0&0&1\\ -c_0&-c_1&-c_2&-c_3 \end{bmatrix}=\begin{bmatrix} c_1&c_2&c_3&1\\ c_2&c_3&1&0\\ c_3&1&0&0\\ 1&0&0&0 \end{bmatrix}^{-1}\begin{bmatrix} -c_0&0&0&0\\ 0&c_2&c_3&1\\ 0&c_3&1&0\\ 0&1&0&0 \end{bmatrix}=ST

 
美國前教育部長賴利 (Richard Riley) 說[3]:「我們正教導學生畢業後投入目前還不存在的工作,使用尚未發明的科技,解決我們從沒想過的問題。」未來的世界瞬息萬變,誰知道那天又會冒出個「無用之用」?早在二千多年前,莊子就不斷提醒人們保持開放的態度,有用與無用的對立不僅阻絕思想,尤其危害學習。

 
註解:
[1] A. J. Bosch, The factorization of a square matrix into two symmetric matrices, American Mathematical Monthly, Vol. 93, 1986, pp 462–464.
[2] 維基百科:QZ decomposition
[3] 原文是 “We are currently preparing students for jobs that don’t yet exist, using technologies that haven’t been invented, in order to solve problems we don’t even know are problems yet.”

相關閱讀:
This entry was posted in 線性代數專欄, 典型形式 and tagged , , . Bookmark the permalink.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s