相合變換

本文的閱讀等級：高級

理解線性代數各主要變換核心觀念和運算機制的一個有效方法是將研究焦點放在變換的不變性質上。例如，高斯消去法運用基本列運算產生列等價梯形矩陣，其效果等於左乘矩陣 $A$ 一基本矩陣 $E$ ，表示如 $A\rightarrow EA$ (見“特殊矩陣 (10)：基本矩陣”)。若一列減去另一列與某數的乘積，矩陣的許多性質維持不變，包括矩陣秩、列空間、零空間，以及行列式。又如相似變換 $A\rightarrow S^{-1}AS$ 的基本運算為基底變換，目的是為了化簡矩陣成為對角形式或 Jordan 形式，此過程不改變矩陣秩、行列式、跡數、特徵值和 Jordan 形式 (見“相似變換下的不變性質”)。針對對稱矩陣或 Hermitian 矩陣 $A$ ，我們也可以問：二次型 $\mathbf{x}^{T}A\mathbf{x}$ 或 $\mathbf{x}^{\ast}A\mathbf{x}$ 的基本運算為何？哪些性質不受此運算改變？

二次型的基本運算為變數變換，目的是為了對角化二次型。設 $A$ 為 $n\times n$ 階實對稱矩陣，如果在不使用列交換 (row exchange) 的情形下可以得到 LU 分解式 $A=LDL^{T}$ ，其中 $D=\mathrm{diag}(d_1,\ldots,d_n)$ ， $d_i$ 為軸元， $L=[l_{ij}]$ 為下三角矩陣， $l_{ii}=1$ ， $i=1,\ldots,n$ (見“LU 分解”)。因為 $\mathrm{det}L=1$ ， $L$ 為可逆矩陣，也就有 $L^{-1}A(L^{-1})^{T}=D$ 。考慮變數變換 $\mathbf{y}=L^{T}\mathbf{x}$ (等價的表示式為 $\mathbf{x}=(L^{T})^{-1}\mathbf{y}$ )，則二次型可對角化如下：

$\mathbf{x}^{T}A\mathbf{x}=\mathbf{x}^{T}LDL^{T}\mathbf{x}=\mathbf{y}^{T}D\mathbf{y}=d_1y_1^2+\cdots+d_ny_n^2$

另一方面，任意對稱矩陣都可以被正交對角化，亦即存在正交矩陣 $Q^{-1}=Q^{T}$ 使得 $A=Q\Lambda Q^{T}$ ，其中 $\Lambda=\mathrm{diag}(\lambda_1,\ldots,\lambda_n)$ ， $\lambda_i$ 為 $A$ 的實特徵值，因此也有 $Q^{T}AQ=\Lambda$ 。設 $\mathbf{z}=Q^{T}\mathbf{x}$ ，有下面這個對角化結果：

$\mathbf{x}^{T}A\mathbf{x}=\mathbf{x}^{T}Q\Lambda Q^{T}\mathbf{x}=\mathbf{z}^T\Lambda\mathbf{z}=\lambda_{1}z_{1}^{2}+\cdots+\lambda_{n}z_{n}^{2}$

對於一實對稱矩陣 $A$ ，二次型對角化過程中的矩陣變換稱為相合變換 (congruence transformation)：

$A\rightarrow S^{T}AS$

其中 $S$ 為可逆矩陣。上例中，如果使用 LU 分解 $L^{-1}A(L^{-1})^{T}=D$ ，則 $S=(L^{-1})^{T}$ ，使用正交對角化 $Q^{T}AQ=\Lambda$ ，則有 $S=Q$ 。若 $A$ 為複數 Hermitian 矩陣，相合變換則表示為

$A\rightarrow S^{\ast}AS$

以下我們考慮應用於複矩陣的相合變換。因為 $S$ 是可逆的， $\mathrm{rank}A=\mathrm{rank}(S^{\ast}AS)$ ，相合變換不改變矩陣秩。另外，縱使 $S$ 不為可逆也有 $(S^{\ast}AS)^{\ast}=S^{\ast}A^{\ast}S=S^{\ast}AS$ ，相合變換不改變矩陣的對稱性：若 $A$ 是 Hermitian， $S^{\ast}AS$ 也是 Hermitian；若 $A$ 是對稱的， $S^TAS$ 也是對稱的。

相合變換是一種等價關係 (見“矩陣的等價關係”)，亦即對於 $n\times n$ 階矩陣 $A$ ，滿足

自身性： $A$ 相合於 $A$ ；
對稱性：若 $A$ 相合於 $B$ ，則 $B$ 相合於 $A$ ；
傳遞性：若 $A$ 相合於 $B$ 且 $B$ 相合於 $C$ ，則 $A$ 相合於 $C$ 。

這三個性質的證明十分容易。對於 (1)，寫出 $A=IAI^{\ast}$ 。對於 (2)，若 $A=SBS^{\ast}$ ， $S$ 是可逆的，則 $B=S^{-1}A(S^{-1})^{\ast}$ 。對於 (3)，若 $A=SBS^{\ast}$ ， $B=TCT^{\ast}$ ，則 $A=STCT^{\ast}S^{\ast}=(ST)C(ST)^{\ast}$ 。

既然相合是一種等價關係，相合變換可將 $n\times n$ 階矩陣分為互不相交的等價分類。每個等價分類中的矩陣彼此相合，但屬於不同等價分類的矩陣則不相合。同屬於一個等價分類的相合矩陣理應享有相同的性質，也就是相合變換的不變性質。給定二矩陣，要如何判斷彼此是否相合？這個問題的答案稱為 Sylvester 慣性定律 (law of inertia)。Hermitian 矩陣 $A$ 的特徵值皆為實數， $A$ 的慣性 (inertia) 定義為其正特徵值總數 $i_p(A)$ 、負特徵值總數 $i_n(A)$ ，和零特徵值總數 $i_{0}(A)$ ，表示如下：

$i(A)=(i_{p}(A),i_{n}(A),i_{0}(A))$

如下例，假設 $6$ 階 Hermitian 矩陣 $A$ 有特徵值 $-1$ ， $0$ ， $0$ ， $3$ ， $3$ ， $7$ ，則 $A$ 的慣性為 $i(A)=(3,1,2)$ 。

在彼此相合的矩陣集中，我們可以挑選出一個典型形式，此形式完全由矩陣的慣性決定。考慮 $n$ 階 Hermitian 矩陣 $A$ 的對角化形式 $A=U\Lambda U^{\ast}$ ， $\Lambda=\mathrm{diag}(\lambda_1,\ldots,\lambda_n)$ ， $U^{-1}=U^{\ast}$ 。在不造成混淆的情況下，我們使用縮寫記號 $i_p=i_p(A)$ ， $i_n=i_n(A)$ ， $i_0=i_0(A)$ ，假設特徵值依如下方式排序： $\lambda_1,\ldots,\lambda_{i_{p}}>0$ ， $\lambda_{i_{p}+1},\ldots,\lambda_{i_{p}+i_{n}}<0$ ， $\lambda_{i_p+i_n+1},\ldots,\lambda_n=0$ 。我們定義 $A$ 的慣性矩陣 $I(A)$ 為包含 $i_p$ 個 $1$ ， $i_n$ 個 $-1$ ，和 $i_0$ 個 $0$ 的對角矩陣，如下所示：

$I(A)=\begin{bmatrix} 1&~&~&~&~&~&~&~&~\\ ~&\ddots&~&~&~&~&~&~&~\\ ~&~&1&~&~&~&~&~&~\\ ~&~&~&-1&~&~&~&~&~\\ ~&~&~&~&\ddots&~&~&~&~\\ ~&~&~&~&~&-1&~&~&~\\ ~&~&~&~&~&~&0&~&~\\ ~&~&~&~&~&~&~&\ddots&~\\ ~&~&~&~&~&~&~&~&0 \end{bmatrix}$

特徵值矩陣 $\Lambda$ 可寫為 $\Lambda=DI(A)D$ ，其中 $D=\mathrm{diag}(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_{i_p}},\sqrt{-\lambda_{i_p}},\ldots,\sqrt{-\lambda_{i_p+i_n}},1,\ldots,1)$ 。利用上述表達式可聯繫 $A$ 與其慣性矩陣 $I(A)$ ：

$A=U\Lambda U^{\ast}=UDI(A)DU^{\ast}=SI(A)S^{\ast}$

上式中 $S=UD$ 為可逆矩陣，故 $A$ 相合於 $I(A)$ 。下面我們介紹描述相合關係能否成立的一個主要定理。

Sylvester 定理

設 $A$ ， $B$ 為 $n$ 階 Hermitian 矩陣。若 $A$ 相合於 $B$ ，則 $A$ 和 $B$ 有相同的慣性，也就是說， $A$ 和 $B$ 有相同的正特徵值個數，負特徵值個數與零特徵值個數。反之，若 $A$ 和 $B$ 有相同的慣性，則 $A$ 相合於 $B$ 。

先證明反向陳述。若 $A$ ， $B$ 的慣性相同， $i(A)=i(B)$ ，則其慣性矩陣亦同 $I(A)=I(B)$ 。因為 $A$ 相合於 $I(A)$ ， $B$ 相合於 $I(B)$ ，由對稱性和傳遞性可知 $A$ 相合於 $B$ 。接著證明正向陳述。若 $A$ 相合於 $B$ ，可知有一可逆矩陣 $S$ 使得 $A=SBS^{\ast}$ ，故 $\mathrm{rank}A=\mathrm{rank}B$ 。Hermitian 矩陣 $A$ 是可對角化的，因此特徵值 $0$ 的幾何重數等於代數重數，這指出零空間的維數等於特徵值 $0$ 的數目。由秩—零度定理得知 $\mathrm{rank}A=n-i_{0}(A)$ ，既然 $A$ 和 $B$ 的有相同的矩陣秩，所以 $i_0(A)=i_0(B)$ ，剩下的工作只需證明 $i_p(A)=i_p(B)$ 。為簡化符號，令 $\kappa=i_p(A)$ ， $\mathbf{u}_1,\ldots,\mathbf{u}_{\kappa}$ 為 $A$ 的單範正交 (orthonormal) 特徵向量，分別對應特徵值 $\lambda_1,\ldots,\lambda_{\kappa}$ ，又令 $\mathcal{U}(A)=\mathrm{span}\{\mathbf{u}_1,\ldots,\mathbf{u}_{\kappa}\}$ ，則 $\mathrm{dim}\mathcal{U}(A)=\kappa=i_p(A)$ 。考慮 $\mathcal{U}(A)$ 中的非零向量 $\mathbf{x}=c_1\mathbf{u}_1+\cdots+c_{\kappa}\mathbf{u}_{\kappa}$ ，就有

$\begin{aligned} \mathbf{x}^{\ast}A\mathbf{x}&=(c_1\mathbf{u}_1+\cdots+c_{\kappa}\mathbf{u}_{\kappa})^{\ast}A(c_1\mathbf{u}_1+\cdots+c_{\kappa}\mathbf{u}_{\kappa})\\ &=\lambda_1\vert c_1\vert^2+\cdots+\lambda_{\kappa}\vert c_{\kappa}\vert^2>0\end{aligned}$

將 $A$ 替換為 $SBS^{\ast}$ 可知

$\mathbf{x}^{\ast}SBS^{\ast}\mathbf{x}=(S^{\ast}\mathbf{x})^{\ast}B(S^{\ast}\mathbf{x})>0$

因此對於非零向量 $\mathbf{y}\in S^{\ast}\mathcal{U}(A)=\mathrm{span}\{S^{\ast}\mathbf{u}_1,\ldots,S^{\ast}\mathbf{u}_{\kappa}\}$ ， $\mathbf{y}^{\ast}B\mathbf{y}>0$ 。因為 $S$ 是可逆的， $\mathrm{dim}S^{\ast}\mathcal{U}(A)=\mathrm{dim}\mathcal{U}(A)=\kappa$ 。很明顯，子空間 $S^{\ast}\mathcal{U}(A)$ 屬於由對應 $B$ 的正特徵值的特徵向量所擴張的子空間，該子空間的維數是 $i_{p}(B)$ ，故 $i_{p}(B)\ge\kappa=i_{p}(A)$ 。將上面陳述的 $A$ ， $B$ 互換可以得到 $i_{p}(A)\ge i_{p}(B)$ ，因此證得 $i_{p}(A)=i_{p}(B)$ 。

上述方法利用子空間關係證明二相合矩陣有相同的慣性。Gilbert Strang 在其著作 Linear Algebra and its Applications (第三版) 採用了拓樸學的同倫 (homotopy) 技巧來證明相合變換不會改變特徵值的正負符號 (同倫指兩個對象間的連續變化)。先假設 $A$ 是可逆的，但如果 $A$ 不為可逆，則考慮 $A+\epsilon I$ 和 $A-\epsilon I$ ，最後再令 $\epsilon\rightarrow 0$ 。當實對稱矩陣 $A$ 為可逆時，則相合變換 $S^{T}AS$ 也是可逆的，因此不需考慮零特徵值。我們想像存在一系列的連續可逆矩陣鏈 $S(t)$ ， $t\in[0,1]$ ，聯繫 $S$ 和一正交矩陣 $Q$ ，使得 $S(0)=S$ ， $S(1)=Q$ 。當 $t$ 從 $0$ 增大至 $1$ ， $S(t)^{T}AS(t)$ 的特徵值也從 $S^{T}AS$ 的特徵值漸進改變為 $Q^{T}AQ$ 的特徵值。既然 $S(t)$ 和 $A$ 都是可逆的， $S(t)^{T}AS(t)$ 也是可逆的，則其特徵值不為零， $t$ 在連續的改變過程中 $S(t)^{T}AS(t)$ 的特徵值當然也不可能跨越零。所以 $S^{T}AS$ 和 $Q^{T}AQ$ 的正特徵值個數相同，負特徵值個數也相同。由於 $A$ 相似於 $Q^{-1}AQ=Q^{T}AQ$ ，推論 $A$ 和 $Q^{T}AQ$ 有完全相同的特徵值，這也就證明了 $A$ 和 $S^{T}AS$ 有相同的慣性。

例一：設 $A$ 為 Hermitian 矩陣，若 $A$ 相合於單位矩陣 $I$ ，即 $A=SIS^{\ast}=SS^{\ast}$ ，由 Sylvester 定理可知 $A$ 的特徵值皆為正數，故 $A$ 為正定矩陣 (見“特殊矩陣 (6)：正定矩陣”)。從相合變換可以確認任意正定矩陣 $A$ 都可表示為 $A=SS^{\ast}$ ， $S$ 是可逆矩陣，而且任意正定矩陣彼此兩兩相合。

例二：設 $A$ 為實對稱矩陣，由 $A$ 的對角化形式 $A=Q\Lambda Q^{T}$ 可知 $A$ 相合於 $\Lambda$ 。考慮在不發生列交換之下的 LU 分解 $A=LDL^{T}$ ， $A$ 相合於 $D$ ， $D$ 的主對角元包含所有的軸元。根據 Sylvester 定理，相合變換不改變矩陣的慣性，所以 $\Lambda$ 和 $D$ 的慣性相同，但 $D$ 的主對角線上的軸元即為 $D$ 的特徵值。這指出實對稱矩陣的正軸元、負軸元以及零軸元的個數分別與正特徵值、負特徵值及零特徵值的個數相同。

	jianglong on Strassen 演算法──分治矩陣乘法
	jianglong on Strassen 演算法──分治矩陣乘法
	xmj on 內積的定義
	Ning ChingSan on 線性代數的第一堂課──矩陣乘法的定義
	momo on 兩岸線性代數用詞參照
	訪客 on 克拉瑪公式的簡易幾何證明

Leave a comment Cancel reply

搜尋(繁體中文或英文)

訊息看板

近期文章

線性代數專欄

其他主題專欄

每週問題

數據充分性問題

其他分類

Recent Comments

近期最多人點閱

分類

Archives

標籤雲

線代線上影音課程

線代學習網站

線代電子書

矩陣計算器

LaTeX

Blogroll

訂閱

閱讀導引

學習資源

專題探究

急救查詢

其他分頁

Meta

網路狀態

Blog Stats