半正定矩陣的偏序關係

本文的閱讀等級:高級

不等式是矩陣理論的重要主題之一,矩陣不等式的探討可以從矩陣與數系的對應關係切入。Hermitian 矩陣 A 滿足 A^{\ast}=A,可類比為實數 \bar{z}=z;複半正定矩陣 A 對任意 \mathbf{x}\in\mathbb{C}^n 都滿足 \mathbf{x}^{\ast}A\mathbf{x}\ge 0,因此可類比為非負實數 (見“矩陣與複數的類比”)。自然地,讀者會問:Hermitian 矩陣之間是否可以如實數那樣比較「大小」?本文從回答此問題開始,通過新概念的制訂與聯繫,最終發掘出一系列半正定矩陣的不等性質。

 
a,b 為實數,若 a-b 是正數,ab 的關係可表示為 a>b;若 a-b 非負數,則表示為 a\ge b。運用下列數與矩陣的類比替換:

  • 實數 \leftrightarrow Hermitian 矩陣
  • 正數 \leftrightarrow 正定矩陣
  • 非負數 \leftrightarrow 半正定矩陣

我們定義矩陣的「大小」關係如下:以下設 A,Bn\times n 階 Hermitian 矩陣。若 A-B 是正定,則 AB 的關係可記為 A\succ B,類似地,A\succcurlyeq B 代表 A-B 是半正定。若 A 是半正定,即 A-0 是半正定,半正定矩陣 A 也可表示為 A\succcurlyeq 0,所以 A\succcurlyeq BA-B\succcurlyeq 0 同義。

 
在代數中,我們稱比較實數大小的二元關係 \ge 是一種全序 (total order) 關係。對於任意實數 a,b,c,關係 \ge 滿足以下三個性質:

  1. 完全性 (totality):a\ge bb\ge a
  2. 反對稱性 (antisymmetry):若 a\ge bb\ge a,則 a=b
  3. 傳遞性 (transitivity):若 a\ge bb\ge c,則 a\ge c

定義在 Hermitian 矩陣上的二元關係 \succcurlyeq 雖滿足反對稱性和傳遞性,但不滿足完全性,例如,A-B=\left[\!\!\begin{array}{cr}  1&1\\  1&-1  \end{array}\!\!\right]A-BB-A 都不是半正定。Hermitian 矩陣的 \succcurlyeq 是一種偏序 (partial order) 關係,即對於任意 n\times n 階 Hermitian 矩陣 A,B,C,下列性質成立:

  1. 反身性 (reflexivity):A\succcurlyeq A
  2. 反對稱性:若 A\succcurlyeq BB\succcurlyeq A,則 A=B
  3. 傳遞性:若 A\succcurlyeq BB\succcurlyeq C,則 A\succcurlyeq C

使用定義即可證明。(1):因為 A-A=0,零矩陣 0 是半正定。(2):若 A-BB-A=-(A-B) 都是半正定,對於任意 \mathbf{x}\in\mathbb{C}^n,就有 \mathbf{x}^{\ast}(A-B)\mathbf{x}\ge 0\mathbf{x}^{\ast}(A-B)\mathbf{x}\le 0,故 A-B=0。(3):若 A-BB-C 是半正定,則對於任意 \mathbf{x}\in\mathbb{C}^n\mathbf{x}^{\ast}(A-B)\mathbf{x}\ge 0\mathbf{x}^{\ast}(B-C)\mathbf{x}\ge 0,所以

\begin{aligned} \mathbf{x}^{\ast}(A-C)\mathbf{x}&=\mathbf{x}^{\ast}(A-B+B-C)\mathbf{x}\\ &=\mathbf{x}^{\ast}(A-B)\mathbf{x}+\mathbf{x}^{\ast}(B-C)\mathbf{x}\ge 0\end{aligned}

即證得 A-C 是半正定。

 
往下討論之前,我們先複習半正定矩陣的主要性質。“正定矩陣的性質與判別方法”曾介紹過下面兩個基本定理,將正定改成半正定即為半正定版本。

 
定理一:半正定矩陣的任一主子陣都是半正定的。

 
定理二:半正定矩陣的特徵值皆為正數或零。

 
定理一和定理二告訴我們半正定矩陣的外表長相。因為 n\times nA=[a_{ij}] 的任何主對角元都為一主子陣,由定理一,若 A\succcurlyeq 0,則 a_{ii}\ge 0i=1,\ldots,n。再考慮任意 2\times 2 階主子陣,必有

\begin{bmatrix}  a_{ii}&a_{ij}\\  a_{ji}&a_{jj}  \end{bmatrix}\succcurlyeq 0

半正定矩陣是 Hermitian,故 a_{ji}=\bar{a}_{ij}。由定理二,半正定矩陣的行列式大於或等於零,即 a_{ii}a_{jj}\ge\vert a_{ij}\vert^2。因此若 a_{ii}=0,任何 j 必有 a_{ij}=0a_{ji}=0,也就是說,若半正定矩陣 A 的主對角元 a_{ii} 為零,則第 i 列和第 i 行全都是零。

 
接著介紹幾個可應用於不等式證明的有效工具。定理三是從定義衍生出的半正定矩陣界定條件。

 
定理三:若 An\times n 階複矩陣,則對於任意 n\times m 階複矩陣 X

A\succcurlyeq 0~~~\Leftrightarrow~~~X^{\ast}AX\succcurlyeq 0

(\Leftarrow) 考慮 n\times 1 階矩陣 X=\mathbf{x},若 X^{\ast}AX=\mathbf{x}^{\ast}A\mathbf{x}\ge 0,由定義得知 A\succcurlyeq 0

(\Rightarrow)A\succcurlyeq 0,則對於任意 n\times m 階複矩陣 X\mathbf{y}\in\mathbb{C}^n,有 \mathbf{y}^{\ast}X^{\ast}AX\mathbf{y}=(X\mathbf{y})^{\ast}A(X\mathbf{y})\ge 0,故 X^{\ast}AX\succcurlyeq 0

 
運用定理三的證明方法不難證得以下結果:若 A,Bn\times n 階複矩陣,則對於任意 n\times m 階複矩陣 X

A\succcurlyeq B~~~\Leftrightarrow~~~X^{\ast}AX\succcurlyeq X^{\ast}BX

 
在代數中,對任意 a\ge 0 都有唯一的 b\ge 0 使得 a=b^2,記為 b=\sqrt{a}。半正定矩陣也擁有相同的性質。

 
定理四:若 A\succcurlyeq 0,存在唯一 B\succcurlyeq 0 使得 A=B^2B 稱為 A 的平方根,記作 \sqrt{A}A^{\frac{1}{2}}

因為 A 是 Hermitian,故可對角化為 A=U^{\ast}DU (見“特殊矩陣(9):Hermitian 矩陣”),其中 U^{\ast}U=UU^\ast=ID=\mathrm{diag}(\lambda_1,\ldots,\lambda_n),由定理二得知所有 \lambda_i\ge 0。令 D^{\frac{1}{2}}=\mathrm{diag}(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n})B=U^{\ast}D^{\frac{1}{2}}U,則 B^2=A。利用定理三,D^{\frac{1}{2}}\succcurlyeq 0 可推得 B\succcurlyeq 0。接著證明唯一性,設 C^2=AC=V^{\ast}D^{\frac{1}{2}}V,其中 V^{\ast}V=VV^\ast=I。由 B^2=C^2=A,可得 WD=DW,其中 W=[w_{ij}]=VU^{\ast} 滿足 W^\ast W=WW^\ast=I。展開 WD=DW,比較等號兩邊的 (i,j) 元,即

w_{ij}\lambda_j=\lambda_iw_{ij}

這意味 w_{ij}\sqrt{\lambda_j}=\sqrt{\lambda_i}w_{ij},故 WD^{\frac{1}{2}}=D^{\frac{1}{2}}W。將 W=VU^{\ast} 代回,可得

\displaystyle B=U^\ast D^{\frac{1}{2}}U=V^\ast WD^{\frac{1}{2}}W^\ast V=V^\ast D^{\frac{1}{2}}V=C

 
下面這個定理說任何兩個半正定矩陣可被同一個相合變換矩陣對角化 (見“相合變換”)。這個定理非常管用,稍後我們會見識它的威力。

 定理五:若 ABn\times n 階矩陣,A\succcurlyeq 0B\succcurlyeq 0,則存在一可逆矩陣 P 使得 P^{\ast}APP^{\ast}BP 皆為對角矩陣。

X 為一可逆矩陣使得 (見“秩分解──目視行秩等於列秩”)

X^{\ast}(A+B)X=\begin{bmatrix}  I_r&0\\  0&0  \end{bmatrix}

其中 r=\mathrm{rank}(A+B)。將 X^{\ast}BX 寫成與 X^{\ast}(A+B)X 相同的分塊形式,

X^{\ast}BX=\begin{bmatrix}  C_{11}&C_{12}\\  C_{21}&C_{22}  \end{bmatrix}

根據定理三,B\succcurlyeq 0 推得 X^{\ast}BX\succcurlyeq 0。因為 AB 是 Hermitian,A=(A+B)-B\succcurlyeq 0 又推得 A+B\succcurlyeq B。根據定理三的必然結果,即知

X^{\ast}(A+B)X\succcurlyeq X^{\ast}BX

上式等價於

X^{\ast}(A+B)X-X^{\ast}BX=\begin{bmatrix}  I_r-C_{11}&-C_{12}\\  -C_{21}&-C_{22}  \end{bmatrix}\succcurlyeq 0

主子陣 -C_{22}\succcurlyeq 0,但 C_{22} 亦為半正定 X^{\ast}BX 的主子陣,C_{22}\succcurlyeq 0,由此斷定 C_{22}=0。按照半正定矩陣的外型要求,C_{22} 所佔據的列和行必須是零,故 C_{12}=0C_{21}=0。接著再考慮 C_{11},因為 C_{11}\succcurlyeq 0,存在一 r\times r 階么正矩陣 V 使得 V^{\ast}C_{11}V 是對角矩陣。令

P=X\begin{bmatrix}  V&0\\  0&I_{n-r}  \end{bmatrix}

計算

\begin{aligned} P^{\ast}BP&=\begin{bmatrix}  V^{\ast}&0\\  0&I_{n-r}  \end{bmatrix}X^{\ast}BX\begin{bmatrix}  V&0\\  0&I_{n-r}  \end{bmatrix}\\  &=\begin{bmatrix}  V^{\ast}&0\\  0&I_{n-r}  \end{bmatrix}\begin{bmatrix}  C_{11}&0\\  0&0  \end{bmatrix}\begin{bmatrix}  V&0\\  0&I_{n-r}  \end{bmatrix}\\  &=\begin{bmatrix}  V^{\ast}C_{11}V&0\\  0&0  \end{bmatrix}\end{aligned}

而且

\begin{aligned} P^{\ast}AP&=P^{\ast}(A+B)P-P^{\ast}BP\\  &=\begin{bmatrix}  V^{\ast}&0\\  0&I_{n-r}  \end{bmatrix}X^{\ast}(A+B)X\begin{bmatrix}  V&0\\  0&I_{n-r}  \end{bmatrix}-\begin{bmatrix}  V^{\ast}&0\\  0&I_{n-r}  \end{bmatrix}X^{\ast}BX\begin{bmatrix}  V&0\\  0&I_{n-r}  \end{bmatrix}\\  &=\begin{bmatrix}  V^{\ast}&0\\  0&I_{n-r}  \end{bmatrix}\begin{bmatrix}  I_r-C_{11}&0\\  0&0  \end{bmatrix}\begin{bmatrix}  V&0\\  0&I_{n-r}  \end{bmatrix}\\  &=\begin{bmatrix}  I_r-V^{\ast}C_{11}V&0\\  0&0  \end{bmatrix}\end{aligned}

證得 P^{\ast}APP^{\ast}BP 同為對角矩陣。

 
準備妥當,現在我們利用前述定理來證明半正定矩陣偏序關係 A\succcurlyeq B\succcurlyeq 0 生成的單調不等性質,包括跡數、最大特徵值、行列式、矩陣秩與平方根。

 
半正定矩陣偏序關係單調性定理

A\succcurlyeq B\succcurlyeq 0,則

(1) \mathrm{trace}A\ge\mathrm{trace}B

(2) \lambda_{\max}(A)\ge\lambda_{\max}(B),其中 \lambda_{\max}(A)\lambda_{\max}(B) 分別代表 AB 的最大特徵值。

(3) \det A\ge\det B

(4) \mathrm{rank}A\ge\mathrm{rank}B

(5) A^{\frac{1}{2}}\succcurlyeq B^{\frac{1}{2}}

 
以下是詳細證明過程。

(1):由 A-B\succcurlyeq 0 可知 A-B 的特徵值全是非負數,就有 \mathrm{trace}(A-B)\ge 0,而 \mathrm{trace}(A-B)=\mathrm{trace}A-\mathrm{trace}B,故 \mathrm{trace}A\ge\mathrm{trace}B。等號發生於 A-B 的特徵值全為零,即 A-B 是冪零矩陣。

(2):因為 A-B\succcurlyeq 0,對於任意 \mathbf{x}\in\mathbb{C}^n\mathbf{x}^{\ast}(A-B)\mathbf{x}\ge 0,即 \mathbf{x}^{\ast}A\mathbf{x}\ge\mathbf{x}^{\ast}B\mathbf{x}。利用 Hermitian 矩陣的特徵值性質 (見“Hermitian 矩陣特徵值的變化界定”),可得

\displaystyle\lambda_{\max}(A)=\max_{\Vert\mathbf{x}\Vert=1}\mathbf{x}^{\ast}A\mathbf{x}\ge\max_{\Vert\mathbf{x}\Vert=1}\mathbf{x}^{\ast}B\mathbf{x}=\lambda_{\max}(B)

(3):根據定理五,存在一可逆矩陣 P 同時使得 D_A=P^{\ast}APD_B=P^{\ast}BP 為對角矩陣。由定理三的必然結果可知 D_A\succcurlyeq 0D_B\succcurlyeq 0,且 D_A\ge D_B,故 D_A-D_B\succcurlyeq 0,表明 (D_A)_{ii}\ge(D_B)_{ii}\ge 0i=1,\ldots,n,也就有 \det D_A\ge\det D_B\ge 0。因為 \det P^{\ast}=\overline{\det P}

\det D_A=\det(P^{\ast}AP)=(\det P^{\ast})(\det A)(\det P)=(\det A)\vert\det P\vert^2

\det D_B=\det(P^{\ast}BP)=(\det P^{\ast})(\det B)(\det P)=(\det B)\vert\det P\vert^2

\vert\det P\vert^2>0,故得 \det A\ge\det B

(4):由 (3),因為 P 可逆,\mathrm{rank}D_A=\mathrm{rank}A\mathrm{rank}D_B=\mathrm{rank}B。由於 (D_A)_{ii}\ge(D_B)_{ii}\ge 0,對角矩陣的非零主對角元個數即為矩陣秩,立得 \mathrm{rank}D_A\ge\mathrm{rank}D_B,也就證明了 \mathrm{rank}A\ge\mathrm{rank}B

(5):由定理四可知 A^{\frac{1}{2}}\succcurlyeq 0B^{\frac{1}{2}}\succcurlyeq 0,因此 C=A^{\frac{1}{2}}-B^{\frac{1}{2}} 是 Hermitian,剩下只要證明 C\succcurlyeq 0,亦即其特徵值皆不為負。因為 A-B\succcurlyeq 0

\begin{aligned}\displaystyle (A^{\frac{1}{2}})^{2}-(B^{\frac{1}{2}})^{2}&=(A^{\frac{1}{2}})^{2}-(A^{\frac{1}{2}}-C)^{2}\\ &=A^{\frac{1}{2}}C+CA^{\frac{1}{2}}-C^2\succcurlyeq 0\end{aligned}

C 是 Hermitian,對任意 \mathbf{x}\in\mathbb{C}^n\Vert C\mathbf{x}\Vert^2=\mathbf{x}^{\ast}C^{\ast}C\mathbf{x}=\mathbf{x}^{\ast}C^2\mathbf{x}\ge 0,得知 C^2\succcurlyeq 0,故 A^{\frac{1}{2}}C+CA^{\frac{1}{2}}\succcurlyeq 0。令 \lambda\in\mathbb{R}C 的一特徵值,\mathbf{x} 為對應的特徵向量,則 C\mathbf{x}=\lambda\mathbf{x}\mathbf{x}^{\ast}C=\mathbf{x}^{\ast}C^{\ast}=\lambda\mathbf{x}^{\ast},所以

\begin{aligned} \displaystyle\mathbf{x}^{\ast}(A^{\frac{1}{2}}C+CA^{\frac{1}{2}})\mathbf{x}&=\mathbf{x}^{\ast}A^{\frac{1}{2}}(\lambda\mathbf{x})+(\lambda\mathbf{x}^{\ast})A^{\frac{1}{2}}\mathbf{x}\\ &=2\lambda(\mathbf{x}^{\ast}A^{\frac{1}{2}}\mathbf{x})\ge 0\end{aligned}

A^{\frac{1}{2}}\succ 0,推知 \lambda\ge 0,也就證得 C\succcurlyeq 0,即 A^{\frac{1}{2}}\succcurlyeq B^{\frac{1}{2}}。若 A 不可逆,將 A 替換為 A+\epsilon I\epsilon>0,則 \lim_{\epsilon\to 0}(A+\epsilon I)^{\frac{1}{2}}=A^{\frac{1}{2}},使用連續論證法即可得到同樣結論 (見“連續論證法”)。

 
本文參考:
[1] Roger A. Horn and Charles R. Johnson, Matrix Analysis, Cambridge University Press, 1985.
[2] Fuzhen Zhang, Matrix Theory: Basic Results and Techniques, Springer, 1999.

This entry was posted in 線性代數專欄, 二次型 and tagged , , , , , . Bookmark the permalink.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s