Hermitian 矩陣的等價條件

本文的閱讀等級:中級

1994年,美國數學月刊 (American Mathematical Monthly) 登載一位學生的提問:在線性代數期末考試,題目要求寫出 Hermitian 矩陣 A 的定義,他出於匆忙與疲憊沒有寫下正確的答案 A^\ast=A,他的回答是 AA^\ast=A^2。這是正確的答案嗎?是的,三年後美國數學月刊登出了讀者提供的五個證明[1]

 
若一個 n\times n 階矩陣 A 滿足 A^\ast=A,則 A 稱為 Hermitian 矩陣 (性質見“特殊矩陣 (9):Hermitian 矩陣”)。Hermitian 矩陣有以下等價的陳述 (充要條件):

  1. A^\ast=A
  2. A 的二次型必為實數,即對於所有的 \mathbf{x}\in\mathbb{C}^n\mathbf{x}^\ast A\mathbf{x} 是實數;
  3. A 么正相似 (unitarily similar) 於一個實對角矩陣,即存在一個么正 (unitary) 矩陣 UU^\ast=U^{-1},使得 U^\ast AU=\hbox{diag}(\lambda_1,\ldots,\lambda_n),其中 \lambda_1,\ldots,\lambda_n 是實數;
  4. A^\ast A=A^2
  5. \hbox{trace}A^2=\hbox{trace}(A^\ast A)

 
(1) \Leftrightarrow (2):若 z\in\mathbb{C},惟當 z^\ast=z 時,z 是實數。使用此性質,對於任意 \mathbf{x}\in\mathbb{C}^n

\displaystyle\begin{aligned}  A^\ast=A&\Leftrightarrow \mathbf{x}^\ast(A^\ast-A)\mathbf{x}=0\\  &\Leftrightarrow (\mathbf{x}^\ast A\mathbf{x})^\ast=\mathbf{x}^\ast A^\ast\mathbf{x}=\mathbf{x}^\ast A\mathbf{x}\\  &\Leftrightarrow \mathbf{x}^\ast A\mathbf{x}\in\mathbb{R}\end{aligned}

 
(1) \Leftrightarrow (3):(3) \Rightarrow (1)很簡單。寫出 A=UDU^\ast,其中 D=\hbox{diag}(\lambda_1,\ldots,\lambda_n)。若 D 為實矩陣,則 A^\ast=(UDU^\ast)^\ast=UD^\ast U^\ast=UDU^\ast=A。下面證明(1) \Rightarrow (3)。因為 A^\ast=A 推得 AA^\ast=A^\ast A,可知 Hermitian 矩陣屬於正規 (normal) 矩陣家族。正規矩陣的標誌是「可么正對角化 (unitarily diagonalizable)」,非正規矩陣則不可么正對角化 (見“特殊矩陣 (2):正規矩陣”)。具體地說,存在一個么正矩陣 U 使得 U^\ast AU=D=\hbox{diag}(\lambda_1,\ldots,\lambda_n),即有 AU=U\hbox{diag}(\lambda_1,\ldots,\lambda_n),故 \lambda_1,\ldots,\lambda_nA 的特徵值,U 的行向量即為對應的特徵向量。因為 D^\ast=(U^\ast AU)^\ast=U^\ast A^\ast U=U^\ast AU=D,推論 D 為實矩陣,故 \lambda_1,\ldots,\lambda_n\in\mathbb{R}。(另一個證明方法請見“實對稱矩陣可正交對角化的證明”。)

 
(1) \Leftrightarrow (4):(1) \Rightarrow (4)十分明顯,下面介紹(4) \Rightarrow (1)的四種證法[1,2]

 
證明1:使用 Frobenius 範數 (見“矩陣範數”)。對於 n\times n 階矩陣 M=[m_{ij}],若 \Vert M\Vert_F=\sqrt{\hbox{trace}(M^\ast M)}=0,則 M=0。原因如下:

\displaystyle  \hbox{trace}(M^\ast M)=\sum_{i=1}^n\sum_{j=1}^n\vert m_{ij}\vert^2=0~~\Rightarrow~~ m_{ij}=0,~~i,j=1,\ldots,n

因為 A^2=A^\ast A,等號兩邊取共軛轉置即有 (A^\ast)^2=A^\ast A,故

\displaystyle  (A-A^\ast)^\ast(A-A^\ast)=A^\ast A-(A^\ast)^2-A^2+AA^\ast=AA^\ast-A^\ast A

利用跡數循環不變性 \hbox{trace}(AA^\ast)=\hbox{trace}(A^\ast A),可得

\displaystyle\begin{aligned}  \hbox{trace}\left((A-A^\ast)^\ast(A-A^\ast)\right)&=\hbox{trace}(AA^\ast-A^\ast A)\\  &=\hbox{trace}(AA^\ast)-\hbox{trace}(A^\ast A)=0.\end{aligned}

所以,A-A^\ast=0,即 A=A^\ast

 
證明2:使用補子空間性質 (見“補子空間與直和”)。因為 N(A^\ast)=C(A)^{\perp},其中 N(A^\ast)A^\ast 的零空間,C(A)A 的行空間,可知 \mathbb{C}^n=N(A^\ast)\oplus C(A) (見“正交補餘與投影定理”)。欲證明 A^\ast=A,我們須證明 N(A^\ast-A)=\mathbb{C}^n,換句話說,每一 \mathbf{x}\in\mathbb{C}^n 滿足 A^\ast\mathbf{x}=A\mathbf{x}。但任一 \mathbf{x}\in\mathbb{C}^n 可唯一分解為 \mathbf{x}=\mathbf{u}+\mathbf{v},其中 \mathbf{u}\in N(A^\ast)\mathbf{v}\in C(A),證明包含兩部分:(i) 對於每一 \mathbf{u}\in N(A^\ast)A^\ast\mathbf{u}=A\mathbf{u};(ii) 對於每一 \mathbf{v}\in C(A)A^\ast\mathbf{v}=A\mathbf{v}。若 \mathbf{u}\in N(A^\ast),即 A^\ast\mathbf{u}=\mathbf{0},使用 A^2=A^\ast A=(A^\ast)^2

\displaystyle  \Vert A\mathbf{u}\Vert^2=(A\mathbf{u})^\ast(A\mathbf{u})=\mathbf{u}^\ast A^\ast A\mathbf{u}=\mathbf{u}^\ast(A^\ast)^2\mathbf{u}=0

所以,A\mathbf{u}=\mathbf{0},也就是說,A^\ast\mathbf{u}=A\mathbf{u}。若 \mathbf{v}\in C(A),即存在 \mathbf{y}\in\mathbb{C}^n 使得 \mathbf{v}=A\mathbf{y}

\displaystyle  A^\ast\mathbf{v}=A^\ast A\mathbf{y}=A^2\mathbf{y}=A(A\mathbf{y})=A\mathbf{v}

 
證明3:使用特徵值。令 B=i(A-A^\ast)i=\sqrt{-1}。因為 B^\ast=-i(A^\ast -A)=BB 是 Hermitian 矩陣。由 (3),B 可么正對角化,因此若能證明 B 的特徵值全部為零,立得 B=0,即 A^\ast=A。假設 B\mathbf{x}=\lambda\mathbf{x},其中 \mathbf{x}\neq\mathbf{0},就有 A^\ast\mathbf{x}=A\mathbf{x}+i\lambda\mathbf{x}。因為 A^2=A^\ast A,推得 BA=i(A-A^\ast)A=i(A^2-A^\ast A)=0,故

\displaystyle  \mathbf{0}=(BA)^\ast\mathbf{x}=A^\ast B\mathbf{x}=\lambda A^\ast\mathbf{x}

使用反證法。若 \lambda\neq 0,上式表明 A^\ast\mathbf{x}=\mathbf{0}。合併以上結果,

\displaystyle\begin{aligned}  0&=\mathbf{x}^\ast A^\ast\mathbf{x}=\mathbf{x}^\ast(A\mathbf{x}+i\lambda\mathbf{x})\\  &=\mathbf{x}^\ast A\mathbf{x}+i\lambda\mathbf{x}^\ast\mathbf{x}=(\mathbf{x}^\ast A^\ast\mathbf{x})^\ast+i\lambda\mathbf{x}^\ast\mathbf{x}\\  &=i\lambda\mathbf{x}^\ast\mathbf{x}=i\lambda\Vert\mathbf{x}\Vert^2.\end{aligned}

因為特徵向量 \mathbf{x} 不得為零,故 \lambda=0,得到一個矛盾,故證明所求。

 
證明4:使用 Schur 定理 (見“矩陣三角化的 Schur 定理”)。任一矩陣 A 可么正三角化為 T=[t_{ij}]=U^\ast AUA=UTU^\ast,其中 U 是么正矩陣,T 是上三角矩陣。由於 A 相似於 T,可知 T 的主對角元即為 A 的特徵值 \lambda_1,\ldots,\lambda_n。因為 A^2=A^\ast A,可知

\displaystyle  T^2=U^\ast A^2 U=U^\ast A^\ast AU=(U^\ast A^\ast U)(U^\ast AU)=T^\ast T

考慮 T^2=T^\ast T 的第 j 個主對角元,

\displaystyle  \lambda_j^2=\vert\lambda_j\vert^2+\sum_{i<j}\vert t_{ij}\vert^2

\lambda_j\in\mathbb{R},且若 i < jt_{ij}=0。這說明 T=\hbox{diag}(\lambda_1,\ldots,\lambda_n) 是實矩陣。所以,

\displaystyle  A^\ast=U^\ast T^\ast U=U^\ast TU=A

 
(1) \Leftrightarrow (5):(1) \Rightarrow (5)很明顯,下面說明(5) \Rightarrow (1)。按照證明4的推理步驟,使用 Schur 定理,令 T=U^\ast AU 為一個上三角矩陣,主對角元為 A 的特徵值 \lambda_1,\ldots,\lambda_n。利用跡數循環不變性,

\displaystyle\begin{aligned}  \hbox{trace}(T^2)&=\hbox{trace}(U^\ast A^2 U)=\hbox{trace}(A^2UU^\ast)=\hbox{trace}(A^2)\\  \hbox{trace}(T^\ast T)&=\hbox{trace}(U^\ast A^\ast UU^\ast AU)=\hbox{trace}(A^\ast AUU^\ast)=\hbox{trace}(A^\ast A).\end{aligned}

因為 \hbox{trace}(A^2)=\hbox{trace}(A^\ast A),可知 \hbox{trace}(T^2)=\hbox{trace}(T^\ast T),也就是

\displaystyle  \sum_{j=1}^n\lambda_j^2=\sum_{j=1}^n\vert\lambda_j\vert^2+\sum_{j=1}^n\sum_{i<j}\vert t_{ij}\vert^2

上式取絕對值再使用三角不等式,可推得每一 \lambda_j\in\mathbb{R},且若 i<jt_{ij}=0 (不要把我的話當真,請讀者自行推算一遍),即 T 是實對角矩陣,故證明 A^\ast=A

 
在(4)\Rightarrow(1) 的證明4中,我們使用 Schur 定理將矩陣三角化。讀者或許有此疑問:為甚麼不搬出譽滿天下的奇異值分解或 Jordan 典型形式來證明?諸位不妨嘗試一下,不過很快便會發現這兩條路皆窒礙難行。令 A 的奇異值分解為 A=U\Sigma V^\ast,其中 UV 是么正矩陣,\Sigma=\hbox{diag}(\sigma_1,\ldots,\sigma_n)\sigma_i\ge 0 是奇異值。奇異值分解雖可簡化交互乘積的表達式,A^\ast A=(V\Sigma U^\ast)(U\Sigma V^\ast)=V\Sigma^2 V^\ast,但不適用於描述冪矩陣,A^2=U\Sigma V^\ast U\Sigma V^\ast (除非 V^\ast U=I)。另一方面,令 A 的 Jordan 形式為 A=SJS^{-1},其中 J 是 Jordan 矩陣。Jordan 形式可以簡化冪矩陣,如 A^2=SJ^2S^{-1},對於交互乘積卻完全使不上力,A^\ast A=(S^{-1})^\ast J^\ast S^\ast SJS^{-1}。表面上,Schur 定理給出的分解式 A=UTU^\ast 僅得到上三角矩陣 T,比起奇異值矩陣 \Sigma 和 Jordan 矩陣 J 的簡約程度相差一大截,到底 Schur 定理暗藏甚麼出奇制勝的妙法?我們看待矩陣分解式常有一個迷思:過度關注分解式所產生的簡約形式,反而因此忽略了變換矩陣。Schur 定理的三角化形式具備奇異值分解和 Jordan 形式所欠缺的一個性質──么正相似,故得以聯繫 A^2=UT^2U^\astA^\ast A=UT^\ast U^\ast UTU^\ast=UT^\ast TU^\ast

 
最後再補充兩個 Hermitian 矩陣 A 的充要條件,證明工作就留給讀者完成:

  1. 對於所有 \mathbf{x},\mathbf{y}\in\mathbb{C}^n\mathbf{x}^\ast A\mathbf{y}=\mathbf{x}^\ast A^\ast\mathbf{y}
  2. 對於所有 X^\ast=X\hbox{trace}(AX)\in\mathbb{R}

 
參考來源:
[1] Problem 10377, Hermitian Matrices, American Mathematical Monthly, 101 (1994), pp 362; 104 (1997), pp 277-278.
[2] Fuzhen Zhang,Matrix Theory: Basic Results and Techniques, Springer, 1999, pp 209-210.

廣告
本篇發表於 線性代數專欄, 二次型 並標籤為 , , , , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s