矩陣跡數與特徵值和奇異值的關係

本文的閱讀等級:高級

A=[a_{ij}] 為一個 n\times n 階複矩陣。矩陣 A 的主對角元之和稱為跡數 (trace),記作

\displaystyle \hbox{trace}A=\sum_{i=1}^na_{ii}

矩陣的跡數與特徵值存在一個簡單的關係 (見“特徵多項式蘊藏的訊息”):

\displaystyle \hbox{trace}A=\sum_{i=1}^n\lambda_i

其中 \lambda_1,\ldots,\lambda_nA 的特徵值。因為種種緣故,多數的基礎線性代數課程就此打住,不再深入探究。引用電影《一代宗師》宮二小姐的話:「寧可一思進,莫在一思停。」現在我們繼續往前進。根據定義,直接計算矩陣乘法可得

\displaystyle\begin{aligned} \hbox{trace}(A^2)&=\sum_{i=1}^n\sum_{j=1}^na_{ij}a_{ji}\\ \hbox{trace}(A^\ast A)&=\sum_{i=1}^n\sum_{j=1}^n\vert a_{ij}\vert^2. \end{aligned}

本文通過計算 \hbox{trace}(A^2)\hbox{trace}(A^\ast A)\vert \hbox{trace}A\vert 來探討矩陣跡數與特徵值和奇異值之間的不等關係。

 
首先回顧線性代數中三個常用於理論推導的矩陣分解式。

  • Schur 分解:A=QTQ^{\ast},其中 Q 是么正 (unitary) 矩陣,Q^\ast=Q^{-1}T=[t_{ij}] 是上三角矩陣。因為 A 相似於 T,相似矩陣有相同的特徵值,故 T 的主對角元即為 A 的特徵值 \lambda_1,\ldots,\lambda_n (見“矩陣三角化的 Schur 定理”)。
  • Jordan 形式:A=SJS^{-1},其中 S 是可逆矩陣,J 是 Jordan 矩陣。因為 A 相似於 J,故 J 的主對角元即為 A 的特徵值 \lambda_1,\ldots,\lambda_n (見“Jordan 形式大解讀 (上)”)。
  • 奇異值分解:A=U\Sigma V^\ast,其中 U=[u_{ij}]V=[v_{ij}] 是么正矩陣,U^\ast=U^{-1}V^\ast=V^{-1}\Sigma=\hbox{diag}(\sigma_1,\ldots,\sigma_n)\sigma_1\ge\cdots\ge\sigma_n\ge 0A 的奇異值 (見“奇異值分解 (SVD)”)。

備妥兵器後,我們隨即踏入練功房操練「跡數四式」。

 
式一

\displaystyle \hbox{trace}(A^2)=\sum_{i=1}^n\lambda_i^2

冪矩陣 A^2 的特徵值是 \lambda_1^2,\ldots,\lambda_n^2,根據跡數與特徵值之和的恆等關係,上式自然成立。另外我們也可以用 Schur 分解或 Jordan 形式來證明。因為 A^2=QT^2Q^\ast,利用跡數循環不變性 (見“跡數的性質與應用”),

\displaystyle \hbox{trace}(A^2)=\hbox{trace}(QT^2Q^\ast)=\hbox{trace}(T^2Q^\ast Q)=\hbox{trace}(T^2)

其中 (T^2)_{ii}=\lambda_i^21\le i\le n,故得證。同樣地,A^2=SJ^2S^{-1} 可推論 \hbox{trace}(A^2)=\hbox{trace}(J^2),其中 (J^2)_{ii}=\lambda_i^21\le i\le n (見“矩陣函數 (下)”)。不過,從 \hbox{trace}(A^2) 無法引申出奇異值,下面我們考慮交互乘積 A^\ast A 的跡數。

 
式二

\displaystyle \hbox{trace}(A^\ast A)=\sum_{i=1}^n\sigma_i^2\ge\sum_{i=1}^n\vert\lambda_i\vert^2

上式稱為 Schur 不等式。使用奇異值分解,A^\ast A=(V\Sigma U^\ast)(U\Sigma V^\ast)=V\Sigma^2V^\ast,即知 \sigma_1^2,\ldots,\sigma_n^2A^\ast A 的特徵值,就有

\displaystyle  \hbox{trace}(A^\ast A)=\hbox{trace}(V\Sigma^2 V^\ast)=\hbox{trace}(\Sigma^2 V^\ast V)=\hbox{trace}(\Sigma^2)=\sum_{i=1}^n\sigma_i^2

使用 Schur 分解,A^\ast A=(QT^\ast Q^\ast)(QTQ^\ast)=QT^{\ast}TQ^{\ast},可得

\displaystyle  \hbox{trace}(A^\ast A)=\hbox{trace}(QT^\ast TQ^\ast)=\hbox{trace}(T^\ast TQ^\ast Q)=\hbox{trace}(T^\ast T)

因為 t_{ii}=\lambda_ii=1,\ldots,n

\displaystyle \hbox{trace}(T^\ast T)=\sum_{i=1}^n\sum_{j=1}^n\vert t_{ij}\vert^2=\sum_{i=1}^n\vert \lambda_i\vert^2+\sum_{i<j}\vert t_{ij}\vert^2

即證明 \hbox{trace}(A^\ast A)\ge\sum_{i=1}^n\vert\lambda_i\vert^2。若 t_{ij}=0i<j,則 T 是一對角矩陣。換句話說,A 是一可么正對角化 (unitarily diagonalizable) 矩陣,表明 A 是正規 (normal) 矩陣家族的一員,使得 AA^\ast=A^\ast A (見“特殊矩陣 (2):正規矩陣”)。所以正規矩陣 A 滿足等式 \sum_{i=1}^n\sigma_i^2=\sum_{i=1}^n\vert\lambda_i\vert^2,反之亦然。事實上,正規矩陣擁有更強烈的性質:\sigma_i=\vert\lambda_i\verti=1,\ldots,n。原因如下:A^\ast A=AA^\ast 等價於 T=\hbox{diag}(\lambda_1,\ldots,\lambda_n),而且 A^\ast A 相似於 T^\ast T=\hbox{diag}( \vert\lambda_1\vert^2,\ldots,\vert\lambda_n\vert^2)。既然 \sigma_1^2,\ldots,\sigma_n^2A^\ast A 的特徵值,可得 \sigma_i^2=\vert\lambda_i\vert^21\le i\le n

 
式三

\displaystyle \vert\hbox{trace}A\vert=\left|\sum_{i=1}^n\lambda_i\right|\le\sum_{i=1}^n\sigma_i

我們只需要證明不等式。使用奇異值分解,推導過程如下:

\displaystyle\begin{aligned} \vert\hbox{trace}A\vert&=\left|\sum_{i=1}^na_{ii}\right|=\left|\sum_{i=1}^n\sum_{j=1}^nu_{ij}\sigma_{j}\overline{v_{ij}}\right|\\ &\le\sum_{j=1}^n\left|\sum_{i=1}^n u_{ij}\overline{v_{ij}}\right|\sigma_j\le\sum_{j=1}^n\left(\sum_{i=1}^n\vert u_{ij}\overline{v_{ij}}\vert\right)\sigma_j\le\sum_{j=1}^n\sigma_j, \end{aligned}

其中包含三個不等式,前面兩個是三角不等式,第三個是 Cauchy 不等式

\displaystyle \sum_{i=1}^n\vert u_{ij}\overline{v_{ij}}\vert=\sum_{i=1}^n\vert u_{ij}\vert\cdot\vert\overline{v_{ij}}\vert\le\sqrt{\sum_{i=1}^n\vert u_{ij}\vert^2\sum_{i=1}^n\vert\overline{v_{ij}}\vert^2}=1

上面最後一個等式係因 UV 的行向量組成一個單範正交集 (orthonormal set),意思是行向量是單位向量且兩兩正交。如果三個不等式的等號都成立,則

\displaystyle \left|\sum_{i=1}^nu_{ij}\overline{v_{ij}}\right|=\sum_{i=1}^n\vert u_{ij}\overline{v_{ij}}\vert=1,~~j=1,\ldots,r

其中 r=\hbox{rank}A,即 \sigma_1\ge\cdots\ge\sigma_r>0\sigma_{r+1}=\cdots=\sigma_n=0。令 \mathbf{u}_j 表示 U 的第 j 行,\mathbf{v}_j 表示 V 的第 j 行。因此,

\displaystyle \sum_{i=1}^n u_{ij}\overline{v_{ij}}=\mathbf{v}_j^\ast\mathbf{u}_j

Cauchy 不等式的等號成立於 \mathbf{u}_j\mathbf{v}_j 線性相關,即 \mathbf{u}_j=c_j\mathbf{v}_j。據此,\vert\mathbf{v}_j^\ast\mathbf{u}_j\vert=\vert c_j\mathbf{v}_j^\ast\mathbf{v}_j\vert=1 推知 \vert c_j\vert=11\le j\le r。寫出奇異值分解的秩─1矩陣表達式

\displaystyle A=\sum_{j=1}^r\sigma_j\mathbf{u}_j\mathbf{v}_j^\ast=\sum_{j=1}^rc_j\sigma_j\mathbf{v}_j\mathbf{v}_j^\ast=VDV^\ast

其中 D=\hbox{diag}(c_1\sigma_1,\ldots,c_r\sigma_r,0,\ldots,0)=\hbox{diag}(\lambda_1,\ldots,\lambda_n)。所以,A 是一么正可對角化矩陣,即正規矩陣。不過,反向陳述並不成立,因為 \vert\hbox{trace}A\vert=\vert\hbox{trace}D\vert=\vert\sum_{i=1}^rc_i\sigma_i\vert 未必等於 \sum_{i=1}^r\sigma_i

 
式四

\displaystyle \vert\hbox{trace}A\vert\le\sum_{i=1}^n\vert\lambda_i\vert\le\sum_{i=1}^n\sigma_i

第一個不等式源自三角不等式 \vert\sum_{i=1}^n\lambda_i\vert\le\sum_{i=1}^n\vert\lambda_i\vert,我們的目標是利用矩陣跡數來證明第二個不等式。考慮 Schur 分解 T=Q^\ast AQ,其中每一 t_{ii}=\lambda_i。寫出 \lambda_i=\vert\lambda_i\vert w_i,其中 \vert w_i\vert=11\le i\le n。令 D=\hbox{diag}(w_1,\ldots,w_n)。顯然,D^\ast D=I,故 D 是么正矩陣。令 B=D^\ast T。因此,

\displaystyle \hbox{trace}B=\hbox{trace}(D^\ast T)=\sum_{i=1}^n\overline{w_i}w_i\vert\lambda_i\vert=\sum_{i=1}^n\vert\lambda_i\vert

將奇異值分解 A=U\Sigma V^\ast 代入 B=D^\ast Q^\ast AQ,計算

\displaystyle\begin{aligned} \hbox{trace}B&=\hbox{trace}(D^\ast Q^\ast U\Sigma V^\ast Q)=\hbox{trace}(\Sigma V^\ast QD^\ast Q^\ast U)\\ &=\hbox{trace}(\Sigma C)=\sum_{i=1}^n\sigma_ic_{ii},\end{aligned}

上面令 C=[c_{ij}]=V^\ast QD^\ast Q^\ast U。么正矩陣的乘積仍為么正矩陣,故 C 為一么正矩陣,也就有 \vert c_{ii}\vert\le 11\le i\le n。所以,

\displaystyle \vert\hbox{trace}B\vert\le\sum_{i=1}^n\sigma_i\vert c_{ii}\vert\le\sum_{i=1}^n\sigma_i

因為 \hbox{trace}B=\sum_{i=1}^n\vert\lambda_i\vert\ge 0,合併上式即得證。

 
後記

先前有一位讀者詢問是否能給一個線性代數最牛的十大技巧或思路列表 (見“答matrices──關於矩陣二次方程的求解問題”,迴響),我不假思索便援引電影《一代宗師》的一段台詞塘塞:「我是經小看著我父親跟人交手長大的……在我爹身上,我看到的不是招,是意。」雖然我個人崇尚數學的精神層面甚於解題技巧,但要說線性代數不重視技巧或思路,那絕對是唬弄小孩。不過一旦列出十大技巧,勉強求全,反倒故步自封。運用奇異值分解與 Schur 分解,我們見識了平淡無奇的矩陣跡數也能衍伸出特徵值與奇異值之間的不等關係,這也算得上是線性代數中一記奇招吧。

相關閱讀:
Advertisement
This entry was posted in 特徵分析, 線性代數專欄 and tagged , , , , , , , , , . Bookmark the permalink.

8 Responses to 矩陣跡數與特徵值和奇異值的關係

  1. jmbong says:

    有一段时间看书后,对于特征值的代数重数与几何重数的关系,我觉得是非常浅显明白的道理,所以当时也没把一些想法记下来,但现在貌似思维打了结,始终也想不明白为何代数重数>=几何重数,在网上找了一通之后也不得其解,望周老师指教,谢谢!不用繁杂冗长的证明过程,只要告知思路就好,再次严重感谢并期待周老师的回复!!!
    (题外话,这也给了我一个提醒,某些想法形成之后一定要用文字记录下来)

  2. jmbong says:

    好奇地再问一下,周老师之于线性代数,肯定也是从不会到会,从会到精通,那么周老师有遇到过以上类似的情况么?明明已经懂了的,但过一段时间又不懂了,真可拍。

    当遇到一个无法理解的概念、算法时,查找各种资料自不必说,一般还有什么办法去理解它?

  3. jmbong says:

    方阵对向量的作用,无非放大、旋转,特征值对应于放大倍数,特征向量对应于放大的方向,在不同的方向上可以有相同的放大倍数,如果两个方向上的放大倍数相同,则代数重数加1变成2,但是这个放大倍数对应的特征空间也是2维的啊?! 这和代数重数>=几何重数 有什么关系??

  4. jmbong says:

    按照周老师指明的方向我细细地遨游了几遍,虽不能完全弄懂,但也有了些新的收获。再次感谢周老师诲人不倦的热心!周老师的讲座和讲义我都看了些,如果有一天周老师能结合现有的这些文章,以某种系统的方式写一本正式的教程,那必将成为线性代数的经典。依我个人的浅见,时至今日,线性代数不乏经典之作,但是那些都是烈酒,而大多数人需要的是那种醇香绵柔的度数比较低的酒,周老师的文章有很多思想深刻,若多看几遍又能弄懂,不至于像烈酒一样难以入喉。非常期待周老师的这样一本线性代数的经典教材!再次向周老师表示衷心的感谢!

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s