數值域

本文的閱讀等級:高級

給定一 n\times n 階矩陣 A,矩陣譜 (spectrum) 是所有特徵值所形成的集合,表示為 \sigma(A)=\{\lambda\vert~ A\mathbf{x}=\lambda\mathbf{x},\mathbf{x}\in\mathbb{C}^n,\mathbf{x}\neq\mathbf{0}\};譜半徑 (spectrum radius) 是包含特徵值的最小半徑 (原點是圓中心),記為 \rho(A)=\max_{\lambda\in\sigma(A)}\vert \lambda\vert (見“譜半徑與矩陣範數”)。類似矩陣譜的表達方式,A 的數值域 (numerical range 或 field of values) 定義如下:

\displaystyle  W(A)=\left\{\mathbf{x}^\ast A\mathbf{x}\vert~\mathbf{x}\in\mathbb{C}^n, \mathbf{x}^\ast\mathbf{x}=1\right\}

或以 Rayleigh 商表示為

\displaystyle  W(A)=\left\{\left.\frac{\mathbf{x}^\ast A\mathbf{x}}{\mathbf{x}^\ast\mathbf{x}}\right\vert\mathbf{x}\in\mathbb{C}^n,\mathbf{x}\neq\mathbf{0}\right\}

這兩個定義是等價的,證明見“Hermitian 矩陣特徵值的變化界定”。為了測量數值域的大小,A 的數值半徑 (numerical radius) 定義為包含數值域的最小圓半徑:

\displaystyle  r(A)=\max_{z\in W(A)}\vert z\vert=\max_{\Vert\mathbf{x}\Vert=1}\vert \mathbf{x}^\ast A\mathbf{x}\vert

矩陣譜 \sigma(A) 是一離散集合,稍後我們將證明數值域 W(A) 是一連通緊凸集 (connected compact convex set)。如同矩陣譜的功用,數值域也可以幫助我們了解矩陣的本質,尤其是不具特殊形態的一般矩陣。

 
我們先看幾個例子。明顯地,W(I)=\{1\} 且對於任一 c\in\mathbb{C}W(cI)=\{c\}。這說明純量矩陣的數值域僅含該純量。若 A=\begin{bmatrix}  1&0\\  0&0  \end{bmatrix},則 \mathbf{x}^\ast A\mathbf{x}=\overline{x}_1 x_1=\vert x_1\vert^2,可知數值域是一閉區間 W(A)=[0,1]。若 A=\begin{bmatrix}  0&2\\  0&0  \end{bmatrix},則 \mathbf{x}^\ast A\mathbf{x}=2\overline{x}_1x_2。利用算術─幾何平均值不等式 \vert 2\overline{x}_1x_2\vert^2=4\overline{x}_1x_1\overline{x}_2x_2\le\overline{x}_1x_1+\overline{x}_2x_2=1,可知數值域是一閉單位圓盤 W(A)=\{z\in\mathbb{C}\vert~\vert z\vert\le 1\}。此外,對於任一 n\times n 階矩陣 A=[a_{ij}],我們可以斷定 a_{ii}\in W(A)i=1,\ldots,n,這是因為 \mathbf{e}_i^\ast A\mathbf{e}_i=a_{ii},其中 \mathbf{e}_i 表示第 i 元等於1的標準單位向量。下面介紹數值域的一些基本性質[1,2]

 
(1) 緊緻性 (compactness):W(A)\mathbb{C} 的一個緊集。

我們稱集合 S\subset\mathbb{C}^n 是一緊集 (compact set) 若它是封閉 (closed) 且有界 (bounded)。數值域 W(A) 可以看成是 \mathbb{C}^n 的單位球 \{\mathbf{x}\vert~\mathbf{x}\in\mathbb{C}^n,\mathbf{x}^\ast\mathbf{x}=1\} 通過連續函數 \mathbf{x}\mapsto\mathbf{x}^\ast A\mathbf{x} 的值域。歐幾里得單位球是一連通 (connected) 緊集,經連續函數的值域仍為緊集,故可推論 W(A) 是一連通緊集。

 
(2) 平移 (translation):若 c\in\mathbb{C},則 W(A+cI)=W(A)+c

(3) 純量乘法 (scalar multiplication):若 c\in\mathbb{C},則 W(cA)=cW(A)

當矩陣與一純量矩陣相加,或乘以一純量時,數值域以線性方式改變。直接計算即可證明:\mathbf{x}^\ast(A+cI)\mathbf{x}=\mathbf{x}^\ast A\mathbf{x}+c\mathbf{x}^\ast\mathbf{x}=\mathbf{x}^\ast A\mathbf{x}+c\mathbf{x}^\ast (cA)\mathbf{x}=c(\mathbf{x}^\ast A\mathbf{x})

 
接著我們對複數平面的數值域做更細微的分析。考慮任一矩陣 A 的卡氏分解 (Cartesian decomposition) A=H+iS,其中 H=(A+A^\ast)/2A 的 Hermitian 成分,iS=(A-A^\ast)/2A 的斜 Hermitian (skew-Hermitian) 成分。矩陣的卡氏分解類似我們將複數 z 分解為 z=a+bi,其中實部是 \hbox{Re}(s)=a=(z+\overline{z})/2,虛部是 \hbox{Im}(s)=b=(z-\overline{z})/(2i)。令 \hbox{Re}(S)=\{\hbox{Re}(s)\vert s\in S\} 表示集合 S\subset \mathbb{C} 至實軸的投影,\hbox{Im}(S)=\{\hbox{Im}(s)\vert s\in S\} 表示 S 至虛軸的投影。性質 (4) 說明一矩陣的數值域至實軸的投影即為該矩陣的 Hermitian 成分 H 的數值域,至虛軸的投影則為該矩陣的斜 Hermitian 成分 S 的數值域 (注意 S 是 Hermitian)。

(4) 實軸與虛軸投影 (projection):W(H)=\hbox{Re}(W(A))W(S)=\hbox{Im}(W(A)),其中 H=(A+A^\ast)/2S=(A-A^\ast)/(2i)

直接計算即可證明:

\displaystyle\begin{aligned}  \mathbf{x}^\ast H\mathbf{x}&=\mathbf{x}^\ast\left(\frac{A+A^\ast}{2}\right)\mathbf{x}=\frac{1}{2}\left(\mathbf{x}^\ast A\mathbf{x}+\mathbf{x}^\ast A^\ast\mathbf{x}\right)\\  &=\frac{1}{2}\left(\mathbf{x}^\ast A\mathbf{x}+(\mathbf{x}^\ast A\mathbf{x})^\ast\right)=\frac{1}{2}\left(\mathbf{x}^\ast A\mathbf{x}+\overline{\mathbf{x}^\ast A\mathbf{x}}\right)\\  &=\hbox{Re}(\mathbf{x}^\ast A\mathbf{x})  .\end{aligned}

使用相同方式,

\displaystyle\begin{aligned}  \mathbf{x}^\ast S\mathbf{x}&=\mathbf{x}^\ast\left(\frac{A-A^\ast}{2i}\right)\mathbf{x}=\frac{1}{2i}\left(\mathbf{x}^\ast A\mathbf{x}-\mathbf{x}^\ast A^\ast\mathbf{x}\right)\\  &=\frac{1}{2i}\left(\mathbf{x}^\ast A\mathbf{x}-(\mathbf{x}^\ast A\mathbf{x})^\ast\right)=\frac{1}{2i}\left(\mathbf{x}^\ast A\mathbf{x}-\overline{\mathbf{x}^\ast A\mathbf{x}}\right)\\  &=\hbox{Im}(\mathbf{x}^\ast A\mathbf{x})  .\end{aligned}

 
數值域不僅是一個連通緊集,而且還是一個凸集,這個結果稱為 Toeplitz-Hausdorff 定理。

(5) 凸性 (convexity):W(A)\mathbb{C} 的一個凸集。

如果 W(A) 僅含一點,顯然 W(A) 是一凸集。假設 W(A) 包含不止一個點。我們要證明給定任兩點 u,v\in W(A)0<t<1,點 tu+(1-t)v 屬於 W(A)。性質 (2) 和 (3) 說明 W(A) 的凸性不因平移、伸縮與旋轉而改變,我們可以假設 u=0v=1,並證明 [0,1]\in W(A)。寫出卡氏分解 A=H+iS,並設 \mathbf{x},\mathbf{y}\in\mathbb{C}^n 為單位向量使得 \mathbf{x}^\ast A\mathbf{x}=0\mathbf{y}^\ast A\mathbf{y}=1。利用性質 (4) 可得

\displaystyle  \mathbf{x}^\ast H\mathbf{x}=0,~~~\mathbf{x}^\ast S\mathbf{x}=0,~~~\mathbf{y}^\ast H\mathbf{y}=1,~~~\mathbf{y}^\ast S\mathbf{y}=0

另外,我們假設 \hbox{Re}(\mathbf{x}^\ast S\mathbf{y})=0,否則將 \mathbf{x} 替換為 e^{i\theta}\mathbf{x},使得 \hbox{Re}(e^{-i\theta}\mathbf{x}^\ast S\mathbf{y})=0。這麼做並不會改變 \mathbf{x}^\ast A\mathbf{x}。因為 S^\ast=S,故知 \mathbf{x}^\ast S\mathbf{y}+\mathbf{y}^\ast S\mathbf{x}=0。注意 \mathbf{x}\mathbf{y} 是線性獨立的,因為若 \mathbf{x}=c\mathbf{y},則 0=(c\mathbf{y})^\ast A(c\mathbf{y})=\overline{c}{c}\mathbf{y}^\ast A\mathbf{y}=\vert c\vert^2,即 c=0。據此,t\mathbf{x}+(1-t)\mathbf{y}\neq\mathbf{0}0\le t\le 1。令

\displaystyle  \mathbf{z}(t)=\frac{1}{\Vert t\mathbf{x}+(1-t)\mathbf{y} \Vert}(t\mathbf{x}+(1-t)\mathbf{y})

對於 0\le t\le 1,使用上述結果,可得

\displaystyle\begin{aligned}  ~~~&(t\mathbf{x}+(1-t)\mathbf{y})^\ast S(t\mathbf{x}+(1-t)\mathbf{y})\\  &=t^2\mathbf{x}^\ast S\mathbf{x}+t(1-t)(\mathbf{x}^\ast S\mathbf{y}+\mathbf{y}^\ast S\mathbf{x})+(1-t)^2\mathbf{y}^\ast S\mathbf{y}=0,\end{aligned}

\mathbf{z}(t)^\ast S\mathbf{z}(t)=0。所以,\displaystyle  \mathbf{z}(t)^\ast A\mathbf{z}(t)=\mathbf{z}(t)^\ast H\mathbf{z}(t)\in\mathbb{R}。因為 \mathbf{z}(0)^\ast H\mathbf{z}(0)=1\mathbf{z}(1)^\ast H\mathbf{z}(1)=0,使用連續性即證明 W(A) 具有凸性,如下:

\displaystyle  \left\{\mathbf{z}(t)^\ast A\mathbf{z}(t)\vert~\mathbf{z}(t)^\ast \mathbf{z}(t)=1,~0\le t\le 1\right\}=[0,1]\subseteq W(A)

 
下面幾個性質說明數值域於界定特徵值範圍的應用,以及一些特殊矩陣的數值域表達。

 
(6) 矩陣譜包容性 (spectrum containment):\sigma(A)\subseteq W(A)

假設 \lambda\in\sigma(A),則存在 \mathbf{x}\in\mathbb{C}^n\Vert\mathbf{x}\Vert=1,使得 A\mathbf{x}=\lambda\mathbf{x},也就有 \mathbf{x}^\ast A\mathbf{x}=\mathbf{x}^\ast(\lambda\mathbf{x})=\lambda\mathbf{x}^\ast\mathbf{x}=\lambda,故 \lambda\in W(A)。利用矩陣譜包容性可證明正定矩陣的特徵值都是正實數,因為正定矩陣 A 滿足 \mathbf{x}^\ast A\mathbf{x}>0\mathbf{x}^\ast\mathbf{x}=1,故數值域為區間 [a,b],其中 0<a\le b

 
(7) 次可加性 (subadditivity):若 ABn\times n 階矩陣,W(A+B)\subseteq W(A)+W(B)

對於 S,T\subset\mathbb{C},我們定義兩集合之和 S+T=\{s+t\vert~s\in S,t\in T\}。直接乘開即可得證,如下:

\displaystyle\begin{aligned}  \frac{\mathbf{x}^\ast (A+B)\mathbf{x}}{\mathbf{x}^\ast\mathbf{x}}&=\frac{\mathbf{x}^\ast A\mathbf{x}}{\mathbf{x}^\ast\mathbf{x}}+\frac{\mathbf{x}^\ast B\mathbf{x}}{\mathbf{x}^\ast\mathbf{x}}\\  &\in\left\{\left.\frac{\mathbf{x}^\ast A\mathbf{x}}{\mathbf{x}^\ast\mathbf{x}}\right\vert\mathbf{x}\in\mathbb{C}^n,\mathbf{x}\neq\mathbf{0}\right\}+\left\{\left.\frac{\mathbf{y}^\ast B\mathbf{y}}{\mathbf{y}^\ast\mathbf{y}}\right\vert\mathbf{y}\in\mathbb{C}^n,\mathbf{y}\neq\mathbf{0}\right\}=W(A)+W(B).\end{aligned}

 
如果我們已經知道任意矩陣 AB 的所有特徵值,即矩陣譜 \sigma(A)\sigma(B),這項訊息幾乎完全無用於推論 \sigma(A+B)。合併性質 (6) 和 (7),

\displaystyle  \sigma(A+B)\subseteq W(A+B)\subseteq W(A)+W(B)

若我們知道 AB 的數值域,則 W(A)+W(B) 提供了一個 A+B 的特徵值範圍的估計。

 
(8) 么正相似不變性 (unitary similarity invariance):對於 n\times n 階矩陣 A 和么正矩陣 UW(U^\ast AU)=W(A)

使用變數變換,令 \mathbf{y}=U\mathbf{x}。利用 U^\ast=U^{-1},可得

\displaystyle  \frac{\mathbf{x}^\ast U^\ast AU\mathbf{x}}{\mathbf{x}^\ast\mathbf{x}}=\frac{\mathbf{y}^\ast A\mathbf{y}}{(U^\ast\mathbf{y})^\ast(U^\ast\mathbf{y})}=\frac{\mathbf{y}^\ast A\mathbf{y}}{\mathbf{y}^\ast UU^\ast\mathbf{y}}=\frac{\mathbf{y}^\ast A\mathbf{y}}{\mathbf{y}^\ast\mathbf{y}}

么正相似不變性讓我們得以用特徵值來描述正規 (normal) 矩陣的數值域。

 
(9) 正規性 (normality):若 A 是一 n\times n 階正規矩陣,則 W(A)=\hbox{conv}(\sigma(A)),其中 \hbox{conv}(\sigma(A)) 表示矩陣譜 \sigma(A) 的凸包。

正規矩陣 A 可么正對角化為 A=U\Lambda U^\ast,其中 \Lambda=\hbox{diag}(\lambda_1,\ldots,\lambda_n)U 是么正矩陣 (見“特殊矩陣 (2):正規矩陣”)。根據性質 (8) 么正相似不變性,可知 W(A)=W(\Lambda)。因為 \sum_{i=1}^n\vert x_i\vert^2=1 且每一 \vert x_i\vert^2\ge 0

\displaystyle  \mathbf{x}^\ast\Lambda\mathbf{x}=\sum_{i=1}^n\lambda_i\overline{x}_ix_i=\sum_{i=1}^n\lambda_i\vert x_i\vert^2

\sigma(A)=\{\lambda_1,\ldots,\lambda_n\} 的凸組合 (見“凸組合、凸包與凸集”),證得 W(A)=W(\Lambda)=\hbox{conv}(\sigma(A))。運用正規性很容易描述 Hermitian 矩陣的數值域。若 A 是 Hermitian,則所有特徵值都是實數,即得 W(A)=[\lambda_{\min},\lambda_{\max}],其中 \lambda_{\min}=\min_{\lambda\in\sigma(A)}\lambda\lambda_{\max}=\max_{\lambda\in\sigma(A)}\lambda

 
最後我們討論譜半徑 \rho(A)、數值半徑 r(A) 和矩陣2-範數 (2-norm) \Vert A\Vert_2 的大小關係。矩陣2-範數等於最大奇異值 (見“矩陣範數”):

\displaystyle  \Vert A\Vert_2=\max_{\Vert\mathbf{x}\Vert=1}\Vert A\mathbf{x}\Vert=\sigma_{\max}(A)

其中 \sigma_{\max}(A) 表示 A 的最大奇異值。

(10) 數值半徑不等式 (numerical radius inequality):\rho(A)\le r(A)\le\sigma_{\max}(A)

\lambda_{\max}A 的特徵值使得 \rho(A)=\vert\lambda_{\max}\vert\mathbf{v} 是對應的特徵向量並滿足 \Vert\mathbf{v}\Vert=1。根據數值半徑的定義,

\displaystyle  \rho(A)=\vert\lambda_{\max}\vert=\vert\mathbf{v}^\ast A\mathbf{v}\vert\le r(A)

使用 Cauchy-Schwarz 不等式 (見“Schwarz 不等式”)

\displaystyle  \vert \mathbf{x}^\ast A\mathbf{x}\vert\le\Vert A\mathbf{x}\Vert\cdot\Vert\mathbf{x}\Vert

上式取最大值並設 \Vert\mathbf{x}\Vert=1 即得 r(A)\le\sigma_{\max}(A)

 
參考來源:
[1] Roger A. Horn 和 Charles R. Johnson 合著 Topics in Matrix Analysis,Cambridge University Press, 1991,頁5-13。
[2] Fuzhen Zhang 的 Matrix Theory: Basic Results and Techniques,Springer,1999,頁88-89。

This entry was posted in 特徵分析, 線性代數專欄 and tagged , , , , , , , , . Bookmark the permalink.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s