特徵值的連續性

本文的閱讀等級:高級

矩陣的特徵值為矩陣各元的連續函數嗎?是的,這是矩陣理論中相當重要的基本定理。本文將解釋其中的道理,並介紹可對角化矩陣特徵值的敏感分析。首先回顧連續函數的定義。對於任意 \mathbf{x}\in\mathbb{C}^n,考慮向量函數

\mathbf{f}(\mathbf{x})=\begin{bmatrix}    f_1(\mathbf{x})\\    \vdots\\    f_m(\mathbf{x})    \end{bmatrix}

其中 f_i:\mathbb{C}^n\rightarrow\mathbb{C}i=1,\ldots,m。我們說向量函數 \mathbf{f}:\mathbb{C}^n\rightarrow\mathbb{C}^m 在任意點 \mathbf{x} 是連續的,若每一 f_i\mathbf{x} 都是連續的。函數 f_i 的連續性定義如下:在點 \mathbf{x},若對於任何 \epsilon>0,都存在 \delta>0 使得如果 \Vert\mathbf{y}-\mathbf{x}\Vert<\delta,則 \vert f_i(\mathbf{y})-f_i(\mathbf{x})\vert<\epsilon

 
複變函數有一個經典的定理:多項式的根為多項式各係數的連續函數,由此可以推論從 n\times n 階矩陣 A 的首一特徵多項式(即領先係數為 1p_A(t)=t^n+a_{n-1}t^{n-1}+\cdots+a_1t+a_0n 個係數 a_{n-1},\ldots,a_1,a_0n 個根 \lambda_1,\ldots,\lambda_n 的映射為一連續向量函數 \mathbf{f}:\mathbb{C}^n\rightarrow\mathbb{C}^n。因為特徵多項式係數 a_i 可以表示為 A 的主子陣行列式之和乘以 (-1)^{n-i}(見“特徵多項式蘊藏的訊息”),而行列式又是矩陣各元的連續函數,合併這些結果可以推論出矩陣特徵值 \lambda_i 為矩陣各元的連續函數。不過,還有一個小問題尚待處理:特徵多項式的 n 個根沒有自然的排序定義,上述向量函數 \mathbf{f} 並不存在簡單的形式,因此我們引用下列定理以解決此問題[1]

n\ge 1,考慮

p(t)=a_nt^n+a_{n-1}t^{n-1}+\cdots+a_1t+a_0

其中 a_i\in\mathbb{C},且 a_n\neq 0。對於任一 \epsilon>0,存在一正數 \delta>0,若任意多項式

q(t)=b_nt^n+b_{n-1}t^{n-1}+\cdots+b_1t+b_0

滿足 b_n\neq 0\mathrm{max}_{i=0,1,\ldots,n}\vert a_i-b_i\vert<\delta,則下式成立:

\displaystyle  \min_{\sigma}\max_{i=1,\ldots,n}\vert\lambda_i-\mu_{\sigma(i)}\vert<\epsilon

其中,\lambda_1,\ldots,\lambda_n 為多項式 p(t) 的根,而 \mu_1,\ldots,\mu_n 為多項式 q(t) 的根,且最小值從所有可能的 1,2,\ldots,n 排序找出,以 \sigma 表示。

 
此定理說明了足夠小的多項式係數變化只會製造根的微小變化;然而,連續函數並不保證它具有數值計算穩定性。我們在“Power 迭代法”一文曾經說明求多項式根在本質上是一個病態問題,亦即在某些情況下,根的位置可能受到多項式係數的微小變動而發生「相對劇烈」的改變。透過擾動分析(pertubation),我們可以計算出特徵值受矩陣變動的敏感度。不可對角化矩陣的擾動分析相當複雜,下面我們僅考慮 A 為可對角化矩陣的情況。設 B=A+EE 表示一擾動矩陣。矩陣 B 的特徵值以 \mu 表示,設 A 可對角化為

S^{-1}AS=\Lambda=\begin{bmatrix}    \lambda_1&~&~\\    ~&\ddots&~\\    ~&~&\lambda_n    \end{bmatrix}

下列不等式描述了 AB 的特徵值差異:

\displaystyle  \min_{\lambda_i}\vert\mu-\lambda_i\vert\le\kappa(S)\Vert E\Vert

其中 \kappa(S)=\Vert S\Vert\cdot\Vert S^{-1}\Vert 為條件數(參閱“條件數”),\Vert S\Vert 表示 S 的矩陣範數(以下推導使用數個矩陣範數性質,詳細請見“矩陣範數”),我們選擇基於向量長度比值的定義:

\displaystyle  \Vert S\Vert=\max_{\mathbf{x}\neq\mathbf{0}}\frac{\Vert S\mathbf{x}\Vert}{\Vert\mathbf{x}\Vert}

證明過程如下。若存在 i 使得 \mu=\lambda_i,明顯地,不等式成立。以下假設對於所有 i\mu\neq\lambda_i,故 \mu I-A 為可逆矩陣,根據關係式

(\mu I-A)^{-1}(\mu I-B)= (\mu I-A)^{-1}(\mu I-A-E)=I-(\mu I-A)^{-1}E

上式等號左邊為不可逆矩陣(因為 \mu I-B 不可逆),推知 \Vert(\mu I-A)^{-1}E\Vert\ge 1,否則等號右邊 I-(\mu I-A)^{-1}E 將為可逆矩陣(參閱“Neumann 無窮級數”)。將 I-A=I-S\Lambda S^{-1}=S(I-\Lambda)S^{-1} 代入前式,並使用 \Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert,可得

1\le\Vert(\mu I-A)^{-1}E\Vert=\Vert S(\mu I-\Lambda)^{-1}S^{-1}E\Vert\le\Vert S\Vert\cdot\Vert (\mu I-\Lambda)^{-1}\Vert\cdot\Vert S^{-1}\Vert\cdot\Vert E\Vert

利用對角矩陣 D=\mathrm{diag}(d_{11},\ldots,d_{nn}) 的矩陣範數計算公式 \Vert D\Vert=\mathrm{max}_i\vert d_{ii}\vert,就得到

\displaystyle  1\le\kappa(S)\Vert E\Vert\max_{i}\vert\mu-\lambda_i\vert^{-1}=\kappa(S)\Vert E\Vert\left(\min_{i}\vert\mu-\lambda_i\vert\right)^{-1}

即證得所求。矩陣特徵值與線性方程解同樣都受矩陣各元所影響(參見“病態系統”),若條件數 \kappa(S) 相對小(接近 1),則各特徵值 \lambda_i 相對不敏感,但若 \kappa(S) 相對大,我們就必須小心病態特徵值的問題了。

 
最後還要提醒讀者,特徵向量的元未必隨著矩陣各元連續改變,例如,A=\begin{bmatrix}    \epsilon&0\\    1&0    \end{bmatrix} 有特徵值 \epsilon0,對應的特徵向量分別為 \begin{bmatrix}    1\\    \epsilon^{-1}    \end{bmatrix}\begin{bmatrix}    0\\    1    \end{bmatrix},但是當 \epsilon\rightarrow 0A 有重複兩次特徵值 0,但僅有一特徵向量 \begin{bmatrix}    0\\    1    \end{bmatrix}

 
引用來源:
[1] Roger A. Horn and Charles R. Johnson, Matrix Analysis, Cambridge University Press, 1985.

廣告
本篇發表於 線性代數專欄, 數值線性代數 並標籤為 , , , 。將永久鏈結加入書籤。

2 Responses to 特徵值的連續性

  1. GSX 說道:

    真是完整又清楚~讚!

    可否再給一下reference的頁數或章節呢?

  2. ccjou 說道:

    請見該書附錄D,頁539。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s