利用連續論證法證明 Cayley-Hamilton 定理

本文的閱讀等級:中級

A 為一 n\times n 階矩陣,且 p(t)=\det(tI-A) 為其特徵多項式。設 \lambda_1,\ldots,\lambda_nA 的特徵值,也就是特徵多項式 p(t) 的根,故 p(t) 可表示為

p(t)=(t-\lambda_1)(t-\lambda_2)\cdots(t-\lambda_n)

將特徵多項式的變數 t 替換為方陣 A,常數 1 替換成單位矩陣 I,可得一形式相同的矩陣多項式,Cayley-Hamilton 定理 (見“Cayley-Hamilton 定理”) 宣稱

p(A)=(A-\lambda_1I)(A-\lambda_2I)\cdots(A-\lambda_nI)=0

本文利用連續論證法證明 Cayley-Hamilton 定理,包含三個步驟 (見“連續論證法”):(1) 若 A 是可對角化矩陣,很容易證明 p(A)=0。(2) 若 A 不可對角化,考慮 A「鄰近」的可對角化矩陣 \tilde{A}(\epsilon),其中 \epsilon 是一極小純量。(3) 特徵多項式是 \epsilon 的連續函數,令 \epsilon\to 0 即可證得不可對角化矩陣 A 亦滿足 p(A)=0

 
A 是可對角化矩陣,則存在可逆矩陣 S 使得 A=S\Lambda S^{-1},其中 \Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\ldots,\lambda_n)。將上式代入 p(A),化簡過程如下:

\begin{aligned}  p(A)&=(S\Lambda S^{-1}-\lambda_1I)(S\Lambda S^{-1}-\lambda_2I)\cdots(S\Lambda S^{-1}-\lambda_nI)\\  &=S(\Lambda-\lambda_1I)S^{-1}S(\Lambda-\lambda_2I)S^{-1}\cdots S(\Lambda-\lambda_nI)S^{-1}\\  &=S(\Lambda-\lambda_1I)(\Lambda-\lambda_2I)\cdots (\Lambda-\lambda_nI)S^{-1}\\  &=S\begin{bmatrix}  0&&&\\  &\lambda_2-\lambda_1&&\\  &&\ddots&\\  &&&\lambda_n-\lambda_1  \end{bmatrix}\begin{bmatrix}  \lambda_1-\lambda_2&&&\\  &0&&\\  &&\ddots&\\  &&&\lambda_n-\lambda_2  \end{bmatrix}\cdots\\  &~~~~~\begin{bmatrix}  \lambda_1-\lambda_n&&&\\  &\lambda_2-\lambda_n&&\\  &&\ddots&\\  &&&0  \end{bmatrix}S^{-1}\\  &=S0S^{-1}=0.\end{aligned}

另外,我們也可以使用可對角化矩陣函數定義 (見“矩陣函數 (上)”):

p(A)=Sp(\Lambda)S^{-1}=S\begin{bmatrix}  p(\lambda_1)&&&\\  &p(\lambda_2)&&\\  &&\ddots&\\  &&&p(\lambda_n)  \end{bmatrix}S^{-1}

因為 p(\lambda_i)=0i=1,\ldots,n,即得 p(A)=0

 
接下來考慮 A 是不可對角化矩陣的情況。Schur 三角化定理 (見“矩陣三角化的 Schur 定理”) 保證任何 n\times n 階矩陣 A 必可三角化為 A=UTU^{\ast},其中 U 是么正矩陣 (unitary matrix),U^{\ast}=U^{-1},且 T 是上三角矩陣,其主對角元即為 A 的特徵值 \lambda_1,\ldots,\lambda_n。為了製造鄰近 A 的可對角化矩陣,我們在 T 的主對角元加入微小的擾動量使特徵值互異。對於任意 \epsilon\neq 0,必定存在 \epsilon_i 滿足 \sum_{i=1}^n\epsilon_i^2=\vert\epsilon\vert,並使 (\lambda_1+\epsilon_1), (\lambda_2+\epsilon_2), \ldots, (\lambda_n+\epsilon_n) 彼此相異。令 D(\epsilon)=\mathrm{diag}(\epsilon_1,\epsilon_2,\ldots,\epsilon_n),又令

\tilde{A}(\epsilon)=U(T+D(\epsilon))U^{\ast}=UTU^{\ast}+UD(\epsilon)U^{\ast}=A+E(\epsilon)

其中 E(\epsilon)=UD(\epsilon)U^{\ast} 代表誤差矩陣。方陣 \tilde{A}(\epsilon) 有相異的特徵值 (\lambda_i+\epsilon_i),立知 \tilde{A}(\epsilon) 可對角化。對於任意 \epsilon\neq 0,引用步驟 (1) 的結果即得 p_{\epsilon}\left(\tilde{A}(\epsilon)\right)=0,其中 p_{\epsilon}(t)=\det\left(tI-\tilde{A}(\epsilon)\right)=\det\left(tI-A-E(\epsilon)\right) 代表 \tilde{A}(\epsilon) 的特徵多項式。

 
最後我們還必須證明特徵多項式 p_{\epsilon}(t)\epsilon 的連續函數。寫出 n\times n 階矩陣 A 的特徵多項式:

p(t)=\det(tI-A)=t^n-b_{n-1}t^{n-1}+\cdots+(-1)^{n-1}b_1t+(-1)^nb_0

因為係數 b_{n-i}A 的所有 i\times i 階主子陣行列式之和 (見“特徵多項式蘊藏的訊息”),而行列式又是所含各元的連續函數,所以特徵項式 p(t)A 的所有元 a_{ij} 的連續函數。同樣道理,p_{\epsilon}(t) 也就是 E(\epsilon) 各元的連續函數,即 \epsilon 的連續函數。考慮 E(\epsilon) 的 Frobenius 範數 (見“矩陣範數”),由於么正矩陣 U 和任一矩陣相乘皆不改變矩陣範數,可得

\displaystyle  \Vert E(\epsilon)\Vert^2_F=\Vert UD(\epsilon)U^{\ast}\Vert_F^2=\Vert D(\epsilon)\Vert_F^2=\sum_{i=1}^n\epsilon_i^2=\vert\epsilon\vert

\lim_{\epsilon\to 0}E(\epsilon)=0,推知

\displaystyle  0=\lim_{\epsilon\to 0}p_{\epsilon}\left(\tilde{A}(\epsilon)\right)=\lim_{\epsilon\to 0}p_{\epsilon}\left(A+E(\epsilon)\right)=p(A)

因此證明 Cayley-Hamilton 定理同樣適用於不可對角化矩陣。

Advertisements
本篇發表於 特徵分析, 線性代數專欄 並標籤為 , , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s