Jordan 形式大解讀之尋找廣義特徵向量

本文的閱讀等級:高級

A 為一 n\times n 階矩陣。我們曾經在“Jordan 形式大解讀(下)”發展了一個 Jordan 形式演算法,得到 Jordan 矩陣 J 與可逆矩陣 M 並使 A=MJM^{-1},簡述於下:

  1. 求出 A 的所有相異特徵值 \lambda_1,\ldots,\lambda_kk\le n,特徵值 \lambda_j 的代數重數 \beta_j,以及幾何重數 \mathrm{dim}N(A-\lambda_j I)
  2. 針對每一相異特徵值 \lambda_j,找出 \beta_j\times\beta_j 階超級 Jordan 分塊 J(\lambda_j),它包含 \mathrm{dim}N(A-\lambda_j I) 個基本 Jordan 分塊,所有的 J(\lambda_j) 的直和即為 Jordan 矩陣 J
  3. 對於 A 的每個相異特徵值 \lambda_j,根據步驟 (2) 得到的超級 Jordan 分塊 J(\lambda_j),解出對應各基本 Jordan 分塊的特徵向量和廣義特徵向量,相似變換矩陣 M 即由這些向量所組成。

本文將詳細解釋步驟 (3) 的計算程序。對於 Jordan 形式陌生的讀者,請先閱讀基礎知識篇“Jordan 形式大解讀(上)”。

 
為便於說明,以下分析僅針對一指定特徵值 \lambda,令其代數重數為 \beta,幾何重數為 \mathrm{dim}(A-\lambda I)\beta\times\beta 階超級 Jordan 分塊 J(\lambda) 包含 \mathrm{dim}(A-\lambda I) 個基本 Jordan 分塊,其中最大的基本 Jordan 分塊階數稱作指標 (index)。例如,

A=\left[\!\!\begin{array}{rrr}  3&2&-1\\  -1&0&1\\  -1&-2&3  \end{array}\!\!\right]

的 Jordan 矩陣為

J=\begin{bmatrix}  2&1&0\\  0&2&0\\  0&0&2  \end{bmatrix}=\begin{bmatrix}  2&1\\  0&2  \end{bmatrix}\oplus\begin{bmatrix}  2  \end{bmatrix}

Jordan 矩陣 J 的三個主對角元皆為 2,故 \lambda=2 的代數重數是 \beta=3J 為兩個基本 Jordan 分塊的直和,得知幾何重數是 \mathrm{dim}(A-2I)=2,最大的基本 Jordan 分塊是 2\times 2 階,故指標等於 2。考慮關鍵方程式 AM=MJ,根據 Jordan 矩陣 J 的結構,令 M=\begin{bmatrix}  \mathbf{x}_{11}&\mathbf{x}_{12}&\mathbf{x}_{21}  \end{bmatrix},行向量 \mathbf{x}_{ij} 代表對應第 i 個基本 Jordan 分塊的第 j 個廣義特徵向量 (下面會給出正式的定義),若 j=1,則 \mathbf{x}_{i1} 為一般特徵向量。此例中,對應 \lambda=2 的特徵向量為 \mathbf{x}_{11}\mathbf{x}_{21},廣義特徵向量為 \mathbf{x}_{12},將關鍵方程式展開可得

\begin{aligned} A\mathbf{x}_{11}=2\mathbf{x}_{11}~~&\Rightarrow~~(A-2I)\mathbf{x}_{11}=\mathbf{0}\\  A\mathbf{x}_{12}=2\mathbf{x}_{12}+\mathbf{x}_{11}~~&\Rightarrow~~(A-2I)^2\mathbf{x}_{12}=(A-2I)\mathbf{x}_{11}=\mathbf{0}\\  A\mathbf{x}_{21}=2\mathbf{x}_{21}~~&\Rightarrow~~(A-2I)\mathbf{x}_{21}=\mathbf{0}\end{aligned}

我們定義 \mathbf{x}\neq\mathbf{0} 為對應特徵值 \lambda 的廣義特徵向量,若

(A-\lambda I)^m\mathbf{x}=\mathbf{0}

其中 m 為滿足上式的最小正整數,也就是說,\mathbf{x}\in N(A-\lambda I)^{m},但 \mathbf{x}\notin N(A-\lambda I)^{m-1}。故當 m=1 時,廣義特徵向量即為一般特徵向量。如同特徵向量構成特徵空間,廣義特徵向量所形成的集合再加入零向量,即 N(A-\lambda I)^m,也是 \mathbb{C}^n 的一個子空間,稱之為廣義特徵空間。

 
利用高斯消去法將上例的特徵空間 N(A-2I)=\mathrm{span}\{\mathbf{v}_1,\mathbf{v}_2\} 解出,其基底向量為

\mathbf{v}_{1}=\begin{bmatrix}  1\\  0\\  1  \end{bmatrix},~ \mathbf{v}_2=\begin{bmatrix}  0\\  1\\  2  \end{bmatrix}

對應 \lambda 的特徵向量 \mathbf{x}_{11}\mathbf{x}_{21} 必屬於特徵空間 N(A-\lambda I),但是並非 N(A-\lambda I) 中任一特徵向量都能夠產生廣義特徵向量。不論設 \mathbf{x}_{11}=\mathbf{v}_1\mathbf{x}_{11}=\mathbf{v}_2,都無法由方程式 (A-2I)\mathbf{x}_{12}=\mathbf{x}_{11} 求出廣義特徵向量 \mathbf{x}_{12},此現象發生的原因在於基底向量 \mathbf{v}_1\mathbf{v}_2 皆不位於行空間 (column space) C(A-2I) 內。惟有從 N(A-2I)\cap C(A-2I) 挑選出 \mathbf{x}_{11},才能使解得 \mathbf{x}_{12}

 
推廣至一般情況,對於任何 m 階基本 Jordan 分塊,又該如何選擇 \mathbf{x}_{i1} 使能生成一串廣義特徵向量 \mathbf{x}_{i2},\mathbf{x}_{i3},\ldots,\mathbf{x}_{im}?考慮下列特徵向量和廣義特徵向量關係式:

\begin{aligned} A\mathbf{x}_{i1}&=\lambda\mathbf{x}_{i1}\\  A\mathbf{x}_{i2}&=\lambda\mathbf{x}_{i2}+\mathbf{x}_{i1}\\  A\mathbf{x}_{i3}&=\lambda\mathbf{x}_{i3}+\mathbf{x}_{i2}\\  &\vdots\\  A\mathbf{x}_{im}&=\lambda\mathbf{x}_{im}+\mathbf{x}_{i,m-1}\end{aligned}

將方程式組改寫為

\begin{aligned} (A-\lambda I)\mathbf{x}_{i1}&=\mathbf{0}\\  (A-\lambda I)\mathbf{x}_{i2}&=\mathbf{x}_{i1}\\  (A-\lambda I)\mathbf{x}_{i3}&=\mathbf{x}_{i2}~~\Rightarrow~~(A-\lambda I)^2\mathbf{x}_{i3}=\mathbf{x}_{i1}\\  &\vdots\\  (A-\lambda I)\mathbf{x}_{im}&=\mathbf{x}_{i,m-1}~~\Rightarrow~~(A-\lambda I)^{m-1}\mathbf{x}_{im}=\mathbf{x}_{i1}\end{aligned}

可知特徵向量 \mathbf{x}_{i1} 必須屬於 N(A-\lambda I) 和所有 i=1,\ldots,pC(A-\lambda I)^p 之交集。對於任意方陣 B,冪矩陣的行空間具有包容關係:C(B^{p+1})\subseteq C(B^p),理由如下。設 \mathbf{x}\in C(B^{p+1}),即存在 \mathbf{y} 使得 \mathbf{x}=B^{p+1}\mathbf{y},令 \mathbf{z}=B\mathbf{y},就有 \mathbf{x}=B^p\mathbf{z},故 \mathbf{x}\in C(B^p)。所以

\displaystyle\bigcap_{i=1}^{m-1}C(A-\lambda I)^i=C(A-\lambda I)^{m-1}

欲生成廣義特徵向量串 \mathbf{x}_{i2},\ldots,\mathbf{x}_{im},我們只要確定帶頭的特徵向量 \mathbf{x}_{i1} 起源於 N(A-\lambda I)\cap C(A-\lambda I)^{m-1} 即可,m 為特徵向量 \mathbf{x}_{i1} 帶領的基本 Jordan 分塊階數。

 
還有一個問題要釐清,我們如何確知存在廣義特徵向量串 \mathbf{x}_{ij} 使得 M 為可逆矩陣?根據以下事實:n\times n 階矩陣 A 的廣義特徵向量 (含特徵向量) 可作為 \mathbb{C}^n 基底,故保證 M 為可逆矩陣。由於證明過程冗長,在此不加贅述,請讀者參閱“拒絕行列式的特徵分析”之定理五。

 
下面我用一個例子說明廣義特徵向量的尋找程序 (取自台大數研所2008入學試題):

A=\begin{bmatrix}  3&1&1&2\\  0&3&0&1\\  0&0&3&2\\  0&0&0&3  \end{bmatrix}

步驟一:計算特徵值與特徵向量

上三角矩陣的主對角元即為其特徵值,故 A 的特徵多項式為 p_A(t)=(t-3)^4A 有特徵值 \lambda=3,代數重數為 4。利用高斯消去法化簡 A-3I,可得

A-3I=\begin{bmatrix}  0&1&1&2\\  0&0&0&1\\  0&0&0&2\\  0&0&0&0  \end{bmatrix}\rightarrow\begin{bmatrix}  0&1&1&0\\  0&0&0&1\\  0&0&0&0\\  0&0&0&0  \end{bmatrix}

從簡約列梯形式立得特徵空間 N(A-3I) 基底為

\mathbf{v}_1=\begin{bmatrix}  1\\  0\\  0\\  0  \end{bmatrix},~ \mathbf{v}_2=\left[\!\!\begin{array}{r}  0\\  -1\\  1\\  0  \end{array}\!\!\right]

特徵值 \lambda=3 的幾何重數為 \mathrm{dim}N(A-3I)=2

 
步驟二:求 Jordan 矩陣 J

因為 \lambda=3 的幾何重數等於 2,可知 Jordan 矩陣 J 可能包含兩個 2\times 2 階基本 Jordan 分塊,或一個 3\times 3 階和一個 1\times 1 階基本 Jordan 分塊;前者指標為 2,後者指標為 3。對應特徵值 \lambda 的指標計算程序如下:算出 \mathrm{rank}(A-\lambda I)^pp=1,2,\ldots 直到矩陣秩停止改變,即 \mathrm{rank}(A-\lambda I)^p=\mathrm{rank}(A-\lambda I)^{p+1},此 p 值即為指標。結果如下:

\begin{aligned} A-3I=\begin{bmatrix}  0&1&1&2\\  0&0&0&1\\  0&0&0&2\\  0&0&0&0  \end{bmatrix}&~~\Rightarrow~~\mathrm{rank}(A-3I)=2\\  (A-3I)^2=\begin{bmatrix}  0&0&0&3\\  0&0&0&0\\  0&0&0&0\\  0&0&0&0  \end{bmatrix}&~~\Rightarrow~~\mathrm{rank}(A-3I)^2=1\\  (A-3I)^3=0&~~\Rightarrow~~\mathrm{rank}(A-3I)^3=0\end{aligned}

可知 \lambda=3 的指標為 3,因此確定 J 包含一個 3\times 3 階和一個 1\times 1 階基本 Jordan 分塊:

J=\begin{bmatrix}  3&1&0&0\\  0&3&1&0\\  0&0&3&0\\  0&0&0&3  \end{bmatrix}

 
步驟三:計算廣義特徵向量

M=\begin{bmatrix}  \mathbf{x}_{11}&\mathbf{x}_{12}&\mathbf{x}_{13}&\mathbf{x}_{21}  \end{bmatrix},接下來的問題是尋找對應 3\times 3 階 Jordan 分塊的廣義特徵向量串 \mathbf{x}_{11}\mathbf{x}_{12}\mathbf{x}_{13},以及對應 1\times 1 階 Jordan 分塊的特徵向量 \mathbf{x}_{21},上述向量滿足

\begin{aligned} A\mathbf{x}_{11}&=3\mathbf{x}_{11}\\  A\mathbf{x}_{12}&=3\mathbf{x}_{12}+\mathbf{x}_{11}\\  A\mathbf{x}_{13}&=3\mathbf{x}_{13}+\mathbf{x}_{12}\\  A\mathbf{x}_{21}&=3\mathbf{x}_{21}\end{aligned}

特徵向量 \mathbf{x}_{11} 必須屬於 N(A-3I)\cap C(A-3I)^2,亦即 \mathbf{x}_{11}\in N(A-3I) 且方程式 (A-3I)^2\mathbf{y}=\mathbf{x}_{11} 有解 (或者說一致) 。設 \mathbf{x}_{11}=\alpha\mathbf{v}_1+\beta\mathbf{v}_2,代入上式可得

\begin{bmatrix}  0&0&0&3\\  0&0&0&0\\  0&0&0&0\\  0&0&0&0  \end{bmatrix}\begin{bmatrix}  y_1\\  y_2\\  y_3\\  y_4  \end{bmatrix}=\alpha\begin{bmatrix}  1\\  0\\  0\\  0  \end{bmatrix}+\beta\left[\!\!\begin{array}{r}  0\\  -1\\  1\\  0  \end{array}\!\!\right]=\left[\!\!\begin{array}{r}  \alpha\\  -\beta\\  \beta\\  0  \end{array}\!\!\right]

解得 \mathbf{x}_{11} 的產生條件為 \alpha\neq 0\beta=0。為簡化數值,令 \alpha=3,則

\mathbf{x}_{11}=\begin{bmatrix}  3\\  0\\  0\\  0  \end{bmatrix}

再由方程式 (A-3I)\mathbf{x}_{12}=\mathbf{x}_{11}(A-3I)\mathbf{x}_{13}=\mathbf{x}_{12},依序解出

\mathbf{x}_{12}=\begin{bmatrix}  2\\  1\\  2\\  0  \end{bmatrix},~ \mathbf{x}_{13}=\begin{bmatrix}  0\\  0\\  0\\  1  \end{bmatrix}

由於 \mathbf{x}_{11} 恰與基底向量 \mathbf{v}_1 同向,故設對應 1\times 1 階 Jordan 分塊的特徵向量為 \mathbf{x}_{21}=\mathbf{v}_2。最後將求得的特徵向量與廣義特徵向量合併成座標變換矩陣 M,並算出 M^{-1},如下:

M=\left[\!\!\begin{array}{cccr}  3&2&0&0\\  0&1&0&-1\\  0&2&0&1\\  0&0&1&0  \end{array}\!\!\right],~ M^{-1}=\left[\!\!\begin{array}{rrrr}  \frac{1}{3}&-\frac{2}{9}&-\frac{2}{9}&0\\[0.3em]  0&\frac{1}{3}&\frac{1}{3}&0\\[0.3em]  0&0&0&1\\[0.3em]  0&-\frac{2}{3}&\frac{1}{3}&0  \end{array}\!\!\right]

讀者可自行驗算確認 M^{-1}AM=J

Advertisements
本篇發表於 線性代數專欄, 典型形式 並標籤為 , , , , 。將永久鏈結加入書籤。

13 則回應給 Jordan 形式大解讀之尋找廣義特徵向量

  1. 匿名 說道:

    1.
    想請問一下只要帶頭的特徵向量X(i1)起源於N(A-λI)跟C(A-λI)即可求出其他的廣義特徵向量嗎?? 會不會我求到(假設)(A-λI)X(i4)=X(i3)
    X(i4)會有求不出來的情況? 這邊想問的是只要"帶頭的"滿足起源於N(A-λI)跟C(A-λI)即可?

    2.C(A-λI)^m-1 可以直接用C(A-λI)的條件取代嗎?

  2. ccjou 說道:

    1. \mathbf{x}_{i1} 是廣義特徵向量家族(對應 m\times m 階基本 Jordan 分塊)的特徵向量(母雞),由此可生成 m-1 個廣義特徵向量(小雞),上文從生成過程解釋了 \mathbf{x}_{i1} 必須屬於 N(A-\lambda I)\cap C(A-\lambda I)^{m-1},而不是 N(A-\lambda I)\cap C(A-\lambda I)
    2. 不行,理由如1。

  3. 匿名 說道:

    我X(11)取[1 0 0 0]^t
    X(12)取[0 1 0 0]^t
    X(13)會無解??

    請問哪邊有問題哩? 我X(11)有符合N(A-λI)跟C(A-λI)^2

  4. 匿名 說道:

    想在請問一下
    [0 1 1 2]
    [0 0 0 1]
    [0 0 0 2]X2=X1
    [0 0 0 0]
    如果X2要有解的話,X1不是應該是屬於(A-2I)
    怎麼會是(A-2I)^2?

  5. ccjou 說道:

    啊,這是我的疏忽,上文沒有寫清楚。欲從 \mathbf{x}_{12} 生成 \mathbf{x}_{13},下列方程式就必須有解:
    (A-\lambda I)\mathbf{x}_{13}=\mathbf{x}_{12}
    換句話說,\mathbf{x}_{12} 必定屬於 C(A-\lambda I)

    若令 \mathbf{x}_{11}=(1,0,0,0)^T,由 (A-3I)\mathbf{x}_{12}=\mathbf{x}_{11} 可解出
    \mathbf{x}_{12}=(0,1,0,0)+c_1(1,0,0,0)+c_2(0,-1,1,0)
    但如果你設 c_1=c_2=0,即 \mathbf{x}_{12}=(0,1,0,0)^T,則 \mathbf{x}_{12} 不屬於 C(A-3I),因此解不出 \mathbf{x}_{13}。但如果令 c_2=2/3c_1=2/3(或任何數),則 \mathbf{x}_{12}=(1/3)(2,1,2,0)^T 屬於 C(A-3I),也就可以順利求出 \mathbf{x}_{13}

  6. 匿名 說道:

    那同樣的
    [0 1 1 2]
    [0 0 0 1]
    [0 0 0 2]X(12)=X(11)
    [0 0 0 0]
    如果X(12)要有解的話,X(11)不是應該是屬於(A-2I)
    怎麼會是(A-2I)^2 也就是文中所提到的C(A-λI)^m-1??
    不是應該都滿足C(A-λI) 而不是C(A-λI)^m-1

  7. ccjou 說道:

    因為 C((A-\lambda I)^{k+1})\subseteq C((A-\lambda I)^k),既然有\mathbf{x}_{11}\in C((A-\lambda I)^2),必定 \mathbf{x}_{11}\in C(A-\lambda I)。如果你挑選的 \mathbf{x}_{11} 屬於 C(A-\lambda I) 但不屬於 C((A-\lambda I)^2),例如 \mathbf{x}_{11}=(2,1,2,0)^T,則無法生成兩個廣義特徵向量。

  8. 匿名 說道:

    請問我可以用X(13)屬於N(A-λI)^3 – N(A-λI)^2
    然後去反推出X(12),X(11)這樣嗎??

  9. ccjou 說道:

    這個想法很有意思,我也很喜歡反過來做。不過 N(A-\lambda I)^3-N(A-\lambda I)^2 “太大"了,隨便從裡面挑選 \mathbf{x}_{13} 並不能保證最後得到的 \mathbf{x}_{11} 滿足 A\mathbf{x}_{11}=\lambda\mathbf{x}_{11}

  10. 匿名 說道:

    為什麼隨便從裡面挑選X(13)並不能保證最後得到的X(11)滿足(A-λI)X(11)=0呢?

    N(A-λI)X(11)=0
    N(A-λI)X(12)=X(11)
    N(A-λI)X(13)=X(12)

    怎麼不會滿足?

  11. ccjou 說道:

    嗯,反過來做似乎是可行的,那麼問題就變成如何"有效地"計算 N(A-\lambda I)^{m}-N(A-\lambda)^{m-1}

  12. 匿名 說道:

    不好意思在請教一下

    AX(12)=2X(12)+X(11) => (A-2I)^2 X(12) = (A-2I)X11 = 0

    請問這邊X(12)是屬於Ker(A-2I)^2 還是Ker(A-2I)^2 – Ker(A-2I)呢??

  13. ccjou 說道:

    因為 (A-2I)^2x_{12}=0,這指出 x_{12}\in\mathrm{Ker}(A-2I)^2,但如果 x_{12}\in\mathrm{ker}(A-2I),即 (A-2I)x_{12}=0,則 x_{12} 就成為特徵向量,而
    Ax_{12}=2x_{12}+x_{11} 也就不成立,因 x_{11} 是非零向量。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s