拒絕行列式的特徵分析

本文的閱讀等級:高級

美國詩人佛洛斯特 (Robert Frost) 最常被吟誦的一首詩大概是〈未擇之路〉(The road not taken)。這首詩意境優美,淺白詩句底下蘊含人生省思,全詩分四段,這是第一段[1]

Two roads diverged in a yellow wood,
And sorry I could not travel both
And be one traveler, long I stood
And looked down one as far as I could
To where it bent in the undergrowth;

 
線性代數的世界也不乏「林中有兩條路」的情境,線性變換和矩陣運算就是一個典型的例子。線性變換是矩陣的抽象描述,矩陣則是線性變換的具體實現。我們可以將 A\mathbf{x} 看作線性變換,也可將它想成矩陣乘法,不過這兩條路並非全無交集,不同之處在於操作的語言和概念。然而,當我們進入特徵分析領域時,眼前確實存在兩條差異極大的道路:多數人選擇利用行列式來推導理論,少數人則拋棄行列式轉而另闢蹊徑。美國數學教授阿斯勒 (Sheldon Axler) 是少數人的代表,他在1994年發表宣示文〈斷絕行列式〉(Done with determinants!),具體明白地表達了「反行列式」的革命思想[2]。阿斯勒抱持的理由是行列式難以理解,不具直覺,且常在缺乏動機的情況下被定義出來。由於絕大多數教科書都將矩陣特徵值理論建立於行列式之上,讀者朋友們可能從沒聽過阿斯勒其人,更不知道原來林中還有一條人跡罕至的山徑。為相互參照,本文先簡略回顧多數人採行的行列式特徵分析法,接著以〈斷絕行列式〉為藍本介紹「拒絕行列式的特徵分析」,文中交互使用矩陣與線性變換,並修改重寫了部分定理和證明。

 
A 為一 n\times n 階矩陣。若存在 \mathbf{x}\neq\mathbf{0} 使得 A\mathbf{x}=\lambda\mathbf{x},我們稱 \lambdaA 的特徵值,\mathbf{x} 為對應 \lambda 的特徵向量。又設 A 有相異特徵值 \lambda_1,\ldots,\lambda_m,特徵值 \lambda_j 的代數重數 (algebraic multiplicity) 記為 \beta_j,且 \sum_{j=1}^m\beta_j=n,兩種特徵分析法將各自給出不同面向的代數重數定義。特徵值 \lambda_j 的幾何重數 (geometric multiplicity) 等於對應的線性獨立特徵向量個數,也就是零空間的維數 \dim N(A-\lambda_j I)。以下我將討論焦點設定在五個基本問題:

  1. 任意方陣 A 必有一特徵值 \lambda
  2. 方陣 A 的相異特徵值個數不大於 n,即 m\le n
  3. 判定特徵值 \lambda_j 的代數重數 \beta_j
  4. 任意特徵值 \lambda_j 的幾何重數不大於代數重數;
  5. 定義特徵多項式 (characteristic polynomial)。

上述問題編號是隨意安排的,並不具強制性。

Then took the other, as just as fair,
And having perhaps the better claim
Because it was grassy and wanted wear,
Though as for that the passing there
Had worn them really about the same,

 
多數人走的路

方陣 A 有一特徵值 \lambda 若存在 \mathbf{x}\neq\mathbf{0} 使得 A\mathbf{x}=\lambda\mathbf{x}。將左式改寫為 (A-\lambda I)\mathbf{x}=\mathbf{0}A 有一特徵值 \lambdaN(A-\lambda I)\neq\{\mathbf{0}\},亦即 A-\lambda I 不可逆,等價條件是 \mathrm{det}(A-\lambda I)=0。因此,我們定義 n 階方陣 A 的特徵多項式為

p(t)=\mathrm{det}(A-tI)

A 的特徵值即為 p(t) 的根。展開 \mathrm{det}(A-tI),可知 p(t) 為一 n 次多項式:

p(t)=(-t)^{n}+a_{n-1}(-t)^{n-1}+\cdots+a_1(-t)+a_0

根據代數基本定理,n 次多項式 p(t) 恰有 n 個根,也就是說,包含重根在內,An 個特徵值,所以相異特徵值個數 m 必定不大於 n。接著定義特徵值 \lambda_j 的代數重數 \beta_j 為其重根數,也就有 \sum_{j=1}^m\beta_j=n,故特徵多項式 p(t) 可表示為

p(t)=(\lambda_1-t)^{\beta_1}(\lambda_2-t)^{\beta_2}\cdots(\lambda_m-t)^{\beta_m}

這條多數人走的路從行列式定義特徵多項式出發,回答問題 (5) 之後,運用初等代數隨即解決了問題 (1),(2) 和 (3)。至於問題 (4),請讀者參閱“可對角化矩陣與缺陷矩陣的判定”文末的證明,這個證明同樣也使用以行列式定義的特徵多項式。

And both that morning equally lay
In leaves no step had trodden black.
Oh, I marked the first for another day!
Yet knowing how way leads on to way
I doubted if I should ever come back.

 
較少人走的路

行走這條道路需要攜帶一些特別裝備。考慮一定義於向量空間 \mathcal{V} 的線性變換 A,設 \mathcal{X}\subseteq\mathcal{V} 為一子空間,A(\mathcal{X}) 代表子空間向量經 A 映射後的像所成的集合,亦即 A(\mathcal{X})=\{A\mathbf{x}\vert\mathbf{x}\in\mathcal{X}\}。如果 A(\mathcal{X})\subseteq\mathcal{X},我們稱 \mathcal{X} 為線性變換 A 的一個不變子空間 (invariant subspace)。

 
藉助下面的定理我們首先回答問題 (1):n 階方陣 A 有一特徵值 \lambda

 
定理一:對於 n\times n 階矩陣 A,若 \mathcal{X}\subseteq\mathbb{C}^nA 的一個不變子空間且 \mathcal{X}\neq\{\mathbf{0}\},則存在 (非零) 特徵向量 \mathbf{x}\in\mathcal{X} 使得 A\mathbf{x}=\lambda\mathbf{x}

 
證明於下。設 \dim \mathcal{X}=r0<r\le n。考慮非零向量 \mathbf{x}\in\mathcal{X},向量集 \{\mathbf{x}, A\mathbf{x}, A^2\mathbf{x},\ldots,A^r\mathbf{x}\} 屬於 \mathcal{X} 且必定線性相關,因為 r 維子空間 \mathcal{X} 容不下 r+1 個獨立向量。因此,存在不全為零的數 c_0,c_1,\ldots,c_r 使得

c_0\mathbf{x}+c_1A\mathbf{x}+\cdots+c_rA^r\mathbf{x}=\mathbf{0}

s 為最大指標滿足 c_s\neq 0,顯然 0<s\le r。將 c_i 當成一 r 次多項式的係數並分解為

c_0+c_1t+\cdots+c_rt^r=c_s(t-\mu_1)\cdots(t-\mu_s)

其中每個 \mu_j\in\mathbb{C}。同樣形式的矩陣多項式也有相同的分解式,如下:

\mathbf{0}=(c_0I+c_1A+\cdots+c_rA^r)\mathbf{x}=c_s(A-\mu_1I)\cdots(A-\mu_sI)\mathbf{x}

等號右邊的矩陣乘法算式至少有一 \mu_j 和某向量 \mathbf{v}\neq\mathbf{0} 使 (A-\mu_jI)\mathbf{v}=\mathbf{0}。換句話說,A 必定有一特徵向量 \mathbf{v}\in\mathcal{X} 對應特徵值 \mu_j

 
將定理一的不變子空間 \mathcal{X} 替換為 \mathbb{C}^n 即可回答問題 (1)。

 
問題 (2) 的證明利用下面這個性質:

 
定理二:對應相異特徵值 \lambda_1,\ldots,\lambda_m 的特徵向量 \mathbf{x}_1,\ldots,\mathbf{x}_m 組成一線性獨立集。

 
證明請見“相異特徵值對應線性獨立的特徵向量之簡易證明”,文中所述兩個證法並未使用行列式。由於 \mathbf{x}_j\in\mathbb{C}^nj=1,\ldots,m 是線性獨立的,但獨立的 n 維向量總數不大於 n,故相異特徵值總數 m 不大於 n

 
問題 (3) 看似簡單,其實不然,還需要再增加配備。我們定義 \mathbf{x}\neq\mathbf{0} 為對應特徵值 \lambda 的廣義特徵向量 (generalized eigenvector) 若

(A-\lambda I)^k\mathbf{x}=\mathbf{0}

其中 k 為滿足上式的最小正整數,稱為指標 (index)。當 k=1 時,廣義特徵向量即為一般特徵向量。如同特徵向量構成特徵空間,廣義特徵向量所形成的集合再加入零向量也是 \mathbb{C}^n 中的一個子空間,即 N\left((A-\lambda I)^k\right),我們稱它為廣義特徵空間。事實上,不必考慮 k>n 的情況,因為有此性質:

 
定理三:\lambdan 階方陣 A 的一特徵值且 k 為其指標,則

\displaystyle N\left((A-\lambda I)^k\right)=N\left((A-\lambda I)^n\right)

 
\mathbf{x}\neq\mathbf{0} 為對應 \lambda 的廣義特徵向量,指標為 k。利用處理問題 (1) 的相同手法,我們可嘗試證明當 (A-\lambda I)^k\mathbf{x}=\mathbf{0} 時,\{\mathbf{x},(A-\lambda I)\mathbf{x},\ldots,(A-\lambda I)^{k-1}\mathbf{x}\} 是線性獨立向量集,所以必定有 k\le n。考慮線性組合式

c_0\mathbf{x}+c_1(A-\lambda I)\mathbf{x}+\cdots+c_{k-1}(A-\lambda I)^{k-1}\mathbf{x}=\mathbf{0}

等號兩邊同乘 (A-\lambda I)^{k-1},利用已知條件可得 c_0(A-\lambda I)^{k-1}\mathbf{x}=\mathbf{0},就有 c_0=0。再來,等號兩邊同乘 (A-\lambda I)^{k-2},可得 c_1(A-\lambda I)^{k-1}\mathbf{x}=\mathbf{0},也就有 c_1=0。持續運用同樣方式可證得 c_j=0j=0,1,\ldots,k-1。明顯地,當 j>kN\left((A-\lambda I)^j\right)=N\left((A-\lambda I)^k\right)。這個結果將留待定理四的證明使用。

 
針對一特徵值 \lambda_j,我們定義代數重數 \beta_j 為其廣義特徵向量集所擴張的子空間維數,即 \beta_j=\dim N\left((A-\lambda_jI)^{n}\right)。(廣義特徵空間的維數大於或等於特徵值的指標,\dim N\left((A-\lambda I)^n\right)\ge k,這與本文討論的問題無關,在此省略說明。) 但要如何解釋 \sum_{j=1}^m\beta_j=n?令 R(B) 代表方陣 B 的值域 (range),也就是 B 的行空間 C(B)。向量空間 \mathbb{C}^n 可分割為不交集的兩部分:廣義特徵空間 N\left((A-\lambda I)^n\right) 和值域 R\left((A-\lambda I)^n\right) (見“核心─冪零分解”):

 
定理四:\lambdan 階方陣 A 的一特徵值,則

\displaystyle  N\left((A-\lambda I)^n\right)\oplus R\left((A-\lambda I)^n\right)=\mathbb{C}^n

 
證明於下。由秩—零度定理可知

\dim N\left((A-\lambda I)^n\right)+\dim R\left((A-\lambda I)^n\right)=n

剩下來只要證明 N\left((A-\lambda I)^n\right)\cap R\left((A-\lambda I)^n\right)=\{\mathbf{0}\} 即可。設 \mathbf{x}\in N\left((A-\lambda I)^n\right)\cap R\left((A-\lambda I)^n\right),則 (A-\lambda I)^n\mathbf{x}=\mathbf{0} 且存在 \mathbf{y} 使得 \mathbf{x}=(A-\lambda I)^n\mathbf{y},合併二式可得 (A-\lambda I)^{2n}\mathbf{y}=\mathbf{0},這說明 \mathbf{y}\in N\left((A-\lambda I)^{2n}\right),利用定理三得知 N\left((A-\lambda I)^{2n}\right)=N\left((A-\lambda I)^n\right),所以 \mathbf{x}=(A-\lambda I)^n\mathbf{y}=\mathbf{0}。證畢。

 
下面的定理非常重要,稱為主要分解定理 (principal decomposition theorem),它描述了方陣 A 所表示的線性變換結構。

 
定理五:所有的廣義特徵向量可擴張 \mathbb{C}^n

 
先將 \mathbb{C}^n 分解為廣義特徵空間 N\left((A-\lambda_1I)^n\right) 和值域 R\left((A-\lambda_1I)^n\right)。計算

\begin{aligned} A(A-\lambda_1 I)^n&=A(A-\lambda_1I)(A-\lambda_1I)^{n-1}\\  &=(A-\lambda_1 I)A(A-\lambda_1 I)^{n-1}\\ &=\cdots=(A-\lambda_1 I)^nA\end{aligned}

對於任意 \mathbf{y}\in R\left((A-\lambda_1 I)^n\right)\mathbf{y} 可寫為 \mathbf{y}=(A-\lambda_1 I)^n\mathbf{z},就有

A\mathbf{y}=A(A-\lambda_1 I)^n\mathbf{z}=(A-\lambda_1 I)^nA\mathbf{z}

所以,A\mathbf{y}\in R\left((A-\lambda I)^n\right),也就是說 R\left((A-\lambda_1 I)^n\right)A 的一個不變子空間。因為 \dim N\left((A-\lambda_1I)^n\right)\ge 1\dim R\left((A-\lambda_1I)^n\right)<n。由定理一,不變子空間必定有一特徵值,故子空間 R\left((A-\lambda_1I)^{n}\right) 也可以分解為廣義特徵空間和另一不變子空間的直和。繼續此程序分割不變子空間,直到整個 \mathbb{C}^n 被廣義特徵空間占滿為止。換句話說,廣義特徵向量足以擴張出 \mathbb{C}^n

 
下面這個性質可以幫助我們釐清廣義特徵空間之間的關係。

 
定理六:子空間 N\left((A-\lambda I)^n\right) 僅存在唯一特徵值 \lambda

 
考慮非零向量 \mathbf{x}\in N\left((A-\lambda I)^n\right),假設\lambda\neq\lambda^{\prime}A\mathbf{x}=\lambda^{\prime}\mathbf{x},則 (A-\lambda I)\mathbf{x}=(\lambda^{\prime}-\lambda)\mathbf{x},因此 (A-\lambda I)^n\mathbf{x}=(\lambda^{\prime}-\lambda)^n\mathbf{x}。但已知 (A-\lambda I)^n\mathbf{x}=\mathbf{0}\lambda^{\prime}-\lambda\neq 0,故 \mathbf{x}=\mathbf{0},這和最初假設矛盾,所以必定有 \lambda=\lambda^{\prime}

 
既然廣義特徵空間僅存在唯一特徵值,推知對應相異特徵值的廣義特徵空間不交集,因此對應相異特徵值的廣義特徵向量是線性獨立的。這個必然結果是定理二的推廣。

 
至此必要武器已經備妥,我們可以正式對問題 (3) 發動攻擊。因為 A 所有的廣義特徵向量可擴張 \mathbb{C}^n,而且對應相異特徵值的廣義特徵向量是線性獨立的,這兩個性質確定了 \mathbb{C}^n 可表示為所有廣義特徵向量空間的直和,如下:

\mathbb{C}^n=N\left((A-\lambda_1 I)^n\right)\oplus\cdots\oplus N\left((A-\lambda_m I)^n\right)

也就有

n=\dim N\left((A-\lambda_1 I)^n\right)+\cdots+\dim N\left((A-\lambda_m I)^n\right)

然而 \beta_j=\dim N\left((A-\lambda_j I)^n\right),也就證明了 n=\beta_1+\cdots+\beta_m

 
利用前面得到的結果可以輕鬆解決問題 (4)。因為 N(A-\lambda I)\subseteq N\left((A-\lambda I)^n\right) (特徵向量必屬於廣義特徵空間),對應特徵值 \lambda 的線性獨立特徵向個數必定不大於線性獨立的廣義特徵向量數。對應 \lambda 的幾何重數就是線性獨立的特徵向量個數,而代數重數又等於線性獨立的廣義特徵向量總數,所以幾何重數必不大於代數重數。

 
最後,我們回答問題 (5)。n 階方陣 A 的特徵多項式定義如下:

p(t)=(t-\lambda_1)^{\beta_1}\cdots(t-\lambda_m)^{\beta_m}

特徵多項式誕生的時點與行列式定義的特徵多項式相反,我們先說明 An 個特徵值,裡面包含相重數,然後才根據這個事實定義特徵多項式。特徵多項式是終點,而非起點。

 
討論

以行列式為基礎的特徵分析法為代數導向,拒絕行列式的特徵分析法則為幾何導向。阿斯勒宣稱拒絕行列式的特徵分析法不但更清楚簡單,並且提供更多的見識。假使事情果真如他所述,那麼為何多數現行教科書仍然採用行列式方法來發展矩陣特徵值理論呢?初次接觸行列式的人多少對它詭異的計算方式感到困惑,想要掌握行列式的直觀意義確實不容易。但不論真懂假懂,中學生已學習如何計算行列式也明瞭其基本性質,這是既成的事實。一旦我們接納了它,就難以否認以行列式定義特徵多項式是最為直接簡明的論述方式。再說,對多數讀者而言,「反行列式」方法的論述過程並不順暢平直。引進廣義特徵向量配合向量空間操作的確能豐富線性結構分析的幾何面貌,但付出高昂的代價未必符合比例原則。今天選擇權在編寫教材的專家手上,他們預想讀者的背景與興趣,其間幾經權衡取捨,最終多數專家還是引領讀者踏上多數人走的路。

 
回到 Frost 的詩。敘事者在最末段以一種略帶感懷的口吻道出當年自己選擇了較少人走的路,此後的結果也因而不同。

I shall be telling this with a sigh
Somewhere ages and ages hence:
Two roads diverged in a wood, and I,
I took the one less traveled by,
And that has made all the difference.

 
註解:
[1] 欲深入瞭解 The road not taken 的讀者可閱讀維基百科:The Road Not Taken (poem)
[2] Sheldon Axler 為數學系學生撰寫的線性代數教科書 Linear algebra done right, 2nd edition

This entry was posted in 特徵分析, 線性代數專欄 and tagged , , , , , , , , . Bookmark the permalink.

11 則回應給 拒絕行列式的特徵分析

  1. ccjou 說:

    講個跟本文有關的故事。

    話說T老師宣布從今天起學生在課堂上通通不准用行列式解矩陣特徵值,但T也沒交代手算小矩陣如 A=\begin{bmatrix} 0&1\\ 3&2 \end{bmatrix} 的特徵值該用什麼方法。

    有個S學生自從開學時聽完高斯消去法後就失去蹤影,那天竟然無端返回教室,S只知道特徵值 \lambda 使得 A-\lambda I 不可逆,便以消去法將矩陣化簡為梯形:
    \begin{bmatrix} 0-\lambda&1\\ 3&2-\lambda \end{bmatrix}\rightarrow\begin{bmatrix} 3&2-\lambda\\ -\lambda&1 \end{bmatrix}\rightarrow\begin{bmatrix} 3&2-\lambda\\ 0&1+\lambda(2-\lambda)/3 \end{bmatrix}
    S還記得當 A-\lambda I 的軸元數小於 2 時,就不可逆,於是從
    \lambda^2-2\lambda-3=0 解出 \lambda=3, -1

    T老師究竟應該將S當掉,還是給他全班最高分?

  2. rich 說:

    WOW~
    真是個好方法~不用行列式即可求出矩陣之特徵值

  3. WillWin 說:

    Amazing!!!

  4. super6602 說:

    老師 假設一個k重根的eigenvalue,僅有一個eigenvector
    在現代控制課程中 這樣定義廣義eigenvector:
    (A-pI)x1=0 ——(1)
    (A-pI)x2=x1 ——(2)
    ……
    (A-pI)x(k-1)=x(k-2) ——(k-1)

    將(2)式再乘上(A-pI),左式就會成為(1)式,右式是(A-pI)^2*x2
    相同的步驟,就會得到:(A-pI)^k*x(k-1)=0

    而在本篇定理三的證明中,是直接尋找到一個x能夠滿足(A-pI)^k*x=0
    接著去證明出,(A-pI)x、…(A-pI)^(k-1)*x都是線性獨立的
    而這些向量都是N(A-pI)^k的基底

    所以,在N(A-pI)的維度不足以展延k維空間的情形下
    我們可以去找出N(A-pI)^k的基底來去span一個k維的空間

    也就是說,我們是有定理三的想法
    才會有我文中開頭之"廣義eigenvector"的定義囉?

    當初在上課時,莫名其妙的蹦出一個jordan form,讓人摸不著頭緒
    如果從定理三的思維回推回去的話,似乎就比較合邏輯一點

  5. ccjou 說:

    多數教科書是直接給出遞迴形式的廣義特徵向量定義,而非採用定理三的做法。之前我寫的有關 Jordan form 的介紹也是從相反方向推導,先承認(或猜測)有這樣的矩陣形式存在,然後便導出廣義特徵向量,這麼做確實會讓人有莫名其妙的感覺。不過如果一開始我們給出的命題是求 N(A-\lambda I)^k 的基底,又要如何解釋這背後的動機呢?是因為我們湊不足 N(A-\lambda I) 的基底向量,所以才轉而尋找 N(A-\lambda I)^k 的基底向量嗎?可是當初我們又怎麼想到 N(A-\lambda I)^k 竟然能夠提供一組可用的基底向量呢?這裡頭似乎仍有一堆疑問需要釐清。

  6. super6602 說:

    是的,老師點出我第二個納悶的地方,在得知eigenvalue有k重根的時
    到底是什麼想法讓我們轉而去尋找N(A-pI)^k
    為什麼不是1、2….n次,而是剛好是eigenvalue重根的數目
    (當然 定理三後面也說明到了N(A-pI)的n次與k次根本是同一個空間)
    真真令我糊塗也

  7. ccjou 說:

    在1960-1970年代出版的線性代數教科書大概都是這麼引入 Jordan form:
    (1) 先說明任意方陣 A 可以表示為冪零矩陣 (nilpotent)和可逆矩陣的直和:
    A=Q\begin{bmatrix} F&0\\ 0&G \end{bmatrix}Q^{-1}=Q(F\oplus G)Q^{-1}
    其中 F 是可逆矩陣,G 是冪零矩陣,上式也稱為 core-nilpotent decomposition,參見"核心-冪零分解"

    (2) 然後再介紹下面這個定理:設 n 階方陣 A 有相異特徵值 \lambda_1,\ldots,\lambda_m,代數重複數分別為 \beta_1,\ldots,\beta_m,則 \mathbb{C}^n 可以表示為
    C^n=S_1\oplus\cdots\oplus S_k
    其中 S_iA 的不變子空間,\mathrm{dim}S_i=\beta_i,且 (A-\lambda_iI) 對子空間 S_i 是冪零,即對於任意 \mathbf{x}\in S_i 必有 m\ge 1 使得 (A-\lambda_iI)^m\mathbf{x}=\mathbf{0}。此定理即上文所述
    \mathbb{C}^n=N(A-\lambda_1I)^n\oplus\cdots\oplus N(A-\lambda_mI)^n
    再由 \beta_i=\mathrm{dim}N(A-\lambda_iI)^n 說明我們能夠在 N(A-\lambda_iI)^n 中找到 \beta_i 個基底向量。

    這套論述最難讓人接受的原因在:打從開始我們始終看不出這一切跟 Jordan form 有何關聯,直到最後參考了這些向量構成的基底,Jordan form 竟然就冒出來了。這要不讓人糊塗也難啊!

  8. liang dai 說:

    好文!
    周老师提到的利用lambda矩阵的方法来得到特征值,貌似我在某些课本上也看到有从lambda矩阵推导出Jordan标准型的方法。当时感觉几何意义不明确,所以不是很有兴趣阅读下去。

  9. ccjou 說:

    我想你在課本上看到的方法是運用 elementary row & column operations 來計算矩陣的 elementary divisors,從而找出 Jordan form。這個方法確實有點索然無味。

  10. blue 說:

    已知特徵值和特徵向量求矩陣??

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s