右特徵向量與左特徵向量

本文的閱讀等級:中級

A 為一個 n\times n 階矩陣。若 \mathbf{x}\in\mathbb{C}^n\mathbf{x}\neq\mathbf{0},滿足 A\mathbf{x}=\lambda\mathbf{x},我們稱 \mathbf{x}A 的一個特徵向量,\lambda 是對應的特徵值。淺白地說,特徵向量 \mathbf{x} 經過矩陣 (線性變換) A 映射得到的像 (image) A\mathbf{x} 不改變方向,惟長度伸縮了 \lambda 倍。尼采在《查拉圖斯特拉如是說》裡說:

知識的擁護者必須不僅愛他的敵人,同樣地也必須能夠恨他的朋友。假如你總是自認是一位學生,那麼你從一位老師所獲得的將是非常貧乏的。

尼采的意思是,學生應當審問慎思,才能分辨老師和課本說的話究竟是教條戒律還是客觀真理。在線性代數中,我們總是默認向量是行向量 (column vector),故習以為常地在矩陣的右邊乘一行向量。倘若我們在矩陣的左邊乘一列向量 (row vector),是否也可以平行發展出一套特徵向量與特徵值理論?雖然教科書鮮少提及,但矩陣左乘一列向量並不是一個毫無意義的幼稚想法,下面我們就來探討這個問題。

 
若一非零向量 \mathbf{y}\in\mathbb{C}^n 使得 \mathbf{y}^\ast A=\lambda\mathbf{y}^\ast,則 \mathbf{y} 稱為 A 對應特徵值 \lambda 的一個左特徵向量。左特徵向量沒有統一的定義,另一個常見的定義式為 \mathbf{y}^TA=\lambda\mathbf{y}^T。這裡我們採用 \mathbf{y}^\ast=\overline{\mathbf{y}}^T 而非 \mathbf{y}^T 的用意在於方便表達複向量的內積 (複向量 \mathbf{x}\mathbf{y} 的內積定義為 \mathbf{x}^\ast\mathbf{y},見“內積的定義”)。為不造成混淆,本文稱滿足 A\mathbf{x}=\lambda\mathbf{x} 的非零向量 \mathbf{x} 為右特徵向量。左特徵方程 \mathbf{y}^\ast A=\lambda\mathbf{y}^\ast 等號兩邊取轉置,再計算共軛,可得

\displaystyle  \mathbf{y}^\ast A=\lambda\mathbf{y}^\ast\Leftrightarrow  A^T\overline{\mathbf{y}}=\lambda\overline{\mathbf{y}}  \Leftrightarrow A^\ast\mathbf{y}=\overline{\lambda}\mathbf{y}

所以,\overline{\mathbf{y}}A^T 對應特徵值 \lambda 的右特徵向量,而且更重要的是,\mathbf{y}A^\ast 對應特徵值 \overline{\lambda} 的右特徵向量。矩陣的特徵向量有左右之分,特徵值則無此區別,原因在於 AA^T 有相同的特徵值 (見“矩陣與其轉置的相似性”)。上面結果也說明如果 A 有特徵值 \lambda,則 A^\ast 有特徵值 \overline{\lambda}

 
在甚麼情況下,對應相同的特徵值,一個矩陣的左特徵向量等同右特徵向量?若 A 是一 Hermitian 矩陣,A^\ast=A,則特徵值必為實數 (見“特殊矩陣 (9):Hermitian 矩陣”),即 \overline{\lambda}=\lambda。因此,Hermitian 矩陣 A 對應任一特徵值 \lambda 的左特徵向量等於右特徵向量 (嚴格來說,左特徵空間等於右特徵空間)。對於非 Hermitian 矩陣,如果我們知道 A 的右特徵向量,由此得以演繹出 A 的左特徵向量嗎?除了正交性,右特徵向量和左特徵向量不存在明確的關係。下面的定理稱為雙正交原則 (principle of biorthogonality)。

 
定理一:若 A 是一個 n\times n 階矩陣,且 \lambda\muA 的兩個特徵值,\lambda\neq\mu,則對應 \mu 的任一左特徵向量正交於對應 \lambda 的任一右特徵向量。

\mathbf{y}\in\mathbb{C}^nA 對應 \mu 的一左特徵向量,\mathbf{x}\in\mathbb{C}^nA 對應 \lambda 的一右特徵向量。考慮 \mathbf{y}^\ast A\mathbf{x} 的兩種計算方式:

\displaystyle\begin{aligned}  \mathbf{y}^\ast A\mathbf{x}&=\mathbf{y}^\ast(\lambda\mathbf{x})=\lambda(\mathbf{y}^\ast\mathbf{x})\\  \mathbf{y}^\ast A\mathbf{x}&=(\mu\mathbf{y}^\ast)\mathbf{x}=\mu(\mathbf{y}^\ast\mathbf{x}).\end{aligned}

因為 \lambda\neq\mu\lambda\mathbf{y}^\ast\mathbf{x}=\mu\mathbf{y}^\ast\mathbf{x} 僅成立於 \mathbf{y}^\ast\mathbf{x}=0,證明 \mathbf{y}\mathbf{x} 彼此正交。

 
使用定理一立即可推論 Hermitian 矩陣對應相異特徵值的 (右) 特徵向量相互正交。另一方面,對應相同的特徵值,我們想知道一個矩陣的右特徵向量和左特徵向量具有甚麼關係。

 
定理二:若 A 是一個 n\times n 階矩陣,且 \lambdaA 的一個簡單特徵值 (simple eigenvalue),即 \lambda 的代數重數為 1,則對應 \lambda 的左特徵向量 \mathbf{y} 不正交於對應 \lambda 的右特徵向量 \mathbf{x},即 \mathbf{y}^\ast\mathbf{x}\neq 0

A\mathbf{x}=\lambda\mathbf{x}\mathbf{x}\neq\mathbf{0},且 \dim N(A-\lambda I)=1。根據 Schur 定理,A 相似於一分塊上三角矩陣 (見“矩陣三角化的 Schur 定理”):

\displaystyle  U^\ast AU=\begin{bmatrix}  \lambda&\ast\\  0&B  \end{bmatrix}

其中 U^\ast=U^{-1}U 的第一個行向量為 \mathbf{x}/\Vert\mathbf{x}\VertB 是一 (n-1)\times(n-1) 階矩陣,且 \lambda 不為 B 的特徵值。觀察可知 U^\ast AU\mathbf{e}_1=\lambda\mathbf{e}_1,故標準單位向量 \mathbf{e}_1U^\ast AU 的特徵向量,對應特徵值 \lambda。考慮

\displaystyle  (U^\ast AU)^\ast=U^\ast A^\ast U=\begin{bmatrix}  \overline{\lambda}&0\\  \ast&B^\ast  \end{bmatrix}

U^\ast A^\ast U\mathbf{z}=\overline{\lambda}\mathbf{z}\mathbf{z}\neq\mathbf{0}。若 \mathbf{z}=\begin{bmatrix}  0\\  \mathbf{w}  \end{bmatrix}\mathbf{w}\neq\mathbf{0},則

\displaystyle  U^\ast A^\ast U\mathbf{z}=\begin{bmatrix}  0\\  B^\ast\mathbf{w}  \end{bmatrix}=\begin{bmatrix}  0\\  \overline{\lambda}\mathbf{w}\end{bmatrix}

因此 \overline{\lambda}B^\ast 的特徵值,也就是說,\lambdaB 的特徵值,這與原命題矛盾,即知 \mathbf{z} 的第一個元必不等於零。所以,

\displaystyle  (U\mathbf{z})^\ast(U\mathbf{e}_1)=\mathbf{z}^\ast U^\ast U\mathbf{e}_1=\mathbf{z}^\ast\mathbf{e}_1\neq 0

使用矩陣運算,U^\ast A^\ast U\mathbf{z}=\overline{\lambda}\mathbf{z} 可表示為 (U\mathbf{z})^\ast A=\lambda(U\mathbf{z})^\ast,同樣地,U^\ast AU\mathbf{e}_1=\lambda\mathbf{e}_1 可表示為 A(U\mathbf{e}_1)=\lambda(U\mathbf{e}_1),這說明 U\mathbf{z}U\mathbf{e}_1 分別為 A 的左特徵向量和右特徵向量。因為 N(A-\lambda I)=1,必有 \mathbf{y}=\alpha U\mathbf{z}\alpha\neq 0,且 \mathbf{x}=\beta U\mathbf{e}_1\beta\neq 0,故 \mathbf{y}^\ast\mathbf{x}=\alpha\beta\mathbf{z}^\ast\mathbf{e}_1\neq 0

 
對於簡單特徵值,我們只能斷定左特徵向量和右特徵向量彼此不正交。但如果一個矩陣有完整的線性獨立的右特徵向量集,我們可以推得完整的線性獨立的左特徵向量集,反之亦然。

 
定理三:令 A 是一個 n\times n 階矩陣,\mathbf{x}_i\mathbf{y}_i 分別是對應特徵值 \lambda_i 的右特徵向量和左特徵向量,i=1,\ldots,n。若 A 可對角化,則

\displaystyle  \begin{bmatrix}  \mathbf{y}^\ast_1\\  \vdots\\  \mathbf{y}_n^\ast  \end{bmatrix}\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_n  \end{bmatrix}=D

其中 D 是可逆對角矩陣。在不失一般性的原則下,我們可以將左右特徵向量予以歸一化使得每一 \mathbf{y}_i^\ast\mathbf{x}_i=1,即有 D=I

證明於下:若 A 是一可對角化矩陣,寫出 A=S\Lambda S^{-1},其中 \Lambda=\hbox{diag}(\lambda_1,\ldots,\lambda_n)S=\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_n  \end{bmatrix}。等號兩邊左乘 S^{-1},可得 S^{-1}A=\Lambda S^{-1}。設

\displaystyle  S^{-1}=\begin{bmatrix}  \mathbf{y}^\ast_1\\  \vdots\\  \mathbf{y}_n^\ast  \end{bmatrix}

就有 \mathbf{y}_i^\ast A=\lambda_i\mathbf{y}_i^\asti=1,\ldots,n。因為 S^{-1}S=I,故得證。

 
將右特徵向量和左特徵向量代入 A=S\Lambda S^{-1},可對角化矩陣 A 有下列表達式:

\displaystyle \begin{aligned}  A&=S\Lambda S^{-1}=\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_n  \end{bmatrix}\begin{bmatrix}  \lambda_1&&\\  &\ddots&\\  &&\lambda_n  \end{bmatrix}\begin{bmatrix}  \mathbf{y}_1^\ast\\  \vdots\\  \mathbf{y}_n^\ast  \end{bmatrix}\\  &=\lambda_1\mathbf{x}_1\mathbf{y}_1^\ast+\cdots+\lambda_n\mathbf{x}_n\mathbf{y}_n^\ast  ,\end{aligned}

稱為譜分解 (spectral decomposition)。令 P_i=\mathbf{x}_i\mathbf{y}^\ast_i,其中 \mathbf{y}_i^\ast\mathbf{x}_j=1i=j\mathbf{y}_i^\ast\mathbf{x}_j=0i\neq j。左特徵向量的價值之一在於立即推論下列性質成立:

(1) P_i^2=P_ii=1,\ldots,n
(2) P_iP_j=0i\neq j
(3) P_1+\cdots+P_n=I

因為性質 (1),P_i 也稱為譜投影算子 (spectral projector),P_i 是沿著行空間 C(A-\lambda_iI) 至特徵空間 N(A-\lambda_iI) 的唯一投影矩陣 (見“可對角化矩陣的譜分解”)。

 
最後補充一個右特徵向量和左特徵向量的概念性質。對於可對角化矩陣 A,右特徵向量集 \{\mathbf{x}_1,\ldots,\mathbf{x}_n\} 構成 \mathbb{C}^n 的一組基底,左特徵向量集的共軛 \{\overline{\mathbf{y}_1},\ldots,\overline{\mathbf{y}_n}\} 稱為 \{\mathbf{x}_1,\ldots,\mathbf{x}_n\} 的對偶基底 (dual basis)。簡單說,\begin{bmatrix}  \mathbf{x}_1&\cdots&\mathbf{x}_n  \end{bmatrix}^{-1} 的列向量集合就是 \{\mathbf{x}_1,\ldots,\mathbf{x}_n\} 的對偶基底。(詳細討論請參閱“線性泛函與對偶空間”。) 顧名思義,對偶表示兩者互為對方的鏡像,因為這個緣故,我們也就沒必要另外再發展一套左特徵向量與特徵值理論。

Advertisement
This entry was posted in 特徵分析, 線性代數專欄 and tagged , , , , . Bookmark the permalink.

6 Responses to 右特徵向量與左特徵向量

  1. 自由之畔 says:

    博主原文明显有误。原文第三自然段(即尼采的话后一段):“……在线性代数中默认一个向量是行向量(column vector)……”,这显然是错误的。线性代数里默认向量的定义是列向量(column vector)!括号里的标明的英语翻译成中文正是“列向量”。后文中“故习以为常地右乘一个行向量”也错了,应为“习以为常地右乘一个列向量(column vector)”!在后文中有类似错误,似乎博主把列向量和行向量反过来了!!

  2. SFS says:

    您好,可以請問您左特徵向量可以直接從右特徵向量求得嗎?
    使用 Moore-Penrose pseudoinverse這樣是正確的嗎?
    因為我看到一段matlab 程式求左特徵向量的方法為
    l = pinv (r);
    謝謝

    • ccjou says:

      上文說:除了正交性,右特徵向量和左特徵向量不存在明確的關係。自然,兩者並非彼此的Moore-Penrose pseudoinverse。舉例來說,\begin{bmatrix} 1\\ 0\\ 0 \end{bmatrix}A=\begin{bmatrix} 3&1&0\\ 0&3&1\\ 0&0&3 \end{bmatrix} 的右特徵向量,它的 pinv 是 \begin{bmatrix} 1&0&0 \end{bmatrix},但 A 的左特徵向量是 \begin{bmatrix} 0&0&1 \end{bmatrix}

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s