正交投影矩陣的性質與界定

本文的閱讀等級:高級

正交投影是一個威力強大的變換工具,它最主要的用途在於有效地分解向量空間。我們曾經在“正交投影──威力強大的線代工具”介紹正交投影矩陣的計算方法,並且利用正交投影解決了最小平方近似問題 (見“從線性變換解釋最小平方近似”)。本文欲進一步探討正交投影矩陣的性質和界定條件,並討論兩個正交子空間的正交投影矩陣關係。

 
在複向量空間 \mathbb{C}^n 中,向量 \mathbf{x}\mathbf{y} 的標準內積定義為 \left\langle\mathbf{x},\mathbf{y}\right\rangle=\mathbf{x}^{\ast}\mathbf{y} (見“內積的定義”)。若 \mathbf{x}^{\ast}\mathbf{y}=0,我們說 \mathbf{x} 正交於 \mathbf{y},記為 \mathbf{x}\perp\mathbf{y}。考慮 \mathbb{C}^n 的直和分解 \mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp}\mathcal{X}^{\perp} 是子空間 \mathcal{X} 的正交補餘。正交分解定理 (見“正交補餘與投影定理”) 說:任一向量 \mathbf{z}\in\mathbb{C}^n 可唯一分解為 \mathbf{z}=\mathbf{x}+\mathbf{y},其中 \mathbf{x}\perp\mathbf{y}\mathbf{x}\in\mathcal{X}\mathbf{y}\in\mathcal{X}^{\perp}。執行此分解任務的線性變換就是正交投影。每一個子空間 \mathcal{X} 有唯一的正交投影矩陣,因為對於任何 \mathbf{x}\in\mathbb{C}^nP\mathbf{x}=Q\mathbf{x} 蘊含 (P-Q)\mathbf{x}=\mathbf{0},唯有 P=Q 滿足此條件。由於 \mathcal{X}^{\perp} 由子空間 \mathcal{X} 唯一決定,我們不需要說 n\times n 階矩陣 P 將向量 \mathbf{v} 沿著 \mathcal{X}^{\perp} 正交投影至 \mathcal{X},可直接說 P\mathcal{X} 的正交投影矩陣,記為 P=T_{\mathcal{X}}。令 C(P) 表示 P 的行空間 (即值域),N(P) 表示 P 的零空間 (即核)。投影矩陣 P\mathbb{C}^n 的所有向量投影至 \mathcal{X},就有 \mathcal{X}=\{P\mathbf{x}\,\vert\,\mathbf{x}\in\mathbb{C}^n\}=C(P)。又因為 P 是一個正交投影矩陣,故對於 \mathbf{x}\in\mathcal{X}^{\perp}P\mathbf{x}=0,亦即 \mathcal{X}^{\perp}=\{\mathbf{x}\in\mathbb{C}^n\vert P\mathbf{x}=\mathbf{0}\}=N(P)

 
\mathcal{X}\mathbb{C}^n 的一個子空間且 P 是子空間 \mathcal{X} 的正交投影矩陣,則 P 滿足下列兩個性質:

性質一:對於所有 \mathbf{x}\in\mathcal{X}P\mathbf{x}=\mathbf{x}

性質二:對於所有 \mathbf{x}\in\mathbb{C}^n(\mathbf{x}-P\mathbf{x})\in\mathcal{X}^{\perp}

性質一的直觀解釋是子空間 \mathcal{X} 中任何向量的投影仍為其自身。性質二闡述正交投影的最重要的幾何意涵:正交投影後的殘量正交於投影子空間。

 
下面的定理說明正交投影矩陣的主要界定條件。

定理一P 為一個正交投影矩陣的充要條件為 P=P^2=P^{\ast}

(\Rightarrow):設 P=T_{\mathcal{X}},即知 \mathcal{X}=C(P)。任一 \mathbf{x}\in\mathcal{X} 皆可表示為 \mathbf{x}=P\mathbf{y}\mathbf{y}\in\mathbb{C}^n。利用性質一可得

P^2\mathbf{y}=P(P\mathbf{y})=P\mathbf{x}=\mathbf{x}=P\mathbf{y}

然而 \mathbf{y} 是任意向量,故 P=P^2。性質二指出投影殘差 (\mathbf{x}-P\mathbf{x})\in\mathcal{X}^{\perp},亦即對於任一 P\mathbf{y}\in\mathcal{X},都有 (\mathbf{x}-P\mathbf{x})\perp P\mathbf{y},以內積運算表達如下:

0=(\mathbf{x}-P\mathbf{x})^{\ast}P\mathbf{y}=((I-P)\mathbf{x})^{\ast}P\mathbf{y}=\mathbf{x}^{\ast}(I-P)^{\ast}P\mathbf{y}=\mathbf{x}^{\ast}(P-P^{\ast}P)\mathbf{y}

\mathbf{x}\mathbf{y} 是任意向量,於是有 P=P^{\ast}P,又 (P^{\ast}P)^{\ast}=P^{\ast}P,證得 P=P^{\ast}

(\Leftarrow):設 P=P^2=P^{\ast},並令 \mathcal{X}=C(P)\mathcal{Y}=N(P)。對於 \mathbf{x}\in\mathcal{X},必有 \mathbf{y}\in\mathbb{C}^n 使得 \mathbf{x}=P\mathbf{y},等號兩邊同時左乘 P,即得 P\mathbf{x}=P^2\mathbf{y}=P\mathbf{y}=\mathbf{x},證明性質一成立。接下來若能證明 \mathcal{X}\perp\mathcal{Y},秩─零度定理 n=\dim C(P)+\dim N(P)=\dim\mathcal{X}+\dim\mathcal{Y} 便表明 \mathcal{Y}=\mathcal{X}^{\perp},也就證得 P 是沿著 \mathcal{X}^{\perp}\mathcal{X} 的投影,亦即正交投影。對於任意 \mathbf{x}\in\mathcal{X}\mathbf{y}\in\mathcal{Y},使用 P\mathbf{y}=\mathbf{0} (因為 \mathbf{y}\in N(P)),

\mathbf{x}^{\ast}\mathbf{y}=(P\mathbf{x})^{\ast}\mathbf{y}=\mathbf{x}^{\ast}P^{\ast}\mathbf{y}=\mathbf{x}^{\ast}(P\mathbf{y})=\mathbf{x}^{\ast}\mathbf{0}=0

因此證明 \mathbf{x} 正交於 \mathbf{y}

 
對於一個 n\times n 階矩陣 P,若 P=P^2,我們稱之為冪等 (idempotent) 矩陣 (見“特殊矩陣 (5):冪等矩陣”)。由定理一可知冪等矩陣即為投影矩陣,如果再加入一個條件:P 是 Hermitian,P=P^{\ast},則 P 便成為正交投影矩陣。

 
定理二P^2=P=P^\ast 等價於 P=P^\ast P

P^2=P=P^\ast,則 P^\ast P=PP=P^2=P。若 P=P^\ast P,則 P^\ast=(P^\ast P)^\ast=P^\ast P=P,且 P=P^\ast P=PP=P^2

 
定理三保證正交投影 P\mathbf{x} 的長度必不大於原向量 \mathbf{x} 的長度。

定理三:若 P 為一個正交投影矩陣,則對於所有 \mathbf{x}\in\mathbb{C}^n\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert

根據定理一,可得

\Vert P\mathbf{x}\Vert^2=(P\mathbf{x})^{\ast}(P\mathbf{x})=(P^{\ast}\mathbf{x})^{\ast}(P\mathbf{x})=\mathbf{x}^{\ast}P^2\mathbf{x}=\mathbf{x}^{\ast}P\mathbf{x}\ge 0

利用此結果計算

\Vert\mathbf{x}\Vert^2-\Vert P\mathbf{x}\Vert^2=\mathbf{x}^{\ast}\mathbf{x}-\mathbf{x}^{\ast}(P\mathbf{x})=\mathbf{x}^{\ast}(I-P)\mathbf{x}

觀察出 (I-P)^2=I-2P+P^2=I-P(I-P)^{\ast}=I-P^{\ast}=I-P,得知 I-P 也是一個正交投影矩陣,再利用前面不等式,\Vert(I-P)\mathbf{x}\Vert^2=\mathbf{x}^{\ast}(I-P)\mathbf{x}\ge 0,故得證。

 
如果 P 是冪等矩陣並且滿足定理三的不等性質,這兩個條件同樣也可以界定正交投影;換句話說,任何不會增長向量長度的投影必為正交投影,見定理四。

定理四:若 P 為一個冪等矩陣,P=P^2,且對於所有 \mathbf{x}\in\mathbb{C}^n\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert,則 P=P^{\ast}

P=P^2,令 \mathcal{X}=C(P)\mathcal{Y}=N(P),只要能證明 \mathcal{X}=\mathcal{Y}^{\perp},即知 P 是正交投影矩陣,由定理一可得證。若 \mathbf{x}\in\mathcal{Y}^{\perp},則 \mathbf{y}=\mathbf{x}-P\mathbf{x} 屬於 \mathcal{Y},原因是

P\mathbf{y}=P(\mathbf{x}-P\mathbf{x})=P\mathbf{x}-P^2\mathbf{x}=P\mathbf{x}-P\mathbf{x}=\mathbf{0}

所以 P\mathbf{x}=\mathbf{x}-\mathbf{y} 再加上 \mathbf{x}^{\ast}\mathbf{y}=0 足以推論

\Vert\mathbf{x}\Vert^2\ge\Vert P\mathbf{x}\Vert^2=\Vert\mathbf{x}\Vert^2+\Vert\mathbf{y}\Vert^2\ge\Vert\mathbf{x}\Vert^2

上式迫使 \mathbf{y}=\mathbf{0},就有 P\mathbf{x}=\mathbf{x},故知 \mathbf{x}\in\mathcal{X},這說明 \mathcal{Y}^{\perp}\subseteq\mathcal{X}。再看反向論述,若 \mathbf{z}\in\mathcal{X}P\mathbf{z}=\mathbf{z},寫出 \mathbf{z}=\mathbf{x}+\mathbf{y},其中 \mathbf{x}\in\mathcal{Y}^{\perp}\mathbf{y}\in\mathcal{Y}。但 \mathbf{x}\in\mathcal{X}(原因是 \mathcal{Y}^{\perp}\subseteq\mathcal{X}\mathbf{x} 也就屬於 \mathcal{X}),就有 \mathbf{z}=P\mathbf{z}=P\mathbf{x}+P\mathbf{y}=\mathbf{x}+\mathbf{0}=\mathbf{x},即知 \mathbf{z}\in\mathcal{Y}^{\perp},所以 \mathcal{X}\subseteq\mathcal{Y}^{\perp},證得 \mathcal{X}=\mathcal{Y}^{\perp}

 
試舉一個反例,考慮下列冪等矩陣:

P=\begin{bmatrix}  1&a\\  0&0  \end{bmatrix}

其中 a\neq 0。向量 \mathbf{x}=\begin{bmatrix}  x\\  y  \end{bmatrix} 的投影為

P\mathbf{x}=\begin{bmatrix}  1&a\\  0&0  \end{bmatrix}\begin{bmatrix}  x\\  y  \end{bmatrix}=\begin{bmatrix}  x+ay\\  0  \end{bmatrix}

\begin{aligned}  \Vert P\mathbf{x}\Vert^2-\Vert\mathbf{x}\Vert^2&=(x+ay)^2-(x^2+y^2)\\  &=(x^2+2axy+a^2y^2)-(x^2+y^2)\\  &=(a^2-1)y^2+2axy,\end{aligned}

很容易證明若 a\neq 0,則必定存在 x, y 使得 (a^2-1)y^2+2axy>0

 
下一個問題是討論如何利用正交投影矩陣判定兩子空間是否正交。我們說兩正交投影矩陣 PQ 是「正交的」,若 PQ=0。這也意味 QP=0,因為 0=PQ=P^{\ast}Q^{\ast}=(QP)^{\ast}。定理五證明正交的正交投影矩陣等價於正交的投影子空間。

定理五:若兩正交投影矩陣 P=T_{\mathcal{X}}Q=T_{\mathcal{Y}} 是正交的,則 \mathcal{X} 正交於 \mathcal{Y},反之亦然。

P=T_{\mathcal{X}}Q=T_{\mathcal{Y}}。若 PQ=0\mathbf{x}\in C(P)\mathbf{y}\in C(Q),則

\mathbf{x}^{\ast}\mathbf{y}=(P\mathbf{x})^{\ast}(Q\mathbf{y})=\mathbf{x}^{\ast}P^{\ast}Q\mathbf{y}=\mathbf{x}^{\ast}PQ\mathbf{y}=0

相反的,若 \mathcal{X}\perp\mathcal{Y},可知 \mathcal{Y}\subseteq\mathcal{X}^{\perp}。對於所有 \mathbf{x}\in\mathbb{C}^n,考慮 \mathbf{y}=Q\mathbf{x}\in\mathcal{Y},就有 PQ\mathbf{x}=P\mathbf{y}=\mathbf{0} (因為 \mathbf{y} 也屬於 \mathcal{X}^{\perp}),故 PQ=0

 
我們介紹定理五的一個必然結果:令 P=T_{\mathcal{X}}Q=T_{\mathcal{Y}}。若 \mathcal{Y}=\mathcal{X}^{\perp},則 Q=I-P,反向陳述亦為真。理由如下:設 P=T_{\mathcal{X}}Q=T_{\mathcal{X}^{\perp}},將 \mathbf{z}\in\mathbb{C}^n 表示為 \mathbf{z}=P\mathbf{z}+(I-P)\mathbf{z}。因為 P\mathbf{z}\in\mathcal{X},由正交分解定理可推論 (I-P)\mathbf{z}\in\mathcal{X}^{\perp},因此 Q=I-P。相反的,設 Q=I-P,則 PQ=P(I-P)=P-P^2=P-P=0 表明 \mathcal{X}\perp\mathcal{Y},接著只要證明 \dim\mathcal{X}+\dim\mathcal{Y}=n 即證得 \mathcal{Y}\mathcal{X} 的正交補餘。因為 \mathcal{X}=C(P)\mathcal{Y}=C(I-P),利用下列性質 (證明見“特殊矩陣 (5):冪等矩陣”):

C(P)=N(I-P),~C(I-P)=N(P)

即得 \dim\mathcal{X}+\dim\mathcal{Y}=\dim C(P)+\dim N(P)=n,最後等式來自秩─零度定理。

 
最後補充說明正交投影矩陣 P 可正交對角化為 P=UDU^\ast,其中 U 是一么正 (unitary) 矩陣,即 U^\ast=U^{-1}D=\hbox{diag}(1,\ldots,1,0,\ldots,0)。原因是冪等矩陣的特徵值為 10,並且可對角化,而 Hermitian 矩陣可么正對角化 (unitarily diagonalizable)。

 
如欲將本文討論的範疇從向量空間 \mathbb{C}^n 推廣至一般的內積空間,僅需將符號定義與運算規則稍作修改即可。設 \mathcal{V} 是一個內積空間,其中任兩向量 \mathbf{x}\mathbf{y} 的內積定義為 \left\langle\mathbf{x},\mathbf{y}\right\rangle。令 \mathcal{X}\mathcal{V} 的一個子空間,同樣地,我們也可以令線性變換 P=T_{\mathcal{X}}\mathcal{X} 的正交投影,而 P^{\ast} 則稱為 P 的伴隨 (見“線性泛函與伴隨”)。對於任意 \mathbf{x},\mathbf{y}\in\mathcal{V}PP^{\ast} 滿足下列性質:

\left\langle P\mathbf{x},\mathbf{y}\right\rangle=\left\langle\mathbf{x},P^{\ast}\mathbf{y}\right\rangle

讀者可以自行練習運用這套符號與規則於上述所有的定理及證明過程上。

Advertisements
本篇發表於 線性代數專欄, 內積空間 並標籤為 , , , , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s