偽逆矩陣與轉置矩陣的二三事

本文的閱讀等級:高級

A 為一個 m\times n 階實矩陣且 \mathrm{rank}A=r。設矩陣 A 的奇異值分解為 A=U\Sigma V^T,其中 UV 分別是 m\times m 階和 n\times n 階正交矩陣 (orthogonal matrix),滿足 U^T=U^{-1}V^T=V^{-1}m\times n 階矩陣 \Sigma=\begin{bmatrix}  D&0\\  0&0  \end{bmatrix} 包含可逆分塊 D=\mathrm{diag}(\sigma_1,\ldots,\sigma_r),主對角元 \sigma_1\ge\cdots\ge\sigma_r>0 為非零奇異值。偽逆矩陣 (pseudoinverse) A^+ 定義為下列 n\times m 階矩陣 (見“Moore-Penrose 偽逆矩陣”):

A^+=V\Sigma^+U^T=V\begin{bmatrix}  D^{-1}&0\\  0&0  \end{bmatrix}U^T

其中 \Sigma^+=\begin{bmatrix}  D^{-1}&0\\  0&0  \end{bmatrix}n\times m 階對角矩陣。偽逆矩陣 A^+ 的表達式即為其奇異值分解。見下例 (取自“SVD 於剖析線性方程的應用”):

\begin{aligned}  A&=\begin{bmatrix}  1&0&0&0&2\\  0&0&3&0&0\\    0&0&0&0&0\\    0&4&0&0&0    \end{bmatrix}\\  &=\begin{bmatrix}    0&0&1&0\\    0&1&0&0\\    0&0&0&1\\    1&0&0&0    \end{bmatrix}\begin{bmatrix}    4&0&0&0&0\\    0&3&0&0&0\\    0&0&\sqrt{5}&0&0\\    0&0&0&0&0    \end{bmatrix}\begin{bmatrix}    0&0&\frac{1}{\sqrt{5}}&0&-\frac{2}{\sqrt{5}}\\    1&0&0&0&0\\    0&1&0&0&0\\    0&0&0&1&0\\    0&0&\frac{2}{\sqrt{5}}&0&\frac{1}{\sqrt{5}}    \end{bmatrix}=U\Sigma V^T,\end{aligned}

偽逆矩陣計算如下:

\displaystyle  A^{+}=\begin{bmatrix}  0&1&0&0&0\\  0&0&1&0&0\\  \frac{1}{\sqrt{5}}&0&0&0&\frac{2}{\sqrt{5}}\\  0&0&0&1&0\\  -\frac{2}{\sqrt{5}}&0&0&0&\frac{1}{\sqrt{5}}  \end{bmatrix}\begin{bmatrix}  \frac{1}{4}&0&0&0\\  0&\frac{1}{3}&0&0\\  0&0&\frac{1}{\sqrt{5}}&0\\  0&0&0&0\\  0&0&0&0  \end{bmatrix}\begin{bmatrix}  0&0&0&1\\  0&1&0&0\\  1&0&0&0\\  0&0&1&0  \end{bmatrix}=\begin{bmatrix}  \frac{1}{5}&0&0&0\\  0&0&0&\frac{1}{4}\\  0&\frac{1}{3}&0&0\\  0&0&0&0\\  \frac{2}{5}&0&0&0  \end{bmatrix}

偽逆矩陣 A^+ 與轉置矩陣 A^T 皆為 n\times m 階,兩者同為 \mathbb{R}^m 映至 \mathbb{R}^n 的線性變換。下文以問答方式解說偽逆矩陣與轉置矩陣的一些性質。開始之前,請讀者先參閱背景文章:“奇異值分解(SVD)”和“通過推導偽逆矩陣認識線性代數的深層結構”。

 
Q1:我們知道 (A^T)^T=A,那麼 (A^+)^+=A 是否也成立?

利用偽逆矩陣定義式,

(\Sigma^+)^+=\left(I_n\begin{bmatrix}  D^{-1}&0\\  0&0  \end{bmatrix}_{n\times m}I_m\right)^+=I_m\begin{bmatrix}  (D^{-1})^{-1}&0\\  0&0  \end{bmatrix}_{m\times n}I_n=\Sigma

即得

(A^+)^+=(V\Sigma^+U^T)^+=U(\Sigma^+)^+V^T=U\Sigma V^T=A

 
Q2:(A^T)^+=(A^+)^T 是否成立?

因為 (\Sigma^T)^+=(\Sigma^+)^T,代入奇異值分解並使用定義式,

(A^T)^+=(V\Sigma^T U^T)^+=U(\Sigma^T)^+V^T=U(\Sigma^+)^TV^T=(V\Sigma^+U^T)^T=(A^+)^T

 
Q3:A^+A^T 有何相同之處?又有何相異之處?

將轉置矩陣 A^T=V\Sigma^TU^T\Sigma^T 取代為 \Sigma^+ 即得偽逆矩陣 A^+=V\Sigma^+U^T。排除對角矩陣 \Sigma^+\Sigma^T 的差異,A^+A^T 具有類似的奇異值分解形式,說明了 A^+A^T 擁有相近的性質。令

U=\begin{bmatrix}  U_r&U_{m-r}  \end{bmatrix}=\begin{bmatrix}  \mathbf{u}_1&\cdots&\mathbf{u}_r~\vert~\mathbf{u}_{r+1}&\cdots&\mathbf{u}_m  \end{bmatrix}

V=\begin{bmatrix}  V_r&V_{n-r}  \end{bmatrix}=\begin{bmatrix}  \mathbf{v}_1&\cdots&\mathbf{v}_r~\vert~\mathbf{v}_{r+1}&\cdots&\mathbf{v}_n  \end{bmatrix}

奇異值分解 A=U\Sigma V^T 可進一步化簡如下:

\begin{aligned}  A&=\begin{bmatrix}  U_r&U_{m-r}  \end{bmatrix}\begin{bmatrix}  D&0\\  0&0  \end{bmatrix}\begin{bmatrix}  V_r^T\\  V_{n-r}^T  \end{bmatrix}=U_rDV_r^T\\  &=\begin{bmatrix}  \mathbf{u}_1&\cdots&\mathbf{u}_r  \end{bmatrix}\begin{bmatrix}  \sigma_1&&\\  &\ddots&\\  &&\sigma_r  \end{bmatrix}\begin{bmatrix}  \mathbf{v}_1^T\\  \vdots\\  \mathbf{v}_r^T  \end{bmatrix}\\  &=\sigma_1\mathbf{u}_1\mathbf{v}_1^T+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}_r^T,\end{aligned}

上式也稱為「瘦奇異值分解」(thin SVD)。因為 \mathbf{v}_1,\ldots,\mathbf{v}_n 組成一個單範正交 (orthonormal) 向量集,上式右乘 \mathbf{v}_i,就有

\begin{aligned}  A\mathbf{v}_i&=\sigma_i\mathbf{u}_i,~~~i=1,\ldots,r\\  A\mathbf{v}_i&=\mathbf{0},~~~i=r+1,\ldots,n.\end{aligned}

同樣地,A^TA^+ 可表示為瘦奇異值分解形式:

A^T=V_rDU_r^T=\sigma_1\mathbf{v}_1\mathbf{u}_1^T+\cdots+\sigma_r\mathbf{v}_r\mathbf{u}_r^T

\displaystyle  A^+=V_rD^{-1}U_r^T=\frac{1}{\sigma_1}\mathbf{v}_1\mathbf{u}_1^T+\cdots+\frac{1}{\sigma_r}\mathbf{v}_r\mathbf{u}_r^T

因為 \mathbf{u}_1,\ldots,\mathbf{u}_m 是一個單範正交集,上式右乘 \mathbf{u}_i,可得

\begin{aligned}  A^T\mathbf{u}_i&=\sigma_i\mathbf{v}_i,~~~i=1,\ldots,r\\  A^T\mathbf{u}_i&=\mathbf{0},~~~i=r+1,\ldots,m,\end{aligned}

而且

\displaystyle\begin{aligned}  A^+\mathbf{u}_i&=\frac{1}{\sigma_i}\mathbf{v}_i,~~~i=1,\ldots,r\\  A^+\mathbf{u}_i&=\mathbf{0},~~~i=r+1,\ldots,m.\end{aligned}

由以上結果,A^+A^T 的異同一目了然。首先,\mathrm{rank}A^+=\mathrm{rank}A^T=\mathrm{rank}A=r,其次,A^+A^T 擁有相同的四個基本子空間。從基底變換來看,對於 i=1,\ldots,rA^T\mathbf{u}_iA^+\mathbf{u}_i 的不同之處僅止於伸縮長度互為相反數而已。下面表列 A 的子空間與基底,以及它們和 A^+ 的子空間關係 (見下圖):

  1. 列空間:C(A^T)=C(A^+)=C(V_r)=\mathrm{span}\{\mathbf{v}_1,\ldots,\mathbf{v}_r\}
  2. 零空間:N(A)=N((A^+)^T)=C(V_{n-r})=\mathrm{span}\{\mathbf{v}_{r+1},\ldots,\mathbf{v}_n\}
  3. 行空間:C(A)=C((A^+)^T)=C(U_r)=\mathrm{span}\{\mathbf{u}_1,\ldots,\mathbf{u}_r\}
  4. 左零空間:N(A^T)=N(A^+)=C(U_{m-r})=\mathrm{span}\{\mathbf{u}_{r+1},\ldots,\mathbf{u}_m\}

偽逆矩陣與單範正交基底映射

 
Q4:A^+AA^TA 有何異同?AA^+AA^T 又有何異同?

代入奇異值分解,立知

A^+A=V\Sigma^+ U^TU\Sigma V^T=V\Sigma^+\Sigma V^T=\begin{bmatrix}  V_r&V_{n-r}  \end{bmatrix}\begin{bmatrix}  I_r&0\\  0&0  \end{bmatrix}\begin{bmatrix}  V_r^T\\  V_{n-r}^T  \end{bmatrix}=V_rV_r^T

A^TA=V\Sigma^TU^TU\Sigma V^T=V\Sigma^T\Sigma V^T=\begin{bmatrix}  V_r&V_{n-r}  \end{bmatrix}\begin{bmatrix}  D^2&0\\  0&0  \end{bmatrix}\begin{bmatrix}  V_r^T\\  V_{n-r}^T  \end{bmatrix}=V_rD^2V_r^T

明顯地,A^+AA^TA 都是對稱矩陣。上式給出正交對角化分解,A^+A 的特徵值包含 r 個1,A^TA 有特徵值 \sigma_1^2,\ldots,\sigma_r^2,對應的特徵向量同為 \mathbf{v}_1,\ldots,\mathbf{v}_r;另外,A^+AA^TA 都有 n-r 個特徵值0,對應的特徵向量同為 \mathbf{v}_{r+1},\ldots,\mathbf{v}_n。所以,\mathrm{rank}(A^+A)=\mathrm{rank}(A^TA)=r,且 C(A^+A)=C(A^TA)=C(A^T)N(A^+A)=N(A^TA)=N(A)。使用相同方式,可得

AA^+=U\Sigma V^TV^T\Sigma^+ U^T=U\Sigma\Sigma^+U^T=\begin{bmatrix}  U_r&U_{m-r}  \end{bmatrix}\begin{bmatrix}  I_r&0\\  0&0  \end{bmatrix}\begin{bmatrix}  U_r^T\\  U_{m-r}^T  \end{bmatrix}=U_rU_r^T

AA^T=U\Sigma V^TV^T\Sigma^TU^T=U\Sigma\Sigma^TU^T=\begin{bmatrix}  U_r&U_{m-r}  \end{bmatrix}\begin{bmatrix}  D^2&0\\  0&0  \end{bmatrix}\begin{bmatrix}  U_r^T\\  U_{m-r}^T  \end{bmatrix}=U_rD^2U_r^T

由此可推論 AA^+AA^T 是對稱矩陣。AA^+ 的特徵值包含 r 個1,AA^T 的特徵值為 \sigma_1^2,\ldots,\sigma_r^2,對應的特徵向量同為 \mathbf{u}_1,\ldots,\mathbf{u}_r;另外,AA^+AA^Tm-r 個特徵值0,對應的特徵向量為 \mathbf{u}_{r+1},\ldots,\mathbf{u}_m。故 \mathrm{rank}(AA^+)=\mathrm{rank}(AA^T)=rC(AA^+)=C(AA^T)=C(A)N(AA^+)=N(AA^T)=N(A^T)

 
Q5:AA^+AA^+AA^+ 是甚麼矩陣?

利用奇異值分解計算,結果如下:

AA^+A=U\Sigma V^TV\Sigma^+ U^TU\Sigma V^T=U\Sigma\Sigma^+\Sigma V^T=U\Sigma V^T=A

A^+AA^+=V\Sigma^+ U^TU\Sigma V^TV\Sigma^+U^T=V\Sigma^+\Sigma\Sigma^+U^T=V\Sigma^+U^T=A^+

 
Q6:A^+AAA^+ 還具備甚麼特殊性質?

如果不細心考察,我們很可能忽略了這個重要性質:A^+AAA^+ 都是冪等矩陣 (idempotent matrix)。利用Q5結果,

(A^+A)^2=A^+AA^+A=A^+A

(AA^+)^2=AA^+AA^+=AA^+

由Q4,A^+AAA^+ 是對稱矩陣,故 A^+AAA^+ 皆為正交投影矩陣 (見“正交投影矩陣的性質與界定”):A^+A=V_rV_r^T 正交投影至 C(V_r)=C(A^T)\subseteq\mathbb{R}^n,而 AA^+=U_rU_r^T 正交投影至 C(U_r)=C(A)\subseteq\mathbb{R}^m

 
Q7:若 A\mathbf{x}=\mathbf{b} 有解,則 \mathbf{x}^+=A^+\mathbf{b} 代表甚麼意義?

\mathbf{x} 滿足 A\mathbf{x}=\mathbf{b},Q6指出 \mathbf{x}^+=A^+\mathbf{b}=A^+A\mathbf{x}\mathbf{x}\in\mathbb{R}^n 至列空間 C(A^T) 的正交投影。利用Q5結果,

A\mathbf{x}^+=AA^+\mathbf{b}=AA^+A\mathbf{x}=A\mathbf{x}=\mathbf{b}

因此 \mathbf{x}^+ 是線性方程 A\mathbf{x}=\mathbf{b} 在列空間 C(A^T) 的唯一特解,此解具有極小範數 (長度),稱為極小範數解 (見下圖,“每週問題 May 4, 2009”)。

極小範數解

 
Q8:若 A\mathbf{x}=\mathbf{b} 無解,則 \mathbf{x}^+=A^+\mathbf{b} 代表甚麼意義?

因為正交變換 U 不改變向量長度 (見“特殊矩陣(3):么正矩陣(酉矩陣)”),即得

\Vert A\mathbf{x}-\mathbf{b}\Vert=\Vert U\Sigma V^T\mathbf{x}-\mathbf{b}\Vert=\Vert\Sigma V^T\mathbf{x}-U^T\mathbf{b}\Vert

假設 \mathbf{x} 是一個最小平方近似解。令 \mathbf{y}=V^T\mathbf{x},因為 V^T 是正交矩陣,就有 \Vert\mathbf{y}\Vert=\Vert\mathbf{x}\Vert。所以,尋找最小化 \Vert A\mathbf{x}-\mathbf{b}\Vert 並有極小範數的近似解 \mathbf{x} 等價於最小化 \Vert\Sigma\mathbf{y}-U^T\mathbf{b}\Vert 並有極小範數的近似解 \mathbf{y}。因為 \Sigma=\begin{bmatrix}  D&0\\  0&0  \end{bmatrix} 是對角矩陣,立知 \mathbf{y}^+=\Sigma^+U^T\mathbf{b} 為一個最小平方近似解。又因為 \mathbf{y}^+ 屬於 \Sigma 的列空間,故具有極小範數 (見“極小範數解”,定理二的證明)。所以原問題的極小範數最小平方近似解為

\mathbf{x}^+=V\mathbf{y}^+=V\Sigma^+U^T\mathbf{b}=A^+\mathbf{b}

我們可以驗證 \mathbf{x}^+ 使 \Vert A\mathbf{x}-\mathbf{b}\Vert 最小,且 \mathbf{x}^+\in C(A^T)。令 \mathbf{b} 至行空間 C(A) 的正交投影為 \mathbf{p}=AA^+\mathbf{b},則 A\mathbf{x}^+=AA^+\mathbf{b}=\mathbf{p},故知 \mathbf{x}^+ 是最小平方近似解。再由 \mathbf{x}^+=A^+\mathbf{b} 可推得 \mathbf{x}^+\in C(A^+)=C(A^T),這指出 \mathbf{x}^+ 即為最小平方近似解 \mathbf{x} 至列空間 C(A^T) 的正交投影,\mathbf{x}^+=A^+A\mathbf{x}。等號兩邊同時左乘 A,可得 \mathbf{p}=A\mathbf{x}^+=AA^+A\mathbf{x}=A\mathbf{x},由此亦可驗證 \mathbf{x} 的確是一個最小平方近似解。下圖整理了與最小平方近似有關的一些映射。

具有極小範數的最小平方近似解

廣告
本篇發表於 線性代數專欄, 二次型 並標籤為 , , , , , 。將永久鏈結加入書籤。

2 Responses to 偽逆矩陣與轉置矩陣的二三事

  1. dove 說道:

    为什么“\mathbf{y}^+ 屬於 \Sigma 的列空間,故具有極小範數”

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s