線性代數基本定理 (四)

本文的閱讀等級:中級

線性代數的第四個基本定理與第三個定理有密切的關係,第三個定理說交互乘積矩陣 A^{T}A 的特徵向量構成列空間 (row space) C(A^{T}) 和零空間 (nullspace) N(A) 的正交基底,而 AA^{T} 的特徵向量則構成行空間 (column space) C(A) 和左零空間 (left nullspace) N(A^{T}) 的正交基底。第四個基本定理將原本參考標準基底的矩陣變換改為參考上述這兩組正交基底,從而得到具有對角形式的矩陣表示式。

 
我們先簡短回顧第三個基本定理 (見“線性代數基本定理 (三)”)。令 A 為一 m\times n 階實矩陣且 r=\hbox{rank}A。設 n\times n 階交互乘積 A^{T}A 的特徵值為 \sigma_1^{2},\ldots,\sigma_n^2,對應的單範正交 (orthonormal) 特徵向量為 \mathbf{v}_1,\ldots,\mathbf{v}_n,就有

A^{T}A\mathbf{v}_{i}=\sigma_{i}^{2}\mathbf{v}_{i},~~i=1,\ldots,n

另外,m\times m 階交互乘積 AA^T 的特徵值為 \sigma_1^2,\ldots,\sigma_m^2,對應的單範正交特徵向量為 \mathbf{u}_1,\ldots,\mathbf{u}_m,即

AA^{T}\mathbf{u}_j=\sigma_{j}^{2}\mathbf{u}_{j},~~j=1,\ldots,m

計算可得

\begin{aligned}  \Vert A\mathbf{v}_i\Vert^2&=\mathbf{v}_i^TA^{T}A\mathbf{v}_{i}=\sigma_{i}^{2}\mathbf{v}_{i}^T\mathbf{v}_i=\sigma_i^2,~~i=1,\ldots,n\\  \Vert A^T\mathbf{u}_j\Vert^2&=\mathbf{u}_j^TAA^T\mathbf{u}_j=\sigma_j^2\mathbf{u}_j^T\mathbf{u}_j=\sigma_j^2,~~j=1,\ldots,m  \end{aligned}

\sigma_1\ge\cdots\ge\sigma_r>0,且 \sigma_{r+1}=\cdots=\sigma_p=0p=\min\{m,n\}。下式稱為主要關係式:

\begin{aligned}  A\mathbf{v}_i&=\sigma_i\mathbf{u}_i,~~i=1,\ldots,r\\  A\mathbf{v}_i&=\mathbf{0},~~i=r+1,\ldots,n\\  A^T\mathbf{u}_j&=\sigma_j\mathbf{v}_j,~~j=1,\ldots,r\\  A^T\mathbf{u}_j&=\mathbf{0},~~j={r+1},\ldots,m  \end{aligned}

以下性質成立:

  1. r=\hbox{rank}A=\hbox{rank}A^T=\hbox{rank}(A^TA)=\hbox{rank}(AA^T),即 A^TAAA^T 的非零特徵值數。
  2. C(A)=C(AA^T)C(A^T)=C(A^TA)
  3. N(A)=N(A^TA)N(A^T)=N(AA^T)
  4. A 的列空間 C(A^T) 的基底為 \{\mathbf{v}_{1},\ldots,\mathbf{v}_r\}\dim C(A^T)=r
  5. A 的零空間 N(A) 的基底為 \{\mathbf{v}_{r+1},\ldots,\mathbf{v}_n\}\dim N(A)=n-r
  6. A 的行空間 C(A) 的基底為 \{\mathbf{u}_{1},\ldots,\mathbf{u}_r\}\dim C(A)=r
  7. A 的左零空間 N(A^T) 的基底為 \{\mathbf{u}_{r+1},\ldots,\mathbf{u}_m\}\dim N(A^T)=m-r

 
整理上面結果,令 m\times m 階矩陣 U=\begin{bmatrix}  \mathbf{u}_1&\cdots&\mathbf{u}_m  \end{bmatrix}n\times n 階矩陣 V=\begin{bmatrix}  \mathbf{v}_1&\cdots&\mathbf{v}_n  \end{bmatrix}。因為 UV 由單範正交行向量構成,U^TU=I_mV^TV=I_n,也就是說 U^T=U^{-1}V^T=V^{-1},稱為正交矩陣。改寫主要關係式 A\mathbf{v}_i=\sigma_i\mathbf{u}_ii=1,\ldots,r,以及 A\mathbf{v}_i=\mathbf{0}i=r+1,\ldots,n,可得

\displaystyle\begin{aligned}    AV&=A\begin{bmatrix}    \mathbf{v}_1&\cdots&\mathbf{v}_r&\mathbf{v}_{r+1}&\cdot&\mathbf{v}_n \end{bmatrix}\\    &=\begin{bmatrix}  A\mathbf{v}_1&\cdots&A\mathbf{v}_r&A\mathbf{v}_{r+1}&\cdots&A\mathbf{v}_n  \end{bmatrix}\\  &=\begin{bmatrix}  \sigma_1\mathbf{u}_1&\cdots&\sigma_r\mathbf{u}_r&\mathbf{0}&\cdots&\mathbf{0}  \end{bmatrix}\\  &=\begin{bmatrix}  \mathbf{u}_1&\cdots&\mathbf{u}_m  \end{bmatrix}\begin{bmatrix}  \sigma_1&&&\vline&\\  &\ddots&&\vline&0\\  &&\sigma_r&\vline&\\\hline  &0&&\vline&0  \end{bmatrix}\\  &=U\Sigma.\end{aligned}

上面令 m\times n 階矩陣

Z=\begin{bmatrix}  \sigma_1&&&\vline&\\  &\ddots&&\vline&0\\  &&\sigma_r&\vline&\\\hline  &0&&\vline&0  \end{bmatrix}

其中主對角元 \sigma_1,\ldots,\sigma_p 稱為奇異值,p=\min\{m,n\},故 \hbox{rank}A 等於非零奇異值數。因為 V^T=V^{-1}U^T=U^{-1}A 可表示為

A=U\Sigma V^{T}

此式稱為奇異值分解 (singular value decomposition),簡稱 SVD。乘開奇異值分解可將 A 寫成秩-1(rank-one)矩陣之和:

A=\sigma_{1}\mathbf{u}_{1}\mathbf{v}_{1}^{T}+\cdots+\sigma_{r}\mathbf{u}_{r}\mathbf{v}_{r}^{T}

orthonormal-basis-vectors3

奇異值分解表達正交基底映射

 
線性代數第四個基本定理就是奇異值分解,它的核心價值在於為矩陣 (線性變換) A 找出兩組理想的基底:在 A 的定義域的正交基底為 \boldsymbol{\beta}=\{\mathbf{v}1,\ldots,\mathbf{v}_n\},在 A 的到達域 (codomain) 的正交基底為 \boldsymbol{\gamma}=\{\mathbf{u}_1,\ldots,\mathbf{u}_m\},並滿足 A\mathbf{v}_{i}=\sigma_{i}\mathbf{u}_{i}1\le i\le r。這個式子的重大意義是矩陣 A 將列空間基底 \{\mathbf{v}_1,\ldots,\mathbf{v}_r\} 映至行空間基底 \{\mathbf{u}_1,\ldots,\mathbf{u}_r\},同時指出向量長度的改變量,即非零奇異值 \sigma_1,\ldots,\sigma_r (見上圖)。因此,若以 \boldsymbol{\beta}\boldsymbol{\gamma} 當作線性變換 A 的參考基底,便得出對角形式的矩陣表示,即奇異值矩陣 \Sigma (見“線性變換觀點下的奇異值分解”)。令人愉快的是,奇異值分解不需要對矩陣性質作任何假設,任意矩陣總是存在奇異值分解。

相關閱讀:
Advertisement
This entry was posted in 線性代數專欄, 二次型 and tagged , , , . Bookmark the permalink.

6 Responses to 線性代數基本定理 (四)

  1. 黃國祐 says:

    老師您好:
    不好意思我想請問,文章中間提到特徵值的特性中
    設 \sigma_1\ge\cdots\ge\sigma_r>0,且 \sigma_{r+1}=\cdots=\sigma_p=0,p=\min\{m,n\}
    此處的p是否應該為 p=\max{m,n\} 才對呢?

  2. hstk30 says:

    虽然学过高等代数,但是看到这些内容还是有些陌生。想了下才发现原来我们老师在课上讲的都是关于线性变换即空间V到其自身的映射,所以碰到的都是n*n 的形式, 也就没有遇到老师讲的基本定理三和四了。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s