基本矩陣的幾何意義

本文的閱讀等級:中級

假設 \mathbf{u}\mathbf{v} 為幾何向量空間 \mathbb{R}^n 的兩個向量。請注意,以下向量皆為行向量 (column vector)。若 \mathbf{v}^T\mathbf{u}\neq -1,我們稱 I_n+\mathbf{u}\mathbf{v}^T 為基本矩陣或初等矩陣 (elementary matrix),其中 I_n 是單位矩陣,\mathbf{u}\mathbf{v}^T 是秩─1 (rank-one) 矩陣。基本矩陣的名稱源於係每一個基本列運算 (elementary row operation) 都有一個對應的基本矩陣 (見“特殊矩陣(10):基本矩陣”)。基本矩陣是可逆的,其逆矩陣也是基本矩陣,如下:

(I_n+\mathbf{u}\mathbf{v}^T)^{-1}=I_n-\displaystyle\frac{1}{1+\mathbf{v}^T\mathbf{u}}\mathbf{u}\mathbf{v}^{T}

本文推導基本矩陣的行列式公式、特徵值與特徵向量,並解釋基本矩陣的幾何意義。

 
經過幾此試錯,我們設計出下列分塊矩陣乘法:

\begin{bmatrix}    I&0\\    \mathbf{v}^T&1    \end{bmatrix}\begin{bmatrix}    I+\mathbf{u}\mathbf{v}^T&\mathbf{u}\\    0&1    \end{bmatrix}\begin{bmatrix}    I&0\\    -\mathbf{v}^T&1    \end{bmatrix}=\begin{bmatrix}    I&\mathbf{u}\\    0&1+\mathbf{v}^T\mathbf{u}    \end{bmatrix}

使用矩陣乘積行列式可乘公式,

\begin{vmatrix}    I&0\\    \mathbf{v}^T&1    \end{vmatrix}\cdot\begin{vmatrix}    I+\mathbf{u}\mathbf{v}^T&\mathbf{u}\\    0&1    \end{vmatrix}\cdot\begin{vmatrix}    I&0\\    -\mathbf{v}^T&1    \end{vmatrix}=\begin{vmatrix}    I&\mathbf{u}\\    0&1+\mathbf{v}^T\mathbf{u}    \end{vmatrix}

其中分塊三角矩陣的行列式等於主對角分塊的行列式之積,

\begin{vmatrix}    I&0\\    \pm\mathbf{v}^T&1    \end{vmatrix}=1,~\begin{vmatrix}    I+\mathbf{u}\mathbf{v}^T&\mathbf{u}\\    0&1    \end{vmatrix}=\mathrm{det}(I+\mathbf{u}\mathbf{v}^T),~\begin{vmatrix}    I&\mathbf{u}\\    0&1+\mathbf{v}^T\mathbf{u}    \end{vmatrix}=1+\mathbf{v}^T\mathbf{u}

合併以上結果即得基本矩陣的行列式

\det(I+\mathbf{u}\mathbf{v}^T)=1+\mathbf{v}^T\mathbf{u}

 
如果嫌上述分塊矩陣乘法麻煩,你可以直接計算 I+\mathbf{u}\mathbf{v}^T 的特徵值。若 \mathbf{u}\mathbf{v} 為零向量,I+\mathbf{u}\mathbf{v}^T 退化為單位矩陣。以下考慮 \mathbf{u}\mathbf{v} 皆非零向量的情況。首先,我們觀察出

(I+\mathbf{u}\mathbf{v}^T)\mathbf{u}=\mathbf{u}+\mathbf{u}(\mathbf{v}^T\mathbf{u})=(1+\mathbf{v}^T\mathbf{u})\mathbf{u}

得知 I+\mathbf{u}\mathbf{v}^T 有一個 (非零) 特徵值 1+\mathbf{v}^T\mathbf{u},對應特徵向量 \mathbf{u}。再考慮生成空間 \mathrm{span}\{\mathbf{v}\} 的正交補餘 (orthogonal complement) \mathrm{span}\{\mathbf{v}\}^{\perp}。因為 \dim\mathrm{span}\{\mathbf{v}\}^{\perp}=n-1,設 \mathbf{x}_1,\ldots,\mathbf{x}_{n-1} 為子空間 \mathrm{span}\{\mathbf{v}\}^{\perp}n-1 個線性獨立向量 (即基底)。因此,\mathbf{x}_i\perp\mathbf{v},計算

(I+\mathbf{u}\mathbf{v}^T)\mathbf{x}_i=\mathbf{x}_i+\mathbf{u}(\mathbf{v}^T\mathbf{x}_i)=\mathbf{x}_i+0\mathbf{u}=\mathbf{x}_i

得知 I+\mathbf{u}\mathbf{v}^T 有特徵值 1,代數重數為 n-1,對應特徵向量 \mathbf{x}_1,\ldots,\mathbf{x}_{n-1}。行列式等於特徵值之積,

\det(I+\mathbf{u}\mathbf{v}^T)=(1+\mathbf{v}^T\mathbf{u})(1)^{n-1}=1+\mathbf{v}^T\mathbf{u}

如果 \mathbf{u}\notin \hbox{span}\{\mathbf{v}\}^\perp,也就是說 \mathbf{v}^T\mathbf{u}\neq 0,則 \{\mathbf{u},\mathbf{x}_1,\ldots,\mathbf{x}_{n-1}\} 為向量空間 \mathbb{R}^n 的一組基底。這時候,基本矩陣 I+\mathbf{u}\mathbf{v}^T 可對角化為

I+\mathbf{u}\mathbf{v}^T=S\begin{bmatrix}  1+\mathbf{v}^T\mathbf{u}&&&\\  &1&&\\  &&\ddots&\\  &&&1  \end{bmatrix}S^{-1}

其中 S=\begin{bmatrix}  \mathbf{u}&\mathbf{x}_1&\cdots&\mathbf{x}_{n-1}  \end{bmatrix}

 
下面舉一個例子說明如何運用基本矩陣的特徵性質簡化計算。若 \mathbf{u}=\left[\!\!\begin{array}{r}    1\\    -1\\    1    \end{array}\!\!\right]A=I+5\mathbf{u}\mathbf{u}^T,求 \mathbf{u}^TA^{-1}\mathbf{u} (取自台大資工所2010年入學試題)。最明顯的作法是使用基本矩陣的逆矩陣公式先得到 A^{-1},再算出 \mathbf{u}^TA^{-1}\mathbf{u}。另一個較快捷的方法是直接求 A^{-1}\mathbf{u}。因為 \mathbf{u}A 的一個特徵向量,將數值代入計算可得 A\mathbf{u}=(I+5\mathbf{u}\mathbf{u}^T)\mathbf{u}=(1+5\mathbf{u}^T\mathbf{u})\mathbf{u}=16\mathbf{u},推論 A^{-1} 有一個特徵值 \frac{1}{16},對應相同特徵向量 \mathbf{u},亦即 A^{-1}\mathbf{u}=\frac{1}{16}\mathbf{u}。因此,\mathbf{u}^TA^{-1}\mathbf{u}=\frac{1}{16}\mathbf{u}^T\mathbf{u}=\frac{3}{16}

 
接下來,我們討論基本矩陣的幾何意義。為便於說明,在不失一般性的情況下,假設 \Vert\mathbf{u}\Vert=1。任意向量 \mathbf{x} 經基本矩陣映射後結果為

(I+\mathbf{u}\mathbf{v}^T)\mathbf{x}=\mathbf{x}+\mathbf{u}(\mathbf{v}^T\mathbf{x})=\mathbf{x}+(\mathbf{v}^T\mathbf{x})\mathbf{u}

換句話說,基本變換矩陣 I+\mathbf{u}\mathbf{v}^T 將輸入向量 \mathbf{x} 平移 (\mathbf{v}^T\mathbf{x})\mathbf{u}。下面介紹幾種常見的基本矩陣型態,它們的主要差異表現在 \mathbf{v} 和單位向量 \mathbf{u} 的關係上。

 
例 1 . 基本鏡射矩陣

\Vert\mathbf{u}\Vert=1\mathbf{v}=-2\mathbf{u}。基本矩陣 H=I-2\mathbf{u}\mathbf{u}^T 稱為基本鏡射矩陣或 Householder 矩陣。單位向量 \mathbf{u} 決定了 \mathbb{R}^n 空間的鏡射超平面 \mathrm{span}\{\mathbf{u}\}^{\perp}H\mathbf{x} 即為 \mathbf{x} 的鏡射向量 (見圖 1)。基本鏡射矩陣 H 是一個實對稱、正交矩陣,H=H^{T}=H^{-1},也是對合矩陣,H^2=I (見“特殊矩陣(4):Householder 矩陣”)。

圖 1 基本鏡射

 
例 2. 基本投影矩陣

\Vert\mathbf{u}\Vert=1\mathbf{v}=-\mathbf{u}。我們稱 P=I-\mathbf{u}\mathbf{u}^T 為基本投影矩陣。直接計算可確認 P 滿足正交投影矩陣的兩個定義性質 P^2=PP^T=P (見“特殊矩陣(5):冪等矩陣”),如下:

\begin{aligned}  P^2&=(I-\mathbf{u}\mathbf{u}^T)^2=I-2\mathbf{u}\mathbf{u}^T+\mathbf{u}\mathbf{u}^T\mathbf{u}\mathbf{u}^T=I-\mathbf{u}\mathbf{u}^T=P\\  P^T&=(I-\mathbf{u}\mathbf{u}^T)^T=I-(\mathbf{u}\mathbf{u}^T)^T=I-\mathbf{u}\mathbf{u}^T=P.\end{aligned}

在基本投影矩陣,\mathbf{u}\mathbf{u}^T 代表至向量 \mathbf{u} 所指直線的正交投影矩陣,I-\mathbf{u}\mathbf{u}^T 即為至正交補餘 \mathrm{span}\{\mathbf{u}\}^{\perp} 的正交投影矩陣 (見“正交投影──威力強大的線代工具”),見圖 2。但請特別注意,基本投影矩陣並非可逆矩陣,因為 \mathbf{v}^T\mathbf{u}=-\mathbf{u}^T\mathbf{u}=-\Vert\mathbf{u}\Vert^2=-1。按照定義,基本投影矩陣 P 不是一個基本矩陣。

圖 2 基本投影

 
例 3 . 基本列運算矩陣

每一個基本列運算都對應一個基本矩陣。令 \mathbf{e}_i=(0,\ldots,1,\ldots,0) 表示標準單位向量,其第 i 元為 1,其餘元為 0。對應基本列運算的交換矩陣 E_1 (交換列 i 和列 ji\neq j),伸縮矩陣 E_2 (列 i 通乘非零常數 c),以及取代矩陣 E_3 (將列 i 通乘非零常數 c 的結果加進列 ji\neq j) 可表示為 (詳見“特殊矩陣(10):基本矩陣”)

\begin{aligned}  E_1&=I-(\mathbf{e}_i-\mathbf{e}_j)(\mathbf{e}_i-\mathbf{e}_j)^T\\    E_2&=I+(c-1)\mathbf{e}_i\mathbf{e}_i^T\\    E_3&=I+c\mathbf{e}_j\mathbf{e}_i^T.\end{aligned}

對於交換矩陣 E_1,令 \mathbf{u}=\mathbf{v}=(\mathbf{e}_i-\mathbf{e}_j)/\Vert\mathbf{e}_i-\mathbf{e}_j\Vert=\frac{1}{\sqrt{2}}(\mathbf{e}_i-\mathbf{e}_j)。因此,E_1 可改寫成 E_1=I-2\mathbf{u}\mathbf{u}^T,得知交換矩陣其實就是以 \mathbf{e}_i-\mathbf{e}_j 為超鏡射平面法向量的基本鏡射矩陣。對於伸縮矩陣 E_2,令 \mathbf{u}=\mathbf{e}_i\mathbf{v}=(c-1)\mathbf{e}_i。因此,E_2=I+(c-1)\mathbf{u}\mathbf{u}^T。式 \mathbf{u}\mathbf{u}^T\mathbf{x}=x_i\mathbf{e}_i 說明 E_2\mathbf{x}\mathbf{x} 的第 i 元伸縮了 c 倍,其餘元維持不變。取代矩陣可寫成 E_3=I+\mathbf{u}\mathbf{v}^T,其中 \mathbf{u}=\mathbf{e}_j\mathbf{v}=c\mathbf{e}_i。取代矩陣是一個切變 (shear) 矩陣 (見“幾何變換矩陣的設計”),E_3\mathbf{x}=\mathbf{x}+cx_i\mathbf{e}_j 顯示其實際作用是將向量 \mathbf{x} 沿著 \mathbf{e}_j 方向平移 cx_i 單位。

This entry was posted in 線性變換, 線性代數專欄 and tagged , , , , . Bookmark the permalink.

2 則回應給 基本矩陣的幾何意義

  1. vtriplev 說:

    今天看阿督仔的課程,有介紹 rank one update , rank one downdate
    基本矩陣似乎剛好符合 rank one update , rank one downdate的定義方式.

  2. ccjou 說:

    是的,rank-one update and rank-one downdate 具有 A+uv^TA-uv^T 形式,常應用於數值計算上,如 Cholesky 分解。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s