圖解基底變換、座標變換、相似變換與相似矩陣

本文的閱讀等級:中級

在線性變換中,最令學者困惑的主題莫過於揉合了基底、座標、線性變換與其表示矩陣的變換問題。令 \mathcal{V} 為一個定義於 \mathbb{R} 的向量空間,\dim\mathcal{V}=n。設 \mathfrak{B}_V=\{\mathbf{v}_1,\ldots,\mathbf{v}_n\}\mathfrak{B}_W=\{\mathbf{w}_1,\ldots,\mathbf{w}_n\} 是向量空間 \mathcal{V} 的兩組基底。以下是四個典型的變換問題[1]

Q1 基底變換:若 \mathbf{x},\mathbf{y}\in\mathcal{V}\mathbf{x}=c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n\mathbf{y}=c_1\mathbf{w}_1+\cdots+c_n\mathbf{w}_n,向量 \mathbf{x}\mathbf{y} 有甚麼關係?

Q2 座標變換:若 \mathbf{x}\in\mathcal{V}\mathbf{x}=c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n=d_1\mathbf{w}_1+\cdots+d_n\mathbf{w}_n,座標 (c_1,\ldots,c_n)(d_1,\ldots,d_n) 有甚麼關係?

Q3 相似變換:若 B(\mathbf{v}_j)=p_{1j}\mathbf{v}_1+\cdots+p_{nj}\mathbf{v}_nC(\mathbf{w}_j)=p_{1j}\mathbf{w}_1+\cdots+p_{nj}\mathbf{w}_nj=1,\ldots,n,線性變換 BC 有甚麼關係?

Q4 相似矩陣:若 Q(\mathbf{v}_j)=b_{1j}\mathbf{v}_1+\cdots+b_{nj}\mathbf{v}_nQ(\mathbf{w}_j)=c_{1j}\mathbf{w}_1+\cdots+c_{nj}\mathbf{w}_nj=1,\ldots,n,矩陣 [b_{ij}][c_{ij}] 有甚麼關係?

 
解決這四個變換問題的預備知識包括線性變換基本性質、座標映射和線性變換表示矩陣,簡述於下。

(1) 線性變換基本性質:若 T:\mathcal{V}\to\mathcal{V} 為一個線性變換 (或稱線性算子),則對於 \mathbf{x},\mathbf{y}\in\mathcal{V},和純量 c

\begin{aligned}  T(\mathbf{x}+\mathbf{y})&=T(\mathbf{x})+(\mathbf{y})\\  T(c\mathbf{x})&=cT(\mathbf{x}).  \end{aligned}

(2) 座標映射:對於任一 \mathbf{x}\in\mathcal{V},存在唯一的有序數組 \{c_1,\ldots,c_n\} 使得

\mathbf{x}=c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n

我們說 [\mathbf{x}]_V=(c_1,\ldots,c_n)^T 是向量 \mathbf{x} 參考基底 \mathfrak{B}_V 的座標向量,兩者之間具有一對一相映關係 (見“啊哈!原來變換矩陣這麼簡單”):

\mathbf{x}\rightleftharpoons \begin{bmatrix} c_1\\ \vdots\\ c_n \end{bmatrix}=[\mathbf{x}]_V

若線性變換 L_V:\mathcal{V}\to\mathbb{R}^n 使得 L_V(\mathbf{x})=[\mathbf{x}]_V,則 L_V 稱為基底 \mathfrak{B}_V 的座標映射。因為 \mathcal{V}\mathbb{R}^n 是同構的向量空間 (見“同構的向量空間”),L_V 是可逆映射,就有 \mathbf{x}=L_V^{-1}([\mathbf{x}]_V)

(3) 線性變換表示矩陣:我們定義線性變換 T 參考基底 \mathfrak{B}_Vn\times n 階表示矩陣為 (見“線性變換表示矩陣”)

[T]_V=\begin{bmatrix}  & &\\  \begin{bmatrix}  T(\mathbf{v}_1)  \end{bmatrix}_V&\cdots&\begin{bmatrix}  T(\mathbf{v}_n)  \end{bmatrix}_V\\  & &  \end{bmatrix}

滿足 [T(\mathbf{x})]_V=[T]_V[\mathbf{x}]_V。因為 [T(\mathbf{x})]_V=L_V(T(\mathbf{x}))=L_VT(\mathbf{x}) (這裡 L_VT 代表複合變換 L_V\circ T) 且 [\mathbf{x}]_V=L_V(\mathbf{x}),推知 L_VT(\mathbf{x})=[T]_VL_V(\mathbf{x})。由於 \mathbf{x} 是任意向量,定有

L_VT=[T]_VL_V

上式左乘或右乘 L_V^{-1},可得 T=L_V^{-1}[T]_VL_V[T]_V=L_VTL_V^{-1},圖示如下:

圖解基底變換、座標變換、相似變換與相似矩陣1

 
以下每一個變換問題都提供兩個解法。第一個解法使用線性組合 (向量加法和純量乘法) 搭配線性變換基本性質運算;第二個解法採用座標映射和線性變換表示矩陣的複合運算 (矩陣乘法),並借助對等的映射圖推論。

 
Q1 基底變換

\mathbf{x},\mathbf{y}\in\mathcal{V}

\begin{aligned}  \mathbf{x}&=c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n\\ \mathbf{y}&=c_1\mathbf{w}_1+\cdots+c_n\mathbf{w}_n,\end{aligned}

向量 \mathbf{x}\mathbf{y} 有甚麼關係?

 
解法A:換一個問法,從向量 \mathbf{x} 如何映至 \mathbf{y}?關鍵在於聯繫兩組基底的線性變換。設 T:\mathcal{V}\to\mathcal{V} 為一個線性變換,滿足 T(\mathbf{v}_j)=\mathbf{w}_jj=1,\ldots,n,則

\begin{aligned}  T(\mathbf{x})&=T\left(c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n\right)=c_1T(\mathbf{v}_1)+\cdots+c_nT(\mathbf{v}_n)\\  &=c_1\mathbf{w}_1+\cdots+c_n\mathbf{w}_n=\mathbf{y}.\end{aligned}

所以,從 \mathbf{x} 映至 \mathbf{y} 的線性變換 T 正是將有序基底 \{\mathbf{v}_1,\ldots,\mathbf{v}_n\} 映至另一組有序基底 \{\mathbf{w}_1,\ldots,\mathbf{w}_n\} 的基底變換。

 
解法B:我們從座標映射觀點來回答這個問題。令 [\mathbf{x}]_V 表示向量 \mathbf{x} 參考基底 \mathfrak{B}_V 的座標向量,[\mathbf{y}]_W 表示向量 \mathbf{y} 參考基底 \mathfrak{B}_W 的座標向量。設 L_V:\mathcal{V}\to\mathbb{R}^nL_W:\mathcal{V}\to\mathbb{R}^n 代表座標映射,分別滿足 L_V(\mathbf{x})=[\mathbf{x}]_VL_W(\mathbf{y})=[\mathbf{y}]_W,圖示如下:

圖解基底變換、座標變換、相似變換與相似矩陣2

由已知條件 [\mathbf{x}]_V=[\mathbf{y}]_W=(c_1,\ldots,c_n)^T 可得 L_V(\mathbf{x})=L_W(\mathbf{y}),故

\mathbf{y}=L_W^{-1}\left(L_V(\mathbf{x})\right)=L_W^{-1}L_V(\mathbf{x})

\mathbf{y}=T(\mathbf{x})。因為 \mathbf{x} 是任意向量,即知 T=L_W^{-1}L_V。以上推論過程可以轉換成圖形描述:將 \mathbf{x}\xrightarrow[]{~T~}\mathbf{y} 加入上圖,黏合 [\mathbf{x}]_V[\mathbf{y}]_W,反轉 L_W 的箭頭方向 (對應的線性映射改成 L_W^{-1}),就有

圖解基底變換、座標變換、相似變換與相似矩陣3

圖中顯示兩條從 \mathbf{x} 映至 \mathbf{y} 的等價路徑,推知 T=L_W^{-1}L_V

 
為保險起見,我們還要驗證解法A和解法B有相同的結果,也就是說,T=L_W^{-1}L_V 確實是將 \mathbf{v}_j 映至 \mathbf{w}_j 的基底變換。因為 L_V(\mathbf{v}_j)=\mathbf{e}_j=(0,\ldots,0,1,0,\ldots,0)^T\mathbf{e}_j 代表 \mathbb{R}^n 的標準單位向量 (第 j 元等於 1,其餘元等於 0)。同樣地,L_W(\mathbf{w}_j)=\mathbf{e}_j,所以

T(\mathbf{v}_j)=L_W^{-1}(L_V(\mathbf{v}_j))=L_W^{-1}(\mathbf{e}_j)=\mathbf{w}_j,~~~j=1,\ldots,n

 
Q2 座標變換

\mathbf{x}\in\mathcal{V}

\mathbf{x}=c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n=d_1\mathbf{w}_1+\cdots+d_n\mathbf{w}_n

座標向量 [\mathbf{x}]_V=(c_1,\ldots,c_n)^T[\mathbf{x}]_W=(d_1,\ldots,d_n)^T 有甚麼關係?

 
解法A:Q1與Q2的主要差異在於前者求線性變換而後者問矩陣。將問題改為:從座標向量 [\mathbf{x}]_W 映至 [\mathbf{x}]_V 的座標變換矩陣為何?(當然我們也可以考慮從 [\mathbf{x}]_V 映至 [\mathbf{x}]_W 的座標變換矩陣,兩者互為逆矩陣。) 注意,\mathbf{w}_j 不僅是 \mathbf{v}_j 經基底變換 T 映射得到的像 (image),同時也可唯一表示成 \mathbf{v}_1,\ldots,\mathbf{v}_n 的線性組合,如下:

\mathbf{w}_j=T(\mathbf{v}_j)=a_{1j}\mathbf{v}_1+\cdots+a_{nj}\mathbf{v}_n,~~~j=1,\ldots,n

將上式代入 \mathbf{x}\mathbf{w}_j 組合的表達式,

\begin{aligned}  \mathbf{x}&=d_1\mathbf{w}_1+\cdots+d_n\mathbf{w}_n\\  &=d_1\displaystyle\left(\sum_{i=1}^na_{i1}\mathbf{v}_i\right)+\cdots+d_n\left(\sum_{i=1}^na_{in}\mathbf{v}_i\right)\\  &=\sum_{j=1}^n\left(\sum_{i=1}^nd_ja_{ij}\mathbf{v}_i\right)=\sum_{i=1}^n\left(\sum_{j=1}^na_{ij}d_j\right)\mathbf{v}_i.\end{aligned}

比較上式和 \mathbf{x}=c_1\mathbf{v}_1+\cdots+c_n\mathbf{v}_n 的係數,立得

\displaystyle  c_i=\sum_{j=1}^na_{ij}d_j,~~~i=1,\ldots,n

或改寫成矩陣形式

[\mathbf{x}]_V=A[\mathbf{x}]_W

其中 A=[a_{ij}] 即為基底變換 T 參考 \mathfrak{B}_V 的表示矩陣 [T]_V,因為

\begin{bmatrix}\mathbf{w}_j\end{bmatrix}_V=\begin{bmatrix}  T(\mathbf{v}_j)  \end{bmatrix}_{V}=\begin{bmatrix}  a_{1j}\\  \vdots\\  a_{nj}  \end{bmatrix},~~~j=1,\ldots,n

我們得到了一個令人訝異的結果:座標變換矩陣 [\mathbf{x}]_W\xrightarrow[]{~A~}[\mathbf{x}]_V 正是基底變換 \mathbf{v}_j\xrightarrow[]{~T~}\mathbf{w}_j 參考 \mathfrak{B}_V 的表示矩陣 (相關討論見“座標變換與基底變換的對應關係”)。何以 A=[T]_VT 的映射方向相反?從座標映射的角度很容易解釋這個現象。

 
解法B:採用座標映射可以大大簡化推導過程。Q2其實在問滿足下圖的座標變換矩陣 A 為何?

圖解基底變換、座標變換、相似變換與相似矩陣4

從上圖映射路徑 (反轉 L_W),立知 A=L_VL_W^{-1},或直接計算得到

[\mathbf{x}]_V=L_V(\mathbf{x})=L_V\left(L_W^{-1}\left([\mathbf{x}]_{W}\right)\right)=L_VL_W^{-1}\left([\mathbf{x}]_W\right)

根據Q1解法B,T=L_W^{-1}L_V,從映射圖如何推論 [T]_V=L_VL_W^{-1}?也就是說,如何推得 A=[T]_V?上圖中加入 \mathbf{x}\xrightarrow[]{~T~}T(\mathbf{x})[\mathbf{x}]_V\xrightarrow[]{~L_W^{-1}~}T(\mathbf{x}) (因為 T=L_W^{-1}L_V),即有

圖解基底變換、座標變換、相似變換與相似矩陣5

基底變換 T 參考 \mathfrak{B}_V 的表示矩陣 [T]_V 滿足 T=L_V^{-1}[T]_VL_V[T]_V=L_VTL_V^{-1},故上圖可擴充如下:

圖解基底變換、座標變換、相似變換與相似矩陣6

圖中,A[T]_V 有相同的等價映射路徑 L_VL_W^{-1},因此證明 A=[T]_V。注意,上半部的 T 定義於向量空間 \mathcal{V},下半部的 [T]_V (即 A) 定義於 \mathbb{R}^n,而 L_VL_W 提供從 \mathcal{V}\mathbb{R}^n 的映射。

 
Q3 相似變換

若對於 j=1,\ldots,n

\begin{aligned}  B(\mathbf{v}_j)&=p_{1j}\mathbf{v}_1+\cdots+p_{nj}\mathbf{v}_n\\ C(\mathbf{w}_j)&=p_{1j}\mathbf{w}_1+\cdots+p_{nj}\mathbf{w}_n,\end{aligned}

線性變換 BC 有甚麼關係?

 
解法A:同Q1和Q2的解法A,我們使用線性組合與線性變換基本性質運算。因為基底變換 T 滿足 \mathbf{w}_j=T(\mathbf{v}_j)j=1,\ldots,n,可知

C(\mathbf{w}_j)=C\left(T(\mathbf{v}_j)\right)=CT(\mathbf{v}_j)

另外,套用給出條件,

\displaystyle  C(\mathbf{w}_j)=\sum_{i=1}^np_{ij}\mathbf{w}_i=\sum_{i=1}^np_{ij}T(\mathbf{v}_i)=T\left(\sum_{i=1}^np_{ij}\mathbf{v}_i\right)=T\left(B(\mathbf{v}_j)\right)=TB(\mathbf{v}_j)

合併上面兩式,即有

CT(\mathbf{v}_j)=TB(\mathbf{v}_j),~~~j=1,\ldots,n

可知對於任一 \mathbf{x}\in\mathcal{V}CT(\mathbf{x})=TB(\mathbf{x}),故 CT=TB。因為 T 是可逆變換,左乘或右乘 T^{-1} 可得 B=T^{-1}CTC=TBT^{-1},我們稱線性變換 B 相似於 C (見“相似變換下的不變性”)。

 
解法B:令 P=[p_{ij}],由給出條件可知 P 即為線性變換 B 參考 \mathfrak{B}_V 的表示矩陣 [B]_V,同樣也是線性變換 C 參考 \mathfrak{B}_W 的表示矩陣 [C]_W。將關係式 B=L_V^{-1}[B]_VL_VC=L_W^{-1}[C]_WL_WP=[B]_V=[C]_W 彙整成下圖:

圖解基底變換、座標變換、相似變換與相似矩陣7

圖中 P 的兩條等價映射路徑指出 L_VBL_V^{-1}=L_WCL_W^{-1},同時左乘 L_W^{-1},右乘 L_V,可得 L_W^{-1}L_VB=CL_W^{-1}L_V (分別對應從 \mathbf{x}C(\mathbf{y}) 沿著下緣和上緣的映射路徑)。因為 T=L_W^{-1}L_V,故得 TB=CT。上圖加入 \mathbf{x}\xrightarrow[]{~T~}\mathbf{y}B(\mathbf{x})\xrightarrow[]{~T~}C(\mathbf{y}),完整的相似變換映射圖如下:

圖解基底變換、座標變換、相似變換與相似矩陣8

 
Q4 相似矩陣

Q:\mathcal{V}\to\mathcal{V} 為一個線性變換,對於 j=1,\ldots,n

\begin{aligned}  Q(\mathbf{v}_j)&=b_{1j}\mathbf{v}_1+\cdots+b_{nj}\mathbf{v}_n\\ Q(\mathbf{w}_j)&=c_{1j}\mathbf{w}_1+\cdots+c_{nj}\mathbf{w}_n,\end{aligned}

線性變換表示矩陣 [Q]_V=[b_{ij}][Q]_W=[c_{ij}] 有甚麼關係?

 
解法A:寫出Q2解法A的基底變換 T(\mathbf{v}_j) 表達式

\mathbf{w}_j=T(\mathbf{v}_j)=a_{1j}\mathbf{v}_1+\cdots+a_{nj}\mathbf{v}_n,~~~j=1,\ldots,n

用它來計算

\displaystyle\begin{aligned}  Q(\mathbf{w}_j)&=Q\left(T(\mathbf{v}_j)\right)=Q\left(\sum_{k=1}^na_{kj}\mathbf{v}_k\right)\\  &=\sum_{k=1}^na_{kj}Q(\mathbf{v}_k)=\sum_{k=1}^na_{kj}\sum_{i=1}^nb_{ik}\mathbf{v}_i\\  &=\sum_{i=1}^n\left(\sum_{k=1}^nb_{ik}a_{kj}\right)\mathbf{v}_i.\end{aligned}

另一方面,從已知的 Q(\mathbf{w}_j) 的線性組合表達式出發,亦可得

\displaystyle\begin{aligned}  Q(\mathbf{w}_j)&=\sum_{k=1}^nc_{kj}\mathbf{w}_k=\sum_{k=1}^nc_{kj}T(\mathbf{v}_k)\\  &=\sum_{k=1}^nc_{kj}\sum_{i=1}^na_{ik}\mathbf{v}_i=\sum_{i=1}^n\left(\sum_{k=1}^na_{ik}c_{kj}\right)\mathbf{v}_i.  \end{aligned}

比較兩式的係數,

\displaystyle  \sum_{k=1}^nb_{ik}a_{kj}=\sum_{k=1}^na_{ik}c_{kj},~~~i,j=1,\ldots,n

因為 A=[T]_V[Q]_V=[b_{ij}][Q]_W=[c_{ij}],上式可寫成矩陣形式

[Q]_V[T]_V=[T]_V[Q]_W

左乘或右乘 [T]_V^{-1},可得

[Q]_W=[T]_V^{-1}Q_V[T]_V,~~[Q]_V=[T]_VQ_W[T]_V^{-1}

因此,線性變換 Q 參考 \mathfrak{B}_V 的表示矩陣 [Q]_V 相似於 Q 參考 \mathfrak{B}_W 的表示矩陣 [Q]_W

 
解法B:類似Q3解法B,線性變換 Q 與其表示矩陣 [Q]_V[Q]_W 具有下列關係:Q=L_V^{-1}[Q]_VL_VQ=L_W^{-1}[Q]_WL_W,合併可得 L_V^{-1}[Q]_VL_V=L_W^{-1}[Q]_WL_W。上式左乘 L_V,右乘 L_W^{-1},就有 [Q]_VL_VL_W^{-1}=L_VL_W^{-1}[Q]_W。因為 [T]_V=L_VL_W^{-1},故 [Q]_V[T]_V=[T]_V[Q]_W。從下面的相似矩陣的映射圖也可以立刻推得相同結論。

圖解基底變換、座標變換、相似變換與相似矩陣9

 
結語:映射圖是處理線性變換問題的一種形象化方法,直觀地表示基底變換、座標映射與其他線性變換的交互作用。圖中的頂點可以是向量或座標向量,有向邊代表線性變換 (含基底變換和座標映射) 或線性變換表示矩陣。映射圖的設計程序大致如下:根據題意挑選出重要的頂點和有向邊,以適當符號標記,接著透過頂點之間的串聯繪出有向邊,必要時再修改補添頂點和有向邊至完成全圖為止。不過,如果給定的是數值應用問題,即便圖解法能迅速導出關鍵公式,必要的計算仍不可免。他日將針對數值問題另文舉例說明圖解法的實際操作。

 
後註1:本文介紹的線性算子 T:\mathcal{V}\to\mathcal{V} 變換問題解法可推廣至一般線性變換 T:\mathcal{V}\to\mathcal{W},即定義域 \mathcal{V} 和到達域 \mathcal{W} 是不同的向量空間。細部工作就留給讀者自行完成。

後註2:Q2說明了座標變換矩陣 A (滿足 A[\mathbf{x}]_W=[\mathbf{x}]_V) 等於基底變換 T 參考 \mathfrak{B}_V 的表示矩陣 [T]_V。事實上,A 也等於基底變換 T 參考 \mathfrak{B}_W 的表示矩陣 [T]_W,也就是說,[T]_V=[T]_W。若採用解法A,寫出 \mathbf{w}_j 的組合表達式

\mathbf{w}_j=T(\mathbf{v}_j)=a_{1j}\mathbf{v}_1+\cdots+a_{nj}\mathbf{v}_n,~~~j=1,\ldots,n

\displaystyle  T(\mathbf{w}_j)=T\left(\sum_{i=1}^na_{ij}\mathbf{v}_i\right)=\sum_{i=1}^na_{ij}T(\mathbf{v}_i)=\sum_{i=1}^na_{ij}\mathbf{w}_i

故知

\begin{bmatrix}  T(\mathbf{w}_j)  \end{bmatrix}_W=\begin{bmatrix}  a_{1j}\\  \vdots\\  a_{nj}  \end{bmatrix},~~~j=1,\ldots,n

因此證明 A=[T]_W。若採用解法B,擴充Q2解法B的映射圖如下:

圖解基底變換、座標變換、相似變換與相似矩陣10

比較從左下 [\mathbf{x}]_W 至右上 [T(\mathbf{x})]_W 的兩條等價映射路徑:

[\mathbf{x}]_W\xrightarrow[]{~L_W^{-1}~}\mathbf{x}\xrightarrow[]{~L_W~}[\mathbf{x}]_W\xrightarrow[]{~[T]_W~}[T(\mathbf{x})]_W

[\mathbf{x}]_W\xrightarrow[]{~A~}[\mathbf{x}]_V\xrightarrow[]{~L_W^{-1}~}T(\mathbf{x})\xrightarrow[]{~L_W~}[T(\mathbf{x})]_W

立得 A=[T]_W

 
參考來源:
[1] Paul R. Halmos, Finite-Dimensional Vector Spaces, Springer, 1958, pp 82-84.

繼續閱讀:
This entry was posted in 線性變換, 線性代數專欄 and tagged , , , , . Bookmark the permalink.

Leave a comment