答Avis──關於行秩等於列秩的幾何背景

網友Avis留言:

老师你好,经常关注你的Blog“线性代数启示录”,很喜欢里面的内容。这里有一个问题想请教一下,是学习线性代数多年来觉得比较有意思的地方,为什么矩阵的行秩等于列秩?当然我这里问的不是怎么证明,而是想问是否有更为本质的几何和物理背景?对于几何背景不限于行空间的维数等于列空间维数这样的,而是更想知道到底是怎么样一种结构,使得行列空间秩相同。我之前一直把这个结论,认为是数学的一种“巧合”。在这样的“巧合”之下我们对于一个矩阵就只用定义一个秩 (因为行列秩相同)。

 
答曰:

我們先複習秩 (rank)、行秩 (column rank) 與列秩 (row rank) 的定義。提醒讀者:在台灣,橫向稱為列,縱向稱為行。在中國大陸,橫向稱為行,縱向稱為列。

 
\mathcal{V}\mathcal{W} 是兩個有限維向量空間,T:\mathcal{V}\to\mathcal{W} 是一個線性變換。簡單講,秩是附著於線性變換的一種訊息 (信息) 內容度量值。我們知道線性變換 T 描述一個從定義域 \mathcal{V} 至到達域 \mathcal{W} 的映射,數學家主張 T 的值域 (range 或 image)

\hbox{ran}(T)=\{T(\mathbf{x})\vert\mathbf{x}\in\mathcal{V}\}

代表 T 的訊息內容。值域 \hbox{ran}(T) 是到達域 \mathcal{W} 的一個子空間,維數 (dimension) 是子空間大小的度量,因此我們定義線性變換 T 的秩等於值域的維數,記為 \hbox{rank}T=\dim \hbox{ran}(T)

 
矩陣是線性變換的體現。一個 m\times n 階矩陣 A 可視為透過矩陣乘法實現的一個線性變換 A:\mathbb{C}^n\to\mathbb{C}^m。矩陣 A 的值域為其行空間 (所有行向量的擴張),即

\displaystyle  \hbox{ran}(A)=C(A)=\{A\mathbf{x}\vert\mathbf{x}\in\mathbb{C}^n\}

可知 \hbox{rank}A=\dim C(A),因此 \hbox{rank}A 又稱為 A 的行秩 (意為行空間維數)。同樣地,A^T:\mathbb{C}^m\to\mathbb{C}^n\hbox{rank}A^T=C(A^T),但 A^T 的行即為 A 的列,所以 \hbox{rank}A^T 稱為 A 的列秩。

 
矩陣 A 的行秩等於列秩,\hbox{rank}A=\hbox{rank}A^T,只是一個表象,隱藏其下的深層意涵是矩陣 A 的行秩等於共軛轉置 A^\ast=\overline{A}^T 的行秩,即 \hbox{rank}A=\hbox{rank}A^\ast。我們考慮 A^\ast 而非 A^T 的主要意圖在於引進複向量內積。兩個 n 維複向量 \mathbf{x}\mathbf{y} 的內積定義為 \mathbf{x}^\ast\mathbf{y} (見“內積的定義”)。因此 A\mathbf{x} 的第 i 元可以看成 A 的第 i 個列向量的共軛 (即 A^\ast 的第 i 個行向量) 與 \mathbf{x} 的內積。若 A 為實矩陣,A^\ast=A^T,則 \hbox{rank}A^\ast=\hbox{rank}A^T。若 A 為複矩陣,我們另須證明 \hbox{rank}\overline{A}=\hbox{rank}A (在此省略,請見“利用 Gramian 矩陣證明行秩等於列秩”,等式4)。的確,\hbox{rank}A=\hbox{rank}A^\ast 並不是一個顯而易見的命題。那麼是否有更為本質性的幾何背景?(由於未連接特定的應用,故不以物理稱之。) 到底是怎麼樣一種結構使得 \hbox{rank}A=\hbox{rank}A^\ast?問題其實已經講出了答案:矩陣 A 的行空間 C(A)A^\ast 的行空間 C(A^\ast) 同構 (isomorphic,相同的結構),記為 C(A)\cong C(A^\ast),意思是 \mathbf{x}\in C(A)\mathbf{y}\in C(A^\ast) 有一對一的線性關係 (見“同構的向量空間”)。如果 \mathbf{x}_i\rightleftharpoons\mathbf{y}_i\mathbf{x}_i\in C(A)\mathbf{y}_i\in C(A^\ast)1\le i\le r,則對於任意數組 c_1,\ldots,c_r

\displaystyle  c_1\mathbf{x}_1+\cdots+c_r\mathbf{x}_r\rightleftharpoons c_1\mathbf{y}_1+\cdots+c_r\mathbf{y}_r

既然如此,我們只要考慮 C(A) 的一組基底與 C(A^\ast) 的一組基底是否存在一對一線性關係即可。如果存在一個線性變換 \phi 使得 C(A) 的每一基向量 \mathbf{x}_i 映射至 C(A^\ast) 的一個基向量 \phi(\mathbf{x}_i)=\mathbf{y}_i,且存在一線性變換 \psi 使得 C(A^\ast) 的每一基向量 \mathbf{y}_i 映射至 C(A) 的一個基向量 \psi(\mathbf{y}_i)=\mathbf{z}_i (\mathbf{z}_i 未必與 \mathbf{x}_i 相同),即可推論 C(A)\cong C(A^\ast),也就證明 \dim C(A)=\dim C(A^\ast)。接下來的問題是,如何找出具有上述性質的線性變換 \phi\psi?踏破鐵鞋無覓處,得來全不費功夫。宣布答案:共軛轉置矩陣 A^\ast 即是 \phi,而 A 本身則是 \psi

 
下面我提供兩種論證。第一個論證建立在矩陣的奇異值分解 (singular value decomposition),第二個論證使用依附於矩陣的基本子空間的正交性質。

 
論證一:假設 Am\times n 階複矩陣,A 的奇異值分解如下 (見“線性變換觀點下的奇異值分解”):

A=U\Sigma V^\ast

其中

  • U=\begin{bmatrix}  \mathbf{u}_1&\cdots&\mathbf{u}_m  \end{bmatrix} 是一 m\times m 階么正 (unitary) 矩陣,U^\ast=U^{-1},行向量 \mathbf{u}_i\in\mathbb{C}^m 稱為左奇異向量,它們組成一個單範正交集 (orthonormal set):\mathbf{u}_i^\ast\mathbf{u}_j=1i=j\mathbf{u}_i^\ast\mathbf{u}_j=0i\neq j
  • V=\begin{bmatrix}  \mathbf{v}_1&\cdots&\mathbf{v}_n  \end{bmatrix} 是一 n\times n 階么正矩陣,V^\ast=V^{-1},行向量 \mathbf{v}_i\in\mathbb{C}^n 稱為右奇異向量,它們組成一個單範正交集:\mathbf{v}_i^\ast\mathbf{v}_j=1i=j\mathbf{v}_i^\ast\mathbf{v}_j=0i\neq j
  • \Sigma 是一 m\times n 階對角矩陣,主對角元 \sigma_1\ge\cdots\ge\sigma_r>0 稱為奇異值,如下:

\Sigma=\begin{bmatrix}  \sigma_1&&&\vline&\\  &\ddots&&\vline&0\\  &&\sigma_r&\vline&\\\hline  &0&&\vline&0\end{bmatrix}

奇異值分解等號兩邊右乘 V,可得 AV=U\Sigma,即

A\begin{bmatrix}  \mathbf{v}_1&\cdots&\mathbf{v}_r&\vline&\mathbf{v}_{r+1}&\cdots&\mathbf{v}_n  \end{bmatrix}=\begin{bmatrix}  \mathbf{u}_1&\cdots&\mathbf{u}_r&\vline&\mathbf{u}_{r+1}&\cdots&\mathbf{u}_m  \end{bmatrix}\begin{bmatrix}  \sigma_1&&&\vline&\\  &\ddots&&\vline&0\\  &&\sigma_r&\vline&\\\hline  &0&&\vline&0\end{bmatrix}

乘開可得下列方程組:

\begin{aligned}  A\mathbf{v}_i&=\sigma_i\mathbf{u}_i,~~i=1,\ldots,r\\  A\mathbf{v}_i&=\mathbf{0},~~i=r+1,\ldots,n,\end{aligned}

稱為基底映射表達式。另一方面,對 A=U\Sigma V^\ast 取共軛轉置,A^\ast=V\Sigma^TU^\ast,右乘 U,可得 A^\ast U=V\Sigma^T。對應 A^\ast 的奇異值分解的基底映射表達式為

\begin{aligned}  A^\ast\mathbf{u}_i&=\sigma_i\mathbf{v}_i,~~i=1,\ldots,r\\  A^\ast\mathbf{u}_i&=\mathbf{0},~~i=r+1,\ldots,m.\end{aligned}

基底映射表達式說明兩件事:\{\mathbf{u}_1,\ldots,\mathbf{u}_r\}C(A) 的一組基底且 \{\mathbf{v}_1,\ldots,\mathbf{v}_r\}C(A^\ast) 的一組基底;透過 AA^\ast,基向量 \mathbf{v}_i\mathbf{u}_i 有一對一的線性關係:A\mathbf{v}_i=\sigma_i\mathbf{u}_iA^\ast\mathbf{u}_i=\sigma_i\mathbf{v}_ii=1,\ldots,r

 
論證二:假設 \hbox{rank}A^\ast=r,且 \{\mathbf{v}_1,\ldots,\mathbf{v}_r\}C(A^\ast) 的一組基底。我們宣稱 \{A\mathbf{v}_1,\ldots,A\mathbf{v}_r\} 組成一個線性獨立集。考慮

\displaystyle  \mathbf{0}=c_1A\mathbf{v}_1+\cdots+c_rA\mathbf{v}_r=A(c_1\mathbf{v}_1+\cdots+c_r\mathbf{v}_r)=A\mathbf{x}

上面令 \mathbf{x}=c_1\mathbf{v}_1+\cdots+c_r\mathbf{v}_r。向量 \mathbf{x}\mathbf{v}_1,\ldots,\mathbf{v}_r 的線性組合,表明 \mathbf{x}\in C(A^\ast)。另一方面,A\mathbf{x}=\mathbf{0} 指出 \mathbf{x}\in N(A)。根據正交投影定理 (見“線性代數基本定理 (二)”),零空間 N(A)C(A^\ast) 的正交補餘 (orthogonal complement)。因為 N(A)\cap C(A^\ast)=\{\mathbf{0}\},推得 \mathbf{x}=\mathbf{0},即 c_1\mathbf{v}_1+\cdots+c_r\mathbf{v}_r=\mathbf{0}。但 \{\mathbf{v}_1,\ldots,\mathbf{v}_r\}C(A^\ast) 的一組基底,所以 c_1=\cdots=c_r=0,證明 \{A\mathbf{v}_1,\ldots,A\mathbf{v}_r\} 為一線性獨立集,也就是說,\mathbf{v}_i\in C(A^\ast)A\mathbf{v}_i\in C(A) 有一對一的線性關係,推論 \dim C(A^\ast)\le\dim C(A)。相反的,假設 \hbox{rank}A=p,且 \{\mathbf{u}_1,\ldots,\mathbf{u}_p\}C(A) 的一組基底,重複上述步驟可推得 \mathbf{u}_i\in C(A)A^\ast\mathbf{u}_i\in C(A^\ast) 有一對一的線性關係,故知 \dim C(A)\le\dim C(A^\ast)。合併以上結果即得證。

 
矩陣的行秩等於列秩實屬皮相,莫怪學者久久不能參透其本質,原來重點並不在行向量與列向量,而在矩陣本身與其共軛轉置。數學家們很早就發現了這個道理,為避免轉置運算造成列向量為主體的錯覺,他們提供一個基於內積運算的定義:若任意向量 \mathbf{x}\mathbf{y} 使得

\displaystyle  (A\mathbf{x})^\ast\mathbf{y}=\mathbf{x}^\ast(A^\ast\mathbf{y})

A^\ast 稱為 A 的伴隨 (adjoint)。根據這個定義,我們立刻讀出 N(A)\perp C(A^\ast):若 \mathbf{x}\in N(A),即 A\mathbf{x}=\mathbf{0},則 \mathbf{x}^\ast(A^\ast\mathbf{y})=0,其中 A^\ast\mathbf{y}\in C(A^\ast)。伴隨就是共軛轉置。查閱字典,adjoint 是一個數學專有用詞,數學家們為何不另取一個平易近人的名字呢?我猜想他們壓根就沒把白居易的「老嫗能解」納入考量。資訊理論 (信息論,information theory) 的創始人美國數學家和工程師夏農 (Claude Shanon) 在1948年發表了 A Mathematical Theory of Communication,他在論文裡首創 bit 一詞,並引介一個資訊混亂程度的度量函數。諾伊曼 (John von Neumann) 建議夏農稱之為 entropy (中文譯作一個莫名其妙的字「熵」),他說:「不僅因為在熱力學中資訊不確定函數已經被稱為熵,更重要的原因是,沒有人知道熵究竟是甚麼,所以在與別人辯論時你總是佔有優勢[1]。」

 
參考來源:
[1] 維基百科:History of entorpy 原文是 “You should call it entropy, for two reasons. In the first place your uncertainty function has been used in statistical mechanics under that name, so it already has a name. In the second place, and more important, nobody knows what entropy really is, so in a debate you will always have the advantage.”

行秩等於列秩的證明:
行空間和列空間的算法:
Advertisements
This entry was posted in 答讀者問, 向量空間 and tagged , , , , , , . Bookmark the permalink.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s