## 奇異值分解的幾何意義

$\displaystyle\max_{\Vert\mathbf{x}\Vert=1}\Vert A\mathbf{x}\Vert$

$\Vert A\mathbf{x}\Vert^2=(A\mathbf{x})^{T}(A\mathbf{x})=\mathbf{x}^{T}(A^{T}A)\mathbf{x}\ge 0$

$A^{T}A\mathbf{v}_i=\lambda_i\mathbf{v}_i,~~i=1,\ldots,n$

$A^{T}A=V\Lambda V^{T}$

$\Vert A\mathbf{x}\Vert^2=\mathbf{x}^{T}A^{T}A\mathbf{x}=\mathbf{x}^{T}V\Lambda V^{T}\mathbf{x}=\mathbf{z}^{T}\Lambda\mathbf{z}$

$\Vert\mathbf{z}\Vert^2=\mathbf{z}^{T}\mathbf{z}=(V^{T}\mathbf{x})^{T}(V^{T}\mathbf{x})=\mathbf{x}^{T}VV^{T}\mathbf{x}=\mathbf{x}^{T}\mathbf{x}=\Vert\mathbf{x}\Vert^2=1$

$\displaystyle\max_{\Vert\mathbf{z}\Vert=1}\left(\mathbf{z}^{T}\Lambda\mathbf{z}\right)^{1/2}$

$\mathbf{z}^{T}\Lambda\mathbf{z}=\lambda_1 z_1^2+\cdots+\lambda_n z_n^2\le\lambda_1(z_1^2+\cdots+z_n^2)=\lambda_1$

$\displaystyle\max_{\Vert\mathbf{x}\Vert=1}\Vert A\mathbf{x}\Vert=\max_{\Vert\mathbf{z}\Vert=1}\left(\mathbf{z}^{T}\Lambda\mathbf{z}\right)^{1/2}=\sqrt{\lambda_1}$

$\Vert A\mathbf{v}_i\Vert^2=\mathbf{v}_i^TA^TA\mathbf{v}_i=\mathbf{v}_i^{T}\lambda_i\mathbf{v}_i=\lambda_i$

$\displaystyle\sigma_i=\sqrt{\lambda_i}$

$(A\mathbf{v}_i)^{T}(A\mathbf{v}_j)=\mathbf{v}_i^{T}A^{T}A\mathbf{v}_j=\mathbf{v}_i^{T}\lambda_j\mathbf{v}_j=0$

$\displaystyle\mathbf{u}_i=\frac{ A\mathbf{v}_i }{\Vert A\mathbf{v}_i\Vert}= \frac{1}{\sigma_i}A\mathbf{v}_i$

$A\mathbf{v}_i=\left\{\begin{matrix} \sigma_i\mathbf{u}_i & i=1,\ldots,r\\ \mathbf{0} & i=r+1,\ldots,n \end{matrix}\right.$

\begin{aligned} A\begin{bmatrix} \mathbf{v}_1&\cdots&\mathbf{v}_r&\mathbf{v}_{r+1}&\cdots&\mathbf{v}_n \end{bmatrix}&=\begin{bmatrix} \sigma_1\mathbf{u}_1&\cdots&\sigma_r\mathbf{u}_r&\mathbf{0}&\cdots&\mathbf{0} \end{bmatrix}\\ &=\begin{bmatrix} \mathbf{u}_1&\cdots&\mathbf{u}_r \end{bmatrix}\begin{bmatrix} \sigma_1&~&0&\cdots&0\\ ~&\ddots&~&\vdots&\vdots\\ 0&~&\sigma_r&\cdots&0 \end{bmatrix}\end{aligned}

$m\times r$ 階矩陣 $U=\begin{bmatrix} \mathbf{u}_1&\cdots&\mathbf{u}_r \end{bmatrix}$$\Sigma=\begin{bmatrix} S&0 \end{bmatrix}$$r\times n$ 階矩陣，$S=\mathrm{diag}(\sigma_1,\ldots,\sigma_r)$，所以

$AV=U\Sigma$

$A=U\Sigma V^{T}$

$U^{T}\mathbf{y}=\Sigma V^{T}\mathbf{x}$

$\mathbf{w}=U^{T}\mathbf{y}$$\mathbf{w}$ 可以解釋為 $\mathbf{y}$ 參考 $\mathbb{R}^m$ 基底 $\mathfrak{U}=\{\mathbf{u}_1,\ldots,\mathbf{u}_m\}$ 的座標向量，表示為 $\mathbf{w}=[\mathbf{y}]_{\mathfrak{U}}$。同樣道理，$\mathbf{z}=V^{T}\mathbf{x}$ 也可以解讀為 $\mathbf{x}$ 參考 $\mathbb{R}^n$ 基底 $\mathfrak{V}=\{\mathbf{v}_1,\ldots,\mathbf{v}_n\}$ 的座標向量，$\mathbf{z}=[\mathbf{x}]_{\mathfrak{V}}$。經對角化後，以座標向量 $\mathbf{w}$$\mathbf{z}$ 表達的變換關係格外簡單：$\mathbf{w}=\Sigma\mathbf{z}$

$\Sigma^{+}=\begin{bmatrix} S^{-1}&0\\ 0&0 \end{bmatrix}$

$\Sigma^{+}\mathbf{w}=\Sigma^{+}\Sigma\mathbf{z}=\begin{bmatrix} I_r&0\\ 0&0 \end{bmatrix}\mathbf{z}$

$\Vert \Sigma^{+}\mathbf{w}\Vert^2=\mathbf{w}^{T}(\Sigma^{+})^{T}\Sigma^{+}\mathbf{w}=\displaystyle\frac{w_1^2}{\sigma_1^2}+\cdots+\frac{w_r^2}{\sigma_r^2}$

$\left\Vert\begin{bmatrix} I_r&0\\ 0&0 \end{bmatrix}\mathbf{z}\right\Vert^2=z_1^2+\cdots+z_r^2\le z_1^2+\cdots+z_r^2+z_{r+1}^2+\cdots+z_n^2=1$

$\displaystyle\frac{w_1^2}{\sigma_1^2}+\cdots+\frac{w_r^2}{\sigma_r^2}\le 1$

$\Vert\mathbf{x}\Vert=1$ 時，輸出向量 $\mathbf{y}=A\mathbf{x}$ 的軌跡由一個 $r$ 維橢圓體所包覆，$\mathbf{u}_1$ 指向最長軸其軸半徑為 $\sigma_1$，而 $\mathbf{u}_r$ 則指向最短軸其軸半徑為 $\sigma_r$

$A=\begin{bmatrix} 1&1&0\\ 0&2&1 \end{bmatrix}$

$A^TA=\begin{bmatrix} 1&1&0\\ 1&5&2\\ 0&2&1 \end{bmatrix}$

(1) 解出 $A^{T}A$ 的特徵值，奇異值與特徵向量：$\lambda_1=6$$\lambda_2=1$$\lambda_3=0$，可知 $\sigma_1=\sqrt{6}$$\sigma_2=1$$r=\mathrm{rank}A=2$，對應的特徵向量經正規化後分別為

$\displaystyle\mathbf{v}_1=\frac{1}{\sqrt{30}}\begin{bmatrix} 1\\5\\2 \end{bmatrix},~\mathbf{v}_2=\frac{1}{\sqrt{5}}\begin{bmatrix} -2\\ 0\\ 1\\ \end{bmatrix},~\mathbf{v}_3=\frac{1}{\sqrt{6}}\begin{bmatrix} 1\\-1\\2 \end{bmatrix}$

(2) 隨即得出正交矩陣 $V$ 和奇異值矩陣 $\Sigma$

$V=\begin{bmatrix} 1/\sqrt{30}&-2/\sqrt{5}&1/\sqrt{6}\\ 5/\sqrt{30}&0&-1/\sqrt{6}\\ 2/\sqrt{30}&1/\sqrt{5}&2/\sqrt{6} \end{bmatrix},~\Sigma=\begin{bmatrix} \sqrt{6}&0&0\\ 0&1&0 \end{bmatrix}$

(3) 計算 $\mathbf{u}_i$$i=1,2$

\begin{aligned} \mathbf{u}_1&=\displaystyle\frac{A\mathbf{v}_1}{\sigma_1}=\frac{1}{\sqrt{5}}\begin{bmatrix} 1\\2 \end{bmatrix}\\ \mathbf{u}_2&=\frac{A\mathbf{v}_2}{\sigma_2}=\frac{1}{\sqrt{5}}\begin{bmatrix} -2\\1 \end{bmatrix}\end{aligned}

$U=\displaystyle\frac{1}{\sqrt{5}}\begin{bmatrix} 1&-2\\ 2&1 \end{bmatrix}$

(1) 當 $\mathbf{x}=\mathbf{v}_1$，輸出 $\mathbf{y}=A\mathbf{v}_1=\sigma_1\mathbf{u}_1=\frac{\sqrt{6}}{\sqrt{5}}\begin{bmatrix} 1\\2 \end{bmatrix}$ 對應橢圓長軸半徑。

(2) 當 $\mathbf{x}=\mathbf{v}_2$，輸出 $\mathbf{y}=A\mathbf{v}_2=\sigma_2\mathbf{u}_2=\frac{1}{\sqrt{5}}\begin{bmatrix} -2\\ 1 \end{bmatrix}$ 對應橢圓短軸半徑。

(3) 當 $\mathbf{x}=\mathbf{v}_3$，輸出為零向量。

This entry was posted in 線性代數專欄, 二次型 and tagged , , , , , , . Bookmark the permalink.

### 11 Responses to 奇異值分解的幾何意義

• ccjou says:

最初推論就已經設 $v_i$$A^TA$ 的特徵向量對應特徵值 $\lambda_i$，即
$A^TAv_i=\lambda_iv_i$
所以
$\Vert Av_i\Vert^2=(Av_i)^T(Av_i)=v_i^T(A^TAv_i)=v_i^T(\lambda_iv_i)=\lambda_i(v_i^Tv_i)=\lambda_i\Vert v_i\Vert^2=\lambda_i$

1. 你好
奇異値分解的三個矩陣，要怎麼用簡短的中文各自描述它們呢?

2. 雲耕子 says:

教授您好，想要再請教您：
藉由m×n非方陣A的交乘矩陣A^TA所具備的對稱半正定性，我們一定可以得到對角化SVD，
那麼為什麼我們不乾脆同樣藉由n×n方陣A的交替矩陣A^TA(一樣會具備對稱半正定性)來求得diagonalization，而是轉而分析n×n方陣A的eigenspace、eigenvectors等等，而這甚至還不保證方陣可以diagonalization?

懇請教授賜教，謝謝~~~

3. 雲耕子 says:

教授您好，不知道我是否有問錯問題??
我的問題是指……任意m×n非方陣既然能藉由其交乘矩陣的”對稱半正定性”來得到對角化SVD
那怎麼會有一些n×n方陣無法diagonalization呢?
n×n方陣的交乘矩陣同樣會有對稱半正定性，照理來講似乎也可以SVD，
而方陣的SVD結果不就是diagonalization嗎??
為什麼會出現這樣的矛盾呢?
或者是我有什麼地方認知錯誤嗎?

懇請教授賜教，謝謝

4. 雲耕子 says:

教授您好，我猜想我誤解的點可能是在於，針對一個n×n方陣做SVD，分解式中的U和V也是兩組不同的orthonormal basis(雖然dimension一樣是n)，然而真正的diagonalization則是必須在同一組orthonormal basis中達成……n×n方陣的SVD只能說是看起來好像是diagonalization實則不然???

• ccjou says:

是的，當你花90%的力氣弄清楚問題，只要10%的力氣就得到答案。

對角化是來自 $Ax=\lambda x$，所有的 $x$ 組成完成整的線性獨立集。
SVD來自 $Av=\sigma u$，我們總是能找到 orthonormal $u, v$

• 雲耕子 says:

謝謝教授指導，我明白了~

5. unga says:

半夜12:25看著這篇的我內心湧現許多熱血，醍醐灌頂，太感動了。