## 主成分分析

$\displaystyle E_0(\mathbf{a})=\frac{1}{n-1}\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{a}\Vert^2$

$\displaystyle \mathbf{m}=\frac{1}{n}\sum_{k=1}^n\mathbf{x}_k$

\displaystyle\begin{aligned} E_0(\mathbf{a})&=\frac{1}{n-1}\sum_{k=1}^n\Vert(\mathbf{x}_k-\mathbf{m})+(\mathbf{m}-\mathbf{a})\Vert^2\\ &=\frac{1}{n-1}\left(\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2+\sum_{k=1}^n\Vert\mathbf{m}-\mathbf{a}\Vert^2+2\sum_{k=1}^n(\mathbf{x}_k-\mathbf{m})^T(\mathbf{m}-\mathbf{a})\right)\\ &=\frac{1}{n-1}\left(\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2+n\Vert\mathbf{m}-\mathbf{a}\Vert^2+2\left(\sum_{k=1}^n\mathbf{x}_k-n\mathbf{m}\right)^T(\mathbf{m}-\mathbf{a})\right). \end{aligned}

$\mathbf{x}=\mathbf{m}+c\mathbf{w}$

\displaystyle \begin{aligned} E_1(\{c_k\},\mathbf{w})&=\frac{1}{n-1}\sum_{k=1}^n\Vert(\mathbf{m}+c_k\mathbf{w})-\mathbf{x}_k\Vert^2\\ &=\frac{1}{n-1}\sum_{k=1}^n\Vert c_k\mathbf{w}-(\mathbf{x}_k-\mathbf{m}) \Vert^2\\ &=\frac{1}{n-1}\left(\sum_{k=1}^nc_k^2\Vert\mathbf{w}\Vert^2-2\sum_{k=1}^nc_k\mathbf{w}^T(\mathbf{x}_k-\mathbf{m})+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\right). \end{aligned}

$\displaystyle \frac{\partial E_1}{\partial c_k}=\frac{1}{n-1}\left(2c_k-2\mathbf{w}^T(\mathbf{x}_k-\mathbf{m})\right)=0$

$c_k=\mathbf{w}^T(\mathbf{x}_k-\mathbf{m}),~~k=1,\ldots,n$

\displaystyle\begin{aligned} E_1(\mathbf{w})&=\frac{1}{n-1}\left(\sum_{k=1}^nc_k^2-2\sum_{k=1}^nc_k^2+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\right)\\ &=-\frac{1}{n-1}\sum_{k=1}^n\left(\mathbf{w}^T(\mathbf{x}_k-\mathbf{m})\right)^2+\frac{1}{n-1}\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\\ &=-\frac{1}{n-1}\sum_{k=1}^n\mathbf{w}^T(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T\mathbf{w}+\frac{1}{n-1}\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\\ &=-\mathbf{w}^T\left(\frac{1}{n-1}\sum_{k=1}^n(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T\right)\mathbf{w}+\frac{1}{n-1}\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2, \end{aligned}

$\displaystyle S=\frac{1}{n-1}\sum_{k=1}^n(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T$

$\displaystyle s_{ij}=\frac{1}{n-1}\sum_{k=1}^n(x_{ki}-m_i)(x_{kj}-m_j)$

$\displaystyle \mathbf{y}^TS\mathbf{y}=\frac{1}{n-1}\mathbf{y}^T\sum_{k=1}^n(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T\mathbf{y}=\frac{1}{n-1}\sum_{k=1}^n\left(\mathbf{y}^T(\mathbf{x}_k-\mathbf{m})\right)^2\ge 0$

$\displaystyle \max_{\Vert\mathbf{w}\Vert=1}\mathbf{w}^TS\mathbf{w}$

$L(\mathbf{w},\mu)=\mathbf{w}^TS\mathbf{w}-\mu(\mathbf{w}^T\mathbf{w}-1)$

$\displaystyle \frac{\partial L}{\partial \mathbf{w}}=2S\mathbf{w}-2\mu\mathbf{w}=\mathbf{0}$

$S\mathbf{w}=\mu\mathbf{w}$

$\mathbf{x}=\mathbf{m}+z_{1}\mathbf{w}_1+\cdots+z_r\mathbf{w}_r$

$\displaystyle E_r\left(\{\mathbf{w}_j\}\right)=\sum_{k=1}^n\left\|\left(\mathbf{m}+\sum_{j=1}^rz_{kj}\mathbf{w}_j\right)-\mathbf{x}_k\right\|^2$

$\displaystyle E_r\left(\{\mathbf{w}_j\}\right)=-(n-1)\sum_{j=1}^r\mathbf{w}_j^TS\mathbf{w}_j+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2$

$\displaystyle \max_{\mathbf{w}_i^T\mathbf{w}_j=\delta_{ij}}\sum_{j=1}^r\mathbf{w}_j^TS\mathbf{w}_j$

$\displaystyle L\left(\{\mathbf{w}_j\},\{\mu_{ij}\}\right)=\sum_{j=1}^r\mathbf{w}_j^TS\mathbf{w}_j-\sum_{i=1}^r\sum_{j=1}^r\mu_{ij}(\mathbf{w}_i^T\mathbf{w}_j-\delta_{ij})$

$\displaystyle \frac{\partial L}{\partial \mathbf{w}_j}=2S\mathbf{w}_j-2\mu_{jj}\mathbf{w}_j-\sum_{i\neq j}(\mu_{ij}+\mu_{ji})\mathbf{w}_i=\mathbf{0},~~j=1,\ldots,r$

$S\mathbf{w}_j=\mu_{jj}\mathbf{w}_j,~~j=1,\ldots,r$

$\displaystyle \frac{1}{n}\sum_{k=1}^nz_{kj}=\frac{1}{n}\sum_{k=1}^n\mathbf{w}_j^T(\mathbf{x}_k-\mathbf{m})=\frac{1}{n}\mathbf{w}_j^T\left(\sum_{k=1}^n\mathbf{x}_k-n\mathbf{m}\right)=0$

\displaystyle\begin{aligned} s^2_{z_j}&=\frac{1}{n-1}\sum_{k=1}^nz_{kj}^2=\frac{1}{n-1}\sum_{k=1}^n(\mathbf{w}_j^T(\mathbf{x}_k-\mathbf{m}))((\mathbf{x}_k-\mathbf{m})^T\mathbf{w}_j)\\ &=\mathbf{w}_j^T\left(\frac{1}{n-1}\sum_{k=1}^T(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T\right)\mathbf{w}_j=\mathbf{w}_j^TS\mathbf{w}_j=\lambda_j\mathbf{w}_j^T\mathbf{w}_j=\lambda_j. \end{aligned}

\displaystyle\begin{aligned} s_{z_iz_j}&=\frac{1}{n-1}\sum_{k=1}z_{ki}z_{kj}=\frac{1}{n-1}\sum_{k=1}^n(\mathbf{w}_i^T(\mathbf{x}_k-\mathbf{m}))((\mathbf{x}_k-\mathbf{m})^T\mathbf{w}_j)\\ &=\mathbf{w}_i^TS\mathbf{w}_j=\lambda_j\mathbf{w}_i^T\mathbf{w}_j=0.\end{aligned}

1. 計算樣本平均 $\mathbf{m}=\frac{1}{n}\sum_{k=1}^n\mathbf{x}_k$，定義 $n\times p$ 階離差矩陣

$X=\begin{bmatrix} (\mathbf{x}_1-\mathbf{m})^T\\ (\mathbf{x}_2-\mathbf{m})^T\\ \vdots\\ (\mathbf{x}_n-\mathbf{m})^T \end{bmatrix}=\begin{bmatrix} x_{11}-m_1&x_{12}-m_2&\cdots&x_{1p}-m_p\\ x_{21}-m_1&x_{22}-m_2&\cdots&x_{2p}-m_p\\ \vdots&\vdots&\ddots&\vdots\\ x_{n1}-m_1&x_{n2}-m_2&\cdots&x_{np}-m_p \end{bmatrix}$

$p\times p$ 階樣本共變異數矩陣則是

$\displaystyle S=\frac{1}{n-1}\sum_{k=1}^n(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T=\frac{1}{n-1}X^TX$

2. $S$ 正交對角化為

$S=W\Lambda W^T$

其中 $\Lambda=\mathrm{diag}(\lambda_1,\ldots,\lambda_p)$ 是特徵值矩陣，$\lambda_1\ge\cdots\ge\lambda_p\ge 0$ 代表主成分的權值，$W=\begin{bmatrix} \mathbf{w}_1&\cdots&\mathbf{w}_p \end{bmatrix}$ 是單範正交特徵向量構成的 $p\times p$ 階正交主成分矩陣，$W^TW=WW^T=I_p$。圖2顯示 $p=2$ 的資料散布圖，樣本平均數向量 $\mathbf{m}$，以及主成分 $\mathbf{w}_1$$\mathbf{w}_2$。圖中橢圓的長軸平方與短軸平方之比等於主成分係數 $z_1$ 的變異數與 $z_2$ 的變異數之比，即 $\lambda_1:\lambda_2$

圖2 資料散布圖與主成分

3. 定義 $n\times p$ 階主成分係數矩陣 $Z=[z_{kj}]$，其中 $z_{kj}=(\mathbf{x}_k-\mathbf{m})^T\mathbf{w}_j$，因此

$Z=\begin{bmatrix} (\mathbf{x}_1-\mathbf{m})^T\\ \vdots\\ (\mathbf{x}_n-\mathbf{m})^T \end{bmatrix}\begin{bmatrix} \mathbf{w}_1&\cdots&\mathbf{w}_p \end{bmatrix}=XW$

上式等號兩邊右乘 $W^T$，可得 $X=ZW^T$。換一個說法，數據點 $\mathbf{x}_k$ 的主成分分解式為

$\displaystyle \mathbf{x}_k=\mathbf{m}+\sum_{j=1}^pz_{kj}\mathbf{w}_j,~~k=1,\ldots,n$

主成分係數 $(z_{k1},\ldots,z_{kp})$ 是離差 $\mathbf{x}_k-\mathbf{m}$ 參考單範正交基底 $\mathfrak{B}=\{\mathbf{w}_1,\ldots,\mathbf{w}_p\}$ 的座標向量。

• 我們應當保留多少低階主成分 (對應大特徵值的特徵向量)？也就是說，如何選擇 $r$？常用的一種方式是設定近似數據 $\mathbf{m}+\sum_{j=1}^rz_{kj}\mathbf{w}_j$ 的變異與原始數據 $\mathbf{x}_k=\mathbf{m}+\sum_{j=1}^pz_{kj}\mathbf{w}_j$ 的變異的比例。譬如，選擇最小的 $r$ 使得

$\displaystyle \frac{\sum_{j=1}^r\lambda_j}{\sum_{j=1}^p\lambda_j}\ge 0.8$

表示我們保留了 80% 的數據變異。

• 若數據的變數具有不同的變異，主成分方向會受到變異大的變數所決定。如欲排除這個影響，我們可以用樣本相關矩陣取代樣本共變異數矩陣。在套用主成分分析之前，預先將每一變數予以標準化 (standardized)，如下：

\displaystyle \begin{aligned} \tilde{X}&=\begin{bmatrix} (\mathbf{x}_1-\mathbf{m})^T\\ (\mathbf{x}_2-\mathbf{m})^T\\ \vdots\\ (\mathbf{x}_n-\mathbf{m})^T \end{bmatrix}\begin{bmatrix} 1/s_1&&&\\ &1/s_2&&\\ &&\ddots&\\ &&&1/s_p \end{bmatrix}\\ &=\begin{bmatrix} (x_{11}-m_1)/s_1&(x_{12}-m_2)/s_2&\cdots&(x_{1p}-m_p)/s_p\\ (x_{21}-m_1)/s_1&(x_{22}-m_2)/s_2&\cdots&(x_{2p}-m_p)/s_p\\ \vdots&\vdots&\ddots&\vdots\\ (x_{n1}-m_1)/s_1&(x_{n2}-m_2)/s_2&\cdots&(x_{np}-m_p)/s_p \end{bmatrix},\end{aligned}

其中 $s_i^2$ 是第 $i$ 個變數的樣本變異數，即 $s_i^2=\frac{1}{n-1}\sum_{k=1}^n(x_{ki}-m_i)^2$。標準化後的數據集的樣本共變異數矩陣即為樣本相關矩陣

$\displaystyle R=\frac{1}{n-1}\tilde{X}^T\tilde{X}$

請讀者自行驗證 $R$$(i,j)$ 元就是第 $i$ 個變數與第 $j$ 個變數的相關係數 (見“相關係數”)。這時候，數據集的總變異等於維數 $p$，原因如下：

$\displaystyle \sum_{j=1}^p\lambda_j=\mathrm{trace}\Lambda=\mathrm{trace}(W^TRW)=\mathrm{trace}(RWW^T)=\mathrm{trace}R=p$

上面使用了跡數循環不變性 $\mathrm{trace}(AB)=\mathrm{trace}(BA)$ (見“跡數的性質與應用”)，最後一個等式係因 $R$ 的主對角元皆為 $1$

• 如何得到數值穩定的主成分 $\mathbf{w}_1,\ldots,\mathbf{w}_p$，權值 $\lambda_1,\ldots,\lambda_p$，以及主成分係數 $z_{kj}$$k=1,\ldots,n$$j=1,\ldots,p$？答案是奇異值分解 (singular value decomposition)。通過主成分分析與奇異值分解的關係可以顯現主成分分析隱含的其他訊息 (見“主成分分析與奇異值分解”)。

[1] Henry D. Thoreau 的 Walden，原文如下：“Our life is frittered away by detail. An honest man has hardly need to count more than his ten fingers, or in extreme cases he may add his ten toes, and lump the rest. Simplicity, simplicity, simplicity! I say, let your affairs be as two or three, and not a hundred or a thousand; instead of a million count half a dozen, and keep your accounts on your thumb-nail.” 中譯取自《湖濱散記》，吳明實譯，今日世界出版社，1978年，83頁。

[2] 維基百科：主成分分析

[3]

\displaystyle \begin{aligned} E_r\left(\{\mathbf{w}_j\}\right)&=\sum_{k=1}^n\left\|\left(\mathbf{m}+\sum_{j=1}^rz_{kj}\mathbf{w}_j\right)-\mathbf{x}_k\right\|^2\\ &=\sum_{k=1}^n\left\|\sum_{j=1}^rz_{kj}\mathbf{w}_j-(\mathbf{x}_k-\mathbf{m})\right\|^2\\ &=\sum_{k=1}^n\left\|\sum_{j=1}^rz_{kj}\mathbf{w}_j\right\|^2-2\sum_{k=1}^n\sum_{j=1}^rz_{kj}\mathbf{w}_j^T(\mathbf{x}_k-\mathbf{m})+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\\ &=\sum_{k=1}^n\sum_{j=1}^rz_{kj}^2-2\sum_{k=1}^n\sum_{j=1}^rz_{kj}^2+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\\ &=-\sum_{k=1}^n\sum_{j=1}^r\left(\mathbf{w}_j^T(\mathbf{x}_k-\mathbf{m})\right)^2+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\\ &=-\sum_{j=1}^r\mathbf{w}_j^T\left(\sum_{k=1}^n(\mathbf{x}_k-\mathbf{m})(\mathbf{x}_k-\mathbf{m})^T\right)\mathbf{w}_j+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2\\ &=-(n-1)\sum_{j=1}^r\mathbf{w}_j^TS\mathbf{w}_j+\sum_{k=1}^n\Vert\mathbf{x}_k-\mathbf{m}\Vert^2 \end{aligned}

[4] 考慮

$\displaystyle S\mathbf{w}_j=\mu_{jj}\mathbf{w}_j+\frac{1}{2}\sum_{i\neq j}(\mu_{ij}+\mu_{ji})\mathbf{w}_i,~~j=1,\ldots,r$

$W=\begin{bmatrix} \mathbf{w}_1&\cdots&\mathbf{w}_r \end{bmatrix}$

$\displaystyle M=\begin{bmatrix} \mu_{11}&\cdots&\frac{\mu_{1r}+\mu_{r1}}{2}\\ \vdots&\ddots&\vdots\\ \frac{\mu_{1r}+\mu_{r1}}{2}&\cdots&\mu_{rr} \end{bmatrix}$

$SW=WM$

$\displaystyle \sum_{j=1}^r\mathbf{w}_j^TS\mathbf{w}_j=\mathrm{trace}(W^TSW)$

$Q^TW^TSWQ=(WQ)^TS(WQ)=\tilde{W}^TS\tilde{W}=D$

$\mathrm{trace}(W^TSW)=\mathrm{trace}(Q\tilde{W}^TS\tilde{W}Q^T)=\mathrm{trace}(\tilde{W}^TS\tilde{W}Q^TQ)=\mathrm{trace}(\tilde{W}^TS\tilde{W})$

[5] 假設我們已經求得最大化 $\mathbf{w}_1^TS\mathbf{w}_1$ 的單位向量 $\mathbf{w}_1$，滿足 $S\mathbf{w}_1=\lambda_1\mathbf{w}_1$。下一步要找出單位向量 $\mathbf{w}_2$ 使最大化 $\mathbf{w}_2^TS\mathbf{w}_2$，並滿足 $\mathbf{w}_2^T\mathbf{w}_1=0$。寫出

$\displaystyle L(\mathbf{w}_2,\alpha,\beta)=\mathbf{w}^T_2S\mathbf{w}_2-\alpha(\mathbf{w}_2^T\mathbf{w}_2-1)-\beta\mathbf{w}_2^T\mathbf{w}_1$

$\displaystyle \frac{\partial L}{\partial \mathbf{w}_2}=2S\mathbf{w}_2-2\alpha\mathbf{w}_2-\beta\mathbf{w}_1=\mathbf{0}$

This entry was posted in 機器學習 and tagged , , , , , , , , , . Bookmark the permalink.

### 20 Responses to 主成分分析

1. 小葉 says:

最近又去聽了微積分的課，剛好聽到了講述simpison數值積分方法。數值積分方法特別可以處理非平滑的函數數據。其中可達到一定精確度的simpison方法，用了拋物線來近似分散的數據，其手法就是揉合上述的正交投影以及黎曼和的概念。因為正交投影，所以可以控制誤差到一定範圍內，黎曼積分也就可以派上用場。只是我好奇的是，因為訊號處理常常用到傅立葉分析來搜尋出有用的訊號，那麼是否可以用傅立葉分析來做數值積分呢?

• ccjou says:

Simpson 積分法則的原理是Newton-Cotes公式：$\int_a^bf(x)dx\approx\sum_{i=0}^nw_if(x_i)$$x_i=hi+x_0$$h=(b-a)/n$。通常我們使用一內插多項式來近似$f(x)$以得到$w_i$的計算公式。這個式子看起來很像是Hilbert空間的函數近似問題：最小化 $\Vert f-\sum_{i=1}^nw_i\phi_i\Vert^2$$\{\phi_i\}_{i=1}^n$是我們喜愛的基底，最佳近似確實是$f$在這個基底所擴張的子空間的正交投影。

傅立葉變換是一種積分變換，它可以用來計算函數近似的三角級數(trigonometric series)，或證明一些定理，但我不知道是否亦可作數值積分用。

• TUK says:

傅立葉積分轉換是把時域的資訊轉換成頻率域的資訊，你可以理解成他把時域中某個頻率的能量積分然後放到頻率域中去。所以沒錯，傅立葉轉換本身是有積分的效果在的，只是他把要拿來積分的東西分離成正交的獨立函數分別處理。

2. Hermione says:

請問主成分分析是否一定要進行標準化?

• ccjou says:

如果變數的尺規(scale)相似，譬如，全部都是EEG訊號，那麼使用共變異數矩陣即可。如果變數的尺規差異很大，譬如，年所得，年齡，體重，那麼應該使用相關係數矩陣(即標準化後的共變異數矩陣)。

3. 張盛東 says:

周老師，我有兩個問題：
1）對E1求ck的偏導數是否第一個2前面的負號應該去掉？
2）對L({Wj},{u[i,j]})求偏導後，為什麼可以假設u[i,j]+u[j,i]=0從而將wj消去？

• ccjou says:

謝謝指正。

你可以試一下$r=2$的例子，未知數有4個：$\mu_{11},\mu_{12},\mu_{21},\mu_{22}$
線性方程組為
$\begin{bmatrix} 2w_1&w_2&w_2&0\\ 0&w_1&w_1&2w_2 \end{bmatrix}\begin{bmatrix} \mu_{11}\\ \mu_{12}\\ \mu_{21}\\ \mu_{22} \end{bmatrix}=\begin{bmatrix} 2Sw_1\\ 2Sw_2 \end{bmatrix}$
係數矩陣A只有三個線性獨立的行向量(因為$w_1$$w_2$ 不為零向量)，故$\text{rank} A=3$，也就是說有無限多組解，故可設$\mu_{12}+\mu_{21}=0$。同理，對於$r^2$個未知數 $\{\mu_{ij}\}$$\text{rank}A=r+\binom{r}{2}=(r^2+r)/2$，即有$\dim N(A)=r^2-(r^2+r)/2=(r^2-r)/2=\binom{r}{2}$。所以我們可以放心地設 $\mu_{ij}+\mu_{ji}=0$$i\neq j$

突然想起在高中生時，我的數學老師常告誡我要將算式寫清楚。

• 張盛東 says:

老師，我還是有一些不明白。我自己推導一次後覺得u[i,j]+u[j,i]=0是必然發生的事，為什麼老師您要“設”呢？

• ccjou says:

啊，真的嗎？你有空時方便將過程貼上網或寄給我看看嗎？

$S\mathbf{w}_j=\mu_{jj}\mathbf{w}_j+\frac{1}{2}\sum_{i\neq j}(\mu_{ij}+\mu_{ji})\mathbf{w}_i,~~j=1,\ldots,r$

左乘 $\mathbf{w}_i^T$$i\neq j$，可得

$\mathbf{w}_i^TS\mathbf{w}_j=\frac{1}{2}(\mu_{ij}+\mu_{ji})$

上式不能推斷 $\mu_{ij}+\mu_{ji}=0$，雖然 $\mathbf{w}_i^T\mathbf{w}_j=0$，但 $\mathbf{w}_i^TS\mathbf{w}_j$ 未必等於零。

• 張盛東 says:

我說“推導”有些誇張了，其實我就寫了幾個步驟然後直覺地覺得，u[i,j]和u[j,i]（i not equal to j）所對應的在A中的行向量必然一樣,所以所有形如
c * [0 0 … 1 … -1 0 …]’ 必然在A的零空間中，其中c為某一非零實數，1位於u[i,j]的位置，-1位於u[j,i]的位置。所有這些互為正交向量構成了A的零空間的基底，因此所有齊次解滿足u[i,j]+u[j,i]=0 if i is not equal to j。要令方程組成立，[Sw[1],…Sw[r]]’必須在X=span{W[1],…,w[r]}中，也就是說X是S的不變子空間。後來發現在推導的時候想當然地認為X就是S的特徵空間(eigenspace)所以必然有Sw[k]=lamda*w[k]從而得到方程組的特解中也必須有u[i,j]+u[j,i]=0 if i is not equal to j這個結論。我曾嘗試過證明X是滿足所有條件的唯一不變子空間但失敗了。
老師，不知道為什麼，我對這個假設沒有“安全感”，萬一該假設不成立那麼之後的證明就只有或然性而不是必然性了。

• ccjou says:

我明白了。沒有安全感是好事。朱熹說：「讀書，始讀未知有疑。其次則漸漸有疑，中則節節是疑。過了這一番后，疑漸漸解，以至融會貫通，都無所疑，方始是學。」

4. 張盛東 says:

謝謝老師。

5. ccjou says:

我們可以從另一個角度切入：根據註解二，待解的方程式為 $SW=WM$$W^TW=I$。因為 W^T=W$M^T=M$，故可正交對角化為$M=QDQ^T$，其中$Q^TQ=I$$D=\text{diag}(d_1,\ldots,d_r)$。代入可得$SW=WQDQ^T$，右乘$Q$$SWQ=WQD$。令$V=WQ$$V^TV=Q^TW^TWQ=I$。問題變成$SV=VD$，也就是$S\mathbf{v}_j=d_{j}\mathbf{v}_j$$1\le j\le r$

• 張盛東 says:

經過老師一點明果然豁然開朗。另外，老師的意思是因為M^T=M所以M可正交對角話吧。

非常感謝老師。

6. 張盛東 says:

周老師，請問一下主成份分析和主成份回歸的關係為何？主成份回歸是否只是主成份分析的一個應用而已？

• ccjou says:

PCR (principal components regression) 就是 PCA+multiple regression。俗話說：蟑螂怕拖鞋，烏龜怕鐵鎚。在資料分析，線性模型怕共線性(collinearity)，非線性模型怕過度擬合(over-fitting)。如果數據輸入矩陣X的維數很大(變數很多)且變數之間相關，則multiple regression的估計係數的變異很大(表示模型不可信賴)。為了解決這個問題，先對X進行主成分分析，取得低維數的主成分係數矩陣Z(各變數無關)，透過適當的變數選擇方法(譬如計算輸出y和z_i的相關係數)挑選出一部分的z變數當作新的數據輸入，然後建模，再將估計出的z_i係數轉換回變數x_j的係數，此法稱為PCR estimator。詳見

http://en.wikipedia.org/wiki/Principal_component_regression

7. 冠亨 says:

周老師 您好：
https://stats.stackexchange.com/questions/66926/what-are-the-four-axes-on-pca-biplot
目前資料分析使用主成分分析方法通常會畫一張叫做 biplot的圖來看看各筆資料在第一集第二主成分所組成的平面上到底比較受到哪一個原始參數的影響，在上述網頁中有提到這張圖到底是怎麼畫的，但是為什麼在biplot中的紅色箭頭向量並非只是主成分中各個變數佔的比例，而是還得乘上(主成分的解釋變異*資料筆數^(1/2))？

• ccjou says:
8. duby says:

周老師，注釋3最後一個式子的第一項應該有個n-1的系數

• ccjou says:

非常謝謝，已訂正。