數據矩陣的列與行

本文的閱讀等級:初級

數據分析始於對所採集到的樣本求取敘述統計量。假設我們有一筆包含 p 個變數,樣本大小 (量測總量) 為 n 的資料。沿用統計學的慣例,我們以粗體大寫英文字母表示 n\times p 階數據矩陣,如下:

\displaystyle  \mathbf{X}=\begin{bmatrix}  x_{11}&x_{12}&\cdots&x_{1p}\\  x_{21}&x_{22}&\cdots&x_{2p}\\  \vdots&\vdots&\ddots&\vdots\\  x_{n1}&x_{n2}&\cdots&x_{np}  \end{bmatrix}

其中 x_{kj} 代表第 j 個變數的第 k 次量測值。在多數的應用中,量測值為實數。數據矩陣的每一行 (column) 對應一個變數,每一列 (row) 對應一組多變量觀測[1]。矩陣的行列提示了兩種解釋數據樣本幾何意義的觀點。如果採用列觀點,數據矩陣 \mathbf{X} 記錄 \mathbb{R}^p 空間中 n 個數據點,寫出

\displaystyle  \mathbf{X}=\begin{bmatrix}  x_{11}&x_{12}&\cdots&x_{1p}\\  x_{21}&x_{22}&\cdots&x_{2p}\\  \vdots&\vdots&\ddots&\vdots\\  x_{n1}&x_{n2}&\cdots&x_{np}  \end{bmatrix}=\begin{bmatrix}  \mathbf{p}_1^T\\  \mathbf{p}_2^T\\  \vdots\\  \mathbf{p}_n^T  \end{bmatrix}

其中列向量座標 \mathbf{p}^T_k=(x_{k1},x_{k2},\ldots,x_{kp}) 代表第 k 個數據點的 p 個量測值。倘若採用行觀點,\mathbf{X} 包含對應 p 個變數 n 維向量,如下:

\displaystyle  \mathbf{X}=\begin{bmatrix}  x_{11}&x_{12}&\cdots&x_{1p}\\  x_{21}&x_{22}&\cdots&x_{2p}\\  \vdots&\vdots&\ddots&\vdots\\  x_{n1}&x_{n2}&\cdots&x_{np}  \end{bmatrix}=\begin{bmatrix}  \mathbf{x}_1&\mathbf{x}_2&\cdots &\mathbf{x}_p  \end{bmatrix}

其中行向量 \mathbf{x}_j=(x_{1j},x_{2j},\ldots,x_{nj})^T 記錄第 j 個變數的 n 次量測值。在不造成混淆的情況下,我們以 x_j 表示第 j 個變數。

 
在列觀點下,我們將 \mathbf{X} 的列向量 \mathbf{p}_i 視為 \mathbb{R}^p 空間中數據點的座標;在行觀點下,將 \mathbf{X} 的行向量 \mathbf{x}_j 看成 n 維變數向量。列觀點與行觀點有不同的應用場合,大致上說,如果我們在乎數據點的散布,那麼應採列觀點;如果我們考慮的是變數之間的關係,即應採行觀點。下面以樣本平均數為例,我說明它在列觀點與行觀點下的幾何意義。

 
列觀點視樣本包含數據點 \mathbf{p}_1,\ldots,\mathbf{p}_n\in\mathbb{R}^p。如果要以單一向量 \mathbf{a}\in\mathbb{R}^p 來代表整組數據,可用平方誤差作為目標函數 (或稱成本函數):

\displaystyle  E(\mathbf{a})=\sum_{k=1}^n\Vert\mathbf{p}_k-\mathbf{a}\Vert^2

最佳的代表向量 \mathbf{a} 必須具有最小的平方誤差,滿足此條件的向量是

\displaystyle  \mathbf{m}=\frac{1}{n}\sum_{k=1}^n\mathbf{p}_k

稱為樣本平均數向量,或記作 \overline{\mathbf{p}}。證明於下:

\displaystyle\begin{aligned}  E(\mathbf{a})&=\sum_{k=1}^n\Vert(\mathbf{p}_k-\mathbf{m})+(\mathbf{m}-\mathbf{a})\Vert^2\\  &=\sum_{k=1}^n\Vert\mathbf{p}_k-\mathbf{m}\Vert^2+\sum_{k=1}^n\Vert\mathbf{m}-\mathbf{a}\Vert^2+2\sum_{k=1}^n(\mathbf{p}_k-\mathbf{m})^T(\mathbf{m}-\mathbf{a})\\  &=\sum_{k=1}^n\Vert\mathbf{p}_k-\mathbf{m}\Vert^2+n\Vert\mathbf{m}-\mathbf{a}\Vert^2+2\left(\sum_{k=1}^n\mathbf{p}_k-n\mathbf{m}\right)^T(\mathbf{m}-\mathbf{a}). \end{aligned}

根據樣本平均數向量 \mathbf{m} 的定義,上式最後一項等於零。因為 \Vert\mathbf{m}-\mathbf{a}\Vert^2\ge 0,可知 E(\mathbf{a})\ge\sum_{k=1}^n\Vert\mathbf{p}_k-\mathbf{m}\Vert^2,等號於 \mathbf{a}=\mathbf{m} 時成立。

 
考慮 3\times 2 階數據矩陣

\displaystyle  \mathbf{X}=\left[\!\!\begin{array}{rc}  -1&3\\  4&1\\  3&5  \end{array}\!\!\right]

圖一顯示 \mathbb{R}^2 平面上 3 個數據點 \mathbf{p}^T_1=(-1,3)\mathbf{p}^T_2=(4,1)\mathbf{p}_3^T=(3,5) 的散布圖,並標記樣本平均數向量座標

\displaystyle  \mathbf{m}=\overline{\mathbf{p}}=\frac{1}{3}\sum_{i=1}^3\mathbf{p}_i=\frac{1}{3}\begin{bmatrix}  -1+4+3\\  3+1+5  \end{bmatrix}=\begin{bmatrix}  2\\  3  \end{bmatrix}

圖一:數據矩陣的列觀點

圖一:數據矩陣的列觀點

 
資料散布圖僅適用於 p=2p=3 的情況。對於高維數資料 (p>2),我們可以繪出配對散布圖,即任兩個相異變數 x_ix_j 的對應數據點 (x_{ki},x_{kj})1\le k\le n,的平面散布圖,如圖二。

圖二:配對散布圖

圖二:配對散布圖

 
在行觀點下,如何計算並解釋樣本平均數呢?若以 a_j 取代變數 x_j 的所有量測值,可設目標函數為誤差平方和:

\displaystyle  E(a_j)=\sum_{k=1}^n(x_{kj}-a_j)^2=(\mathbf{x}_j-a_j\mathbf{1})^T(\mathbf{x}_j-a_j\mathbf{1})=\Vert\mathbf{x}_j-a_j\mathbf{1}\Vert^2

其中 \mathbf{1}=(1,1,\ldots,1)^Tn 維常數向量。從幾何面來說,我們的目標是在穿越原點且指向為 \mathbf{1} 的直線上找出一向量使其端點與 \mathbf{x}_j 的端點有最小的距離。根據正交原則,此向量為 \mathbf{x}_j 至直線 L=\{t\mathbf{1}\vert t\in\mathbb{R}\} 的正交投影,等價的說法是投影殘差 \mathbf{x}_j-a_j\mathbf{1} 必須正交於 \mathbf{1},即

\displaystyle  (\mathbf{x}_j-a_j\mathbf{1})^T\mathbf{1}=\mathbf{x}_j^T\mathbf{1}-a_j\mathbf{1}^T\mathbf{1}=\sum_{k=1}^nx_{kj}-na_j=0

上式的解即為樣本平均數

\displaystyle  m_j=\overline{x}_j=\frac{1}{n}\mathbf{x}_j^T\mathbf{1}=\frac{1}{n}\sum_{k=1}^n x_{kj}

也就是樣本平均數向量 \mathbf{m} 的第 j 元。正交投影的殘餘量 \mathbf{x}_j-m_j\mathbf{1} 的第 k 元,x_{kj}-m_j,表示 x_{kj} 相對樣本平均數 m_j 的偏離量,稱為離差 (deviation)。令離差向量為

\displaystyle  \mathbf{d}_j=\mathbf{x}_j-m_j\mathbf{1}=\begin{bmatrix}  x_{1j}-m_j\\  x_{2j}-m_j\\  \vdots\\  x_{nj}-m_j  \end{bmatrix}

因此,數據矩陣 \mathbf{X} 所含的變數向量可表示為 \mathbf{x}_j=m_j\mathbf{1}+\mathbf{d}_jj=1,\ldots,p。上例中,m_1=2m_2=3,則有

\displaystyle\begin{aligned}  \mathbf{x}_1&=\left[\!\!\begin{array}{r}  -1\\  4\\  3  \end{array}\!\!\right]=\begin{bmatrix}  2\\  2\\  2  \end{bmatrix}+\left[\!\!\begin{array}{r}  -3\\  2\\  1  \end{array}\!\!\right]\\  \mathbf{x}_2&=\begin{bmatrix}  3\\  1\\  5  \end{bmatrix}=\begin{bmatrix}  3\\  3\\  3  \end{bmatrix}+\left[\!\!\begin{array}{r}  0\\  -2\\  2  \end{array}\!\!\right].\end{aligned}

圖三是兩個 3 維變數向量 \mathbf{x}_1\mathbf{x}_2,以及離差向量 \mathbf{d}_1\mathbf{d}_2 的示意圖。

圖三:數據矩陣的行觀點

圖三:數據矩陣的行觀點

 
若以行觀點解釋,常見的基本敘述統計量有簡明的幾何直覺 (見“樣本平均數、變異數和共變異數”)。將離差向量 \mathbf{d}_jj=1,\ldots,p,平移至原點,這樣做並不會改變向量長度與方向。變數 x_j 的樣本變異數正比於離差向量的長度平方,如下:

\displaystyle  s_j^2=\frac{1}{n-1}\sum_{i=1}^n(x_{ij}-m_j)^2=\frac{1}{n-1}\mathbf{d}_j^T\mathbf{d}_j=\frac{1}{n-1}\Vert\mathbf{d}_j\Vert^2

變數 x_ix_j 的樣本共變異數可由離差向量的內積求得,

\displaystyle\begin{aligned}  s_{ij}&=\frac{1}{n-1}\sum_{k=1}^n(x_{ki}-m_i)(x_{kj}-m_j)\\  &=\frac{1}{n-1}\mathbf{d}_i^T\mathbf{d}_j=\frac{1}{n-1}\Vert\mathbf{d}_i\Vert \Vert\mathbf{d}_j\Vert\cos\theta_{ij},\end{aligned}

其中 \theta_{ij}\mathbf{d}_i\mathbf{d}_j 的夾角。變數 x_ix_j 的樣本相關係數定義為 \theta_{ij} 的餘弦 (見“相關係數”):

\displaystyle  r_{ij}=\cos\theta_{ij}=\frac{s_{ij}}{s_is_j}

此外,採用行觀點很容易解釋線性回歸 (linear regression) 和偏相關係數 (partial correlation coefficient) 的涵義,他日將另文介紹這個主題。

 
註解
[1] 在台灣,橫向稱為列,縱向稱為行。在中國大陸,橫向稱為行,縱向稱為列。

This entry was posted in 機率統計 and tagged , , , , . Bookmark the permalink.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s