線性基函數模型

本文的閱讀等級:中級

在數理統計與機器學習,線性回歸 (linear regression) 是一種形式最簡單的回歸模型。令 \mathbf{x}=(x_1,\ldots,x_d)^T 表示輸入變數,或稱預測變數。輸入變數的線性組合再加上一個數即構成線性回歸:

\displaystyle   y(\mathbf{x};\mathbf{w})=w_0+w_1x_1+\cdots+w_dx_d

其中 \mathbf{w}=(w_0,w_1,\ldots,w_d)^T 是待決定的參數,w_0 稱為偏權值 (bias),w_j 是對應輸入變數 x_j 的權值 (weight)[1]j=1,\ldots,d。線性回歸既是權值 w_j,也是輸入變數 x_j 的一個線性函數,應用範疇因此受到很大的限制。在保留線性模型架構的前提下,如欲將線性回歸推廣為非線性函數,你可以考慮一組固定的非線性函數的線性組合:

\displaystyle   y(\mathbf{x};\mathbf{w})=w_0+w_1\phi_1(\mathbf{x})+\cdots+w_{m-1}\phi_{m-1}(\mathbf{x})

其中 \phi_j(\mathbf{x}) 稱為基函數 (basis function)。為簡化書寫,定義 \phi_0(\mathbf{x})=1。線性基函數模型 (linear basis function model) 的表達式如下:

\displaystyle   y(\mathbf{x};\mathbf{w})=\sum_{j=0}^{m-1}w_j\phi_j(\mathbf{x})=\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x})

其中 \mathbf{w}=(w_0,\ldots,w_{m-1})^T\boldsymbol{\phi}=(\phi_0,\ldots,\phi_{m-1})^T:\mathbb{R}^d\to\mathbb{R}^m 是一個向量函數,\boldsymbol{\phi}(\mathbf{x}) 稱為基函數向量。由於 y(\mathbf{x};\mathbf{w}) 是權值 w_j 的線性函數,同時也是基函數 \phi_j(\mathbf{x}) 的線性函數,因此我們稱之為線性基函數模型。若 m-1=d\phi_j(\mathbf{x})=x_jj=1,\ldots,d,線性基函數模型退化為線性回歸。如果使用非線性基函數,y(\mathbf{x};\mathbf{w}) 實質上是輸入變數 \mathbf{x} 的一個非線性函數。

繼續閱讀

張貼在 機器學習 | 標記 , , , , , , , , , , , | 發表留言

每週問題 January 23, 2017

證明正定矩陣的伴隨矩陣 (adjugate) 也是一個正定矩陣。

Prove that if A is a real symmetric positive definite then \hbox{adj}A is also a symmetric positive definite matrix.

繼續閱讀

張貼在 pow 二次型, 每週問題 | 標記 , | 發表留言

2017 年大學學測的線性代數問題

網友周伯欣轉來2017年大學學測的一道線性代數問題

a_1,\ldots,a_9 為等差數列,且 k 為實數,若方程組

\left\{\begin{aligned}  a_1x-a_2y+2a_3z&=k+1\\  a_4x-a_5y+2a_6z&=-k-5\\  a_7x-a_8y+2a_9z&=k+9  \end{aligned}\right.

有解,則 k=?

網友周伯欣分享了他的解答:https://goo.gl/photos/WVfF3Kg5LzWNcHUSA並問道:周老師有興趣談談今年大學學測的一次方程組題目嗎?

繼續閱讀

張貼在 隨筆雜談 | 2 則迴響

文字超脫現實的魔幻魅力──細品《陰陽師》

哈洛‧卜倫(Harold Bloom)說:「善於閱讀是獨處所能帶來最大的樂趣之一,因為這種樂趣最能撫慰人心。」當我們困在一輛壅堵於車陣的巴士裡,閱讀日本作家夢枕獏的小說系列《陰陽師》引領我們超脫現實進入幻境或可稍減無聊煩悶之苦。

 
〈迷神〉開頭寫道:

櫻花盛開了。愈是沉沉低垂的樹枝,愈是密密麻麻地開滿櫻花。

沒有風。連吹動一片櫻花花瓣的風都沒有。陽光自青空照射在櫻花上。

安倍晴明宅邸──源博雅坐在窄廊,與晴明一起觀看庭院中那株櫻花。兩人面前,有盛酒的酒瓶與兩只酒杯。酒杯是黑玉製的高腳杯。那是夜光杯。

繼續閱讀

張貼在 無關線代 | 發表留言

高斯混合模型與最大期望算法

本文的閱讀等級:中級

假設你知道一個連續型隨機向量 \mathbf{x} 的機率密度函數 (以下簡稱密度函數) p(\mathbf{x}|\boldsymbol{\theta}) 受一組參數 \boldsymbol{\theta} 制約。譬如,常態分布 (高斯分布) 的密度函數 \mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\Sigma) 受期望值 \boldsymbol{\mu} 與共變異數矩陣 \Sigma 制約,常態分布的參數為 \boldsymbol{\theta}=\{\boldsymbol{\mu},\Sigma\} (見“多變量常態分布”)。為了估計機率模型的參數,你需要取得該機率分布的樣本。假設我們有一筆大小為 n 的樣本 \mathcal{X}=\{\mathbf{x}_i\}_{i=1}^n,這些數據點是獨立的,而且服從相同的機率分布 p。最大似然估計 (maximum likelihood estimation) 是一種常用的參數估計法。對於給定的樣本 \mathcal{X},參數 \boldsymbol{\theta} 的似然函數 (likelihood) 定義為

\displaystyle  \mathcal{L}(\boldsymbol{\theta}|\mathcal{X})=p(\mathcal{X}|\boldsymbol{\theta})=\prod_{i=1}^np(\mathbf{x}_i|\boldsymbol{\theta})

也就是說似然函數是給定參數後,樣本的條件密度函數。在樣本 \mathcal{X} 固定的情形下,我們將似然函數看作 \boldsymbol{\theta} 的一個函數。顧名思義,最大似然估計的目標要找出 \boldsymbol{\theta}^\ast 使得 \mathcal{L} 有最大值:

\displaystyle  \boldsymbol{\theta}^\ast=\arg\max_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}|\mathcal{X})

對數 \log 是一個單調遞增函數,可知 \mathcal{L} 的最大值與 \log\mathcal{L} 的最大值發生在同一個 \boldsymbol{\theta}^\ast。在實際應用時,我們通常考慮較易於計算的 \log\mathcal{L}(\boldsymbol{\theta}|\mathcal{X})。對於某些機率分布,最大似然估計很容易求得,譬如常態分布,計算 \log\mathcal{L}(\{\boldsymbol{\mu},\Sigma\}|\mathcal{X})\boldsymbol{\mu}\Sigma 的偏導數並設為零,可得代數解 (見“多變量常態分布的最大似然估計”)。不過,對於一些形式較為複雜的機率分布,最大似然估計未必存在代數解,這時我們必須使用迭代法計算。

繼續閱讀

張貼在 機器學習 | 標記 , , , , , | 2 則迴響

每週問題 January 16, 2017

這是兩個實對稱矩陣以相合變換同時可對角化問題。

Let A and B be n\times n real symmetric matrices, and C(\lambda)=\lambda A+(1-\lambda)B, \lambda\in\mathbb{R}. If there exists a \lambda\in[0,1] such that C(\lambda) is a positive semidefinite matrix and \hbox{null}\,C(\lambda)=\hbox{null}\,A\cap \hbox{null}\,B, then there exists a nonsingular matrix P such that both P^TAP and P^TBP are diagonal. Note that \hbox{null}\,X denotes the nullspace of X.

繼續閱讀

張貼在 pow 二次型, 每週問題 | 標記 , | 10 則迴響

因素分析

本文的閱讀等級:高級

因素分析 (factor analysis) 是統計學中一種多變量分析法。因素分析與主成分分析具有一些相同的概念與技巧,但兩者的建模推理方向相反。假設可量測的隨機向量 \mathbf{x}=(x_1,\ldots,x_p)^T 服從一個未知的機率分布 p(\mathbf{x}),期望值為 \hbox{E}[\mathbf{x}]=\boldsymbol{\mu}=(\mu_1,\ldots,\mu_p)^T,共變異數矩陣為 \hbox{cov}[\mathbf{x}]=\Sigma=[\sigma_{ij}]1\le i,j\le p。主成分分析的主要功用是降維 (dimension reduction),我們從原始的變數 x_1,\ldots,x_p 構築一組新變數 z_1,\ldots,z_k1\le k<p。具體地說,低維隨機向量 \mathbf{z}=(z_1,\ldots,z_k)^T 由離差 (deviation) \mathbf{x}-\boldsymbol{\mu} 的線性映射產生:

\displaystyle  \mathbf{z}=W^T(\mathbf{x}-\boldsymbol{\mu})

其中 W 是一個 p\times k 階矩陣滿足 W^TW=I_k (見“主成分分析”)。在因素分析,我們設想隨機向量 \mathbf{x} 的資料生成模型 (generative model) 如下:

\displaystyle   \mathbf{x}=\boldsymbol{\mu}+F\mathbf{z}+\boldsymbol{\epsilon}

其中 \mathbf{z}=(z_1,\ldots,z_k)^T 是一組無法量測的隱藏變數,稱為隱藏因素 (hidden factor)、共同因素 (common factor) 或簡稱因素,F 是一個 p\times k 階變換矩陣[1]\boldsymbol{\epsilon}=(\epsilon_1,\ldots,\epsilon_p)^T 是代表雜音的隨機向量。本文討論的問題包括:

  • 因素分析如何描述多隨機變數的產生?
  • 如何估計因素分析的模型參數?
  • 因素分析如何解釋隱藏因素的涵義?
  • 因素分析如何應用於降維?
  • 因素分析與主成分分析有哪些相同與相異的性質?

繼續閱讀

張貼在 機器學習 | 標記 , , , | 發表留言

主成分分析與低秩矩陣近似

本文的閱讀等級:高級

假設我們有一筆維數等於 p,樣本大小為 n 的數據 \{\mathbf{x}_1,\ldots,\mathbf{x}_n\},也就是說每一個數據點 \mathbf{x}_i=(x_{i1},\ldots,x_{ip})^T\in\mathbb{R}^p 包含 p 個變數的量測值。沿用統計學與數據科學的慣例 (見“數據矩陣的列與行”),定義 n\times p 階數據矩陣

X=\begin{bmatrix}  \mathbf{x}_1^T\\  \vdots\\  \mathbf{x}_n^T  \end{bmatrix}=\begin{bmatrix}  x_{11}&\cdots&x_{1p}\\  \vdots&\ddots&\vdots\\  x_{n1}&\cdots&x_{np}  \end{bmatrix}

其中 x_{ij} 代表第 j 個變數的第 i 個量測值,i=1,\ldots,nj=1,\ldots,p。在不造成混淆的情況下,以下用 x_j 表示第 j 個變數。如果數據包含大量的變數 (p 很大) 或者變數之間存在顯著的共線性關係[1],你可以設計一個從向量空間 \mathbb{R}^p 映至 \mathbb{R}^k 的線性映射,1\le k<p,數據點 \mathbf{x}_1,\ldots,\mathbf{x}_n 經映射後的像 (image) 構築另一筆變數較少且兩兩變數不存在線性相關性的新數據,這個方法稱為主成分分析 (principal components analysis)。從統計學的觀點,主成分分析的目的是找到少量的新變數,稱為降維 (dimension reduction),同時盡可能地保留變數的總變異量。從線性代數的觀點,主成分分析其實是一種矩陣近似法,我們希望得到一個最近似於原數據矩陣 X 的低秩 (low rank) 同尺寸矩陣。本文證明證明主成分分析與低秩矩陣近似在本質上是相同的問題。

繼續閱讀

張貼在 線性代數專欄, 應用之道 | 標記 , , , , | 發表留言

每週問題 January 9, 2017

這是一道線性變換的證明問題。

Let \mathcal{V} and \mathcal{W} be two vector spaces over the same field. Suppose F and G are two linear transformations \mathcal{V}\to \mathcal{W} such that for every \mathbf{x}\in\mathcal{V}, G(\mathbf{x}) is s scalar multiple (depending on \mathbf{x}) of F(\mathbf{x}). Prove that G is a scalar multiple of F.

繼續閱讀

張貼在 pow 線性變換, 每週問題 | 標記 | 發表留言

每週問題 January 2, 2017

A 是一個二階方陣且 \hbox{trace}A=0,證明存在一個么正 (unitary) 矩陣 U 使得 U^\ast AU 的主對角元為零。

Let A be a 2\times 2 matrix and \hbox{trace}A=0. Show that there exists a unitary matrix U such that the diagonal elements of U^\ast AU are equal to zero.

繼續閱讀

張貼在 pow 二次型, 每週問題 | 標記 , | 1 則迴響