線性基函數模型

本文的閱讀等級:中級

在數理統計與機器學習,線性回歸 (linear regression) 是一種形式最簡單的回歸模型。令 \mathbf{x}=(x_1,\ldots,x_d)^T 表示輸入變數,或稱預測變數。輸入變數的線性組合再加上一個數即構成線性回歸:

\displaystyle   y(\mathbf{x};\mathbf{w})=w_0+w_1x_1+\cdots+w_dx_d

其中 \mathbf{w}=(w_0,w_1,\ldots,w_d)^T 是待決定的參數,w_0 稱為偏權值 (bias),w_j 是對應輸入變數 x_j 的權值 (weight)[1]j=1,\ldots,d。線性回歸既是權值 w_j,也是輸入變數 x_j 的一個線性函數,應用範疇因此受到很大的限制。在保留線性模型架構的前提下,如欲將線性回歸推廣為非線性函數,你可以考慮一組固定的非線性函數的線性組合:

\displaystyle   y(\mathbf{x};\mathbf{w})=w_0+w_1\phi_1(\mathbf{x})+\cdots+w_{m-1}\phi_{m-1}(\mathbf{x})

其中 \phi_j(\mathbf{x}) 稱為基函數 (basis function)。為簡化書寫,定義 \phi_0(\mathbf{x})=1。線性基函數模型 (linear basis function model) 的表達式如下:

\displaystyle   y(\mathbf{x};\mathbf{w})=\sum_{j=0}^{m-1}w_j\phi_j(\mathbf{x})=\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x})

其中 \mathbf{w}=(w_0,\ldots,w_{m-1})^T\boldsymbol{\phi}=(\phi_0,\ldots,\phi_{m-1})^T:\mathbb{R}^d\to\mathbb{R}^m 是一個向量函數,\boldsymbol{\phi}(\mathbf{x}) 稱為基函數向量。由於 y(\mathbf{x};\mathbf{w}) 是權值 w_j 的線性函數,同時也是基函數 \phi_j(\mathbf{x}) 的線性函數,因此我們稱之為線性基函數模型。若 m-1=d\phi_j(\mathbf{x})=x_jj=1,\ldots,d,線性基函數模型退化為線性回歸。如果使用非線性基函數,y(\mathbf{x};\mathbf{w}) 實質上是輸入變數 \mathbf{x} 的一個非線性函數。

 
基函數

在許多應用場合,\{\phi_j(\mathbf{x})\}_{j=1}^{m-1} 代表輸入變數 \mathbf{x} 的一組特徵 (feature),基函數向量 \boldsymbol{\phi}(\mathbf{x})\in\mathbb{R}^m 所屬的空間稱為特徵空間 (feature space)。如果 \phi_j(\mathbf{x})\in[0,1],我們可將基函數看成特徵偵測器,傳回值表示輸入向量 \mathbf{x} 具備第 j 個特徵的強度。基函數有非常多的選擇方式,底下介紹兩個實用的單變數基函數。

  • 高斯基函數 (Gaussian basis function):

    \displaystyle   \phi_j(x)=\exp\left\{-\frac{(x-m_j)^2}{2s^2}\right\}

    其中 m_j 決定基函數在實數軸的位置,s 決定擴展範圍。

  • S型基函數 (sigmoid basis function):

    \displaystyle   \phi_j(x)=f\left(\frac{x-m_j}{s}\right)

    其中 m_js 的作用類似高斯基函數,f(\cdot) 是S型函數定義為 (見圖1)

    \displaystyle   f(a)=\frac{1}{1+\exp(-a)}

  • Sigmoid function

    圖1 S型函數

單變數基函數可立即推廣至多變數基函數:

\displaystyle   \phi_j(\mathbf{x})=\prod_{l=1}^d\phi_j(x_l)

但實務上並不需要這麼做。在此我們暫時拋開多變數基函數的設計,等你對線性基函數模型有了更完整的認識後,這個問題自然便迎刃而解。

 
最大似然估計與最小平方法

假設我們選定了基函數集合 \boldsymbol{\phi}=(\phi_0,\ldots,\phi_{m-1})^T,給定一個大小為 n 的樣本 \{(\mathbf{x}_i,r_i)\}_{i=1}^n,其中包含成對獨立的輸入 \mathbf{x}_i\in\mathbb{R}^d 與響應 (輸出,response) r_i\in\mathbb{R},據此要如何建立一個配適樣本資料的線性基函數模型?最大似然估計 (maximum likelihood estimation) 是最常被使用的方法。假設響應變數 r 的生成方式為

\displaystyle   r=y(\mathbf{x};\mathbf{w})+\epsilon

其中 \epsilon 是殘差 (residual),代表線性基函數模型無法解釋的部分響應。為方便分析,我們假設殘差服從常態分布 \mathcal{N}(0,\sigma^2),即 \hbox{E}[\epsilon]=0\hbox{var}[\epsilon]=\hbox{E}[\epsilon^2]=\sigma^2。期望值 \hbox{E}[\cdot] 是一個線性算子,就有

\displaystyle   \hbox{E}[r|\mathbf{x}]=\hbox{E}\left[y(\mathbf{x};\mathbf{w})+\epsilon\right]=y(\mathbf{x};\mathbf{w})+\hbox{E}[\epsilon]=y(\mathbf{x};\mathbf{w})

而且

\displaystyle   \hbox{var}[r|\mathbf{x}]=\hbox{E}\left[(r-y(\mathbf{x};\mathbf{w}))^2\right]=\hbox{E}[\epsilon^2]=\sigma^2

常態分布的仿射變換 (affine transformation) 仍然是常態分布 (見“多變量常態分布”),因此響應變數 r 的條件機率 (概率) 密度函數為

\displaystyle   p(r|\mathbf{x},\mathbf{w},\sigma^2)=\mathcal{N}(r|y(\mathbf{x},\mathbf{w}),\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{(r-y(\mathbf{x};\mathbf{w}))^2}{2\sigma^2}\right\}

接下來的任務要用給定的樣本 \{(\mathbf{x}_i,r_i)\}_{i=1}^n 來估計線性基函數模型 y(\mathbf{x};\mathbf{w}) 的權值 \mathbf{w} 以及殘差的變異數 \sigma^2。令輸入變數樣本為 \mathcal{X}=\{\mathbf{x}_i\}_{i=1}^n,響應變數樣本為 \mathcal{R}=\{r_i\}_{i=1}^n。將線性基函數模型代入條件密度函數,寫出似然函數:

\displaystyle   \begin{aligned}  \mathcal{L}\left(\mathbf{w},\sigma^2|\mathcal{X},\mathcal{R}\right)&=p(\mathcal{R}|\mathcal{X},\mathbf{w},\sigma^2)\\  &=\prod_{i=1}^np(r_i|\mathbf{x}_i,\mathbf{w},\sigma^2)\\  &=\prod_{i=1}^n\mathcal{N}\left(r_i|y(\mathbf{x}_i;\mathbf{w}),\sigma^2\right)\\  &=\prod_{i=1}^n\mathcal{N}\left(r_i|\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i),\sigma^2\right)  .\end{aligned}

因為我們要建立的是響應變數 r 而非輸入變數 \mathbf{x} 的機率模型,以下省略固定的輸入變數樣本 \mathcal{X},將似然函數簡寫為 \mathcal{L}\left(\mathbf{w},\sigma^2|\mathcal{R}\right)

 
最大似然估計問題表述如下 (見“高斯混合模型與最大期望算法”):

\displaystyle   (\hat{\mathbf{w}},\hat{\sigma}^2)=\arg\max_{\mathbf{w},\sigma^2}\mathcal{L}(\mathbf{w},\sigma^2|\mathcal{R})

為便利計算,考慮對數似然函數

\displaystyle   \begin{aligned}  \log\mathcal{L}(\mathbf{w},\sigma^2|\mathcal{R})  &=\log\prod_{i=1}^n\mathcal{N}\left(r_i|\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i),\sigma^2\right)\\  &=\sum_{i=1}^n\log\mathcal{N}\left(r_i|\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i),\sigma^2\right)\\  &=-\frac{n}{2}\log(2\pi)-\frac{n}{2}\log(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n\left(r_i-\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i)\right)^2.  \end{aligned}

計算偏導數 \frac{\partial\log\mathcal{L}}{\partial\mathbf{w}} 並設為零,即可解出權值的最大似然估計 \hat{\mathbf{w}} (見註解[2])。下面說明線性代數解法。定義誤差平方和函數

\displaystyle   E(\mathbf{w})=\sum_{i=1}^n\left(r_i-\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i)\right)^2

就權值 \mathbf{w} 而言,最大化 \log\mathcal{L} 等價於最小化 E,因此最大似然估計等於最小平方解:

\displaystyle   \hat{\mathbf{w}}=\arg\min_{\mathbf{w}}E(\mathbf{w})

令樣本響應向量 \mathbf{r}=(r_1,\ldots,r_n)^T,以及 n\times m 階樣本基函數矩陣

\displaystyle \Phi=\begin{bmatrix}  \boldsymbol{\phi}(\mathbf{x}_1)^T\\  \vdots\\  \boldsymbol{\phi}(\mathbf{x}_n)^T  \end{bmatrix}=\begin{bmatrix}  \phi_0(\mathbf{x}_1)&\phi_1(\mathbf{x}_1)&\cdots&\phi_{m-1}(\mathbf{x}_1)\\  \vdots&\vdots&\ddots&\vdots\\  \phi_0(\mathbf{x}_n)&\phi_1(\mathbf{x}_n)&\cdots&\phi_{m-1}(\mathbf{x}_n)\end{bmatrix}

稱為設計矩陣 (design matrix)。請注意,\Phi 完全由輸入變數樣本 \mathcal{X} 決定。誤差函數可表示為向量矩陣形式,\displaystyle   E(\mathbf{w})=\left\|\mathbf{r}-\Phi\mathbf{w}\right\|^2。最小平方解滿足正規方程 (normal equation) \Phi^T\Phi\mathbf{w}=\Phi^T\mathbf{r} (見“從線性變換解釋最小平方近似”)。若 \hbox{rank}\Phi=m,即 \Phi 有線性獨立的行向量 (column vector),則 \hbox{rank}(\Phi^T\Phi)=\hbox{rank}\Phi=m\Phi^T\Phi 是可逆的,最大似然估計為

\displaystyle   \hat{\mathbf{w}}=(\Phi^T\Phi)^{-1}\Phi^T\mathbf{r}

 
另外,欲求 \sigma^2 的估計值,計算

\displaystyle   \frac{\partial\log\mathcal{L}}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n\left(r_i-\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i)\right)^2

設上式為零,解出

\displaystyle   \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n\left(r_i-\hat{\mathbf{w}}^T\boldsymbol{\phi}(\mathbf{x}_i)\right)^2=\frac{1}{n}E(\hat{\mathbf{w}})

不令人意外,殘差的變異數的最大似然估計就是線性基函數模型的最小誤差平方的平均數。

 
正則化

實際應用時,為了能夠準確地描述輸入與響應的非線性關係,我們希望模型具有足夠的複雜性 (complexity)。線性基函數模型 y(\mathbf{x};\mathbf{w})=\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}) 的複雜性取決於選取的基函數集合 \boldsymbol{\phi}=(\phi_0,\ldots,\phi_{m-1})^T 的數量 m (精確地說,m-1,因為 \phi_0(\mathbf{x})=1)。在輸入與響應的非線性關係還不明朗的情況下,你或許主張我們應當引進大量的基函數 (增大 m) 使得殘差的變異數 (誤差平方的平均數) \hat{\sigma}^2 越小越好,不過這樣會引發兩個問題。

  1. 權值的最大似然估計 \hat{\mathbf{w}}=(\Phi^T\Phi)^{-1}\Phi^T\mathbf{r} 可計算的前提是 m\times m 階矩陣 \Phi^T\Phi 必須是可逆的。我們知道

    \displaystyle   \Phi^T\Phi=\sum_{i=1}^n\boldsymbol{\phi}(\mathbf{x}_i)\boldsymbol{\phi}(\mathbf{x}_i)^T

    是可逆矩陣的一個充要條件為 \hbox{span}\{\boldsymbol{\phi}(\mathbf{x}_1),\ldots,\boldsymbol{\phi}(\mathbf{x}_n)\}=\mathbb{R}^m (見“每週問題 October 17, 2016”)。但當 m 的數值非常大時,我們往往無法收集足夠大的樣本 \mathcal{X}=\{\mathbf{x}_i\}_{i=1}^n 滿足這個條件。在此情況下,僅有少量的基函數向量 \boldsymbol{\phi}(\mathbf{x}_1),\ldots,\boldsymbol{\phi}(\mathbf{x}_n) 散佈在龐大的特徵空間 \mathbb{R}^m

  2. 當模型使用過多的基函數時,模型參數 (權值) 也隨之增多,表面上,殘差的變異數得以變得很小甚至接近零,模型完美地擬合 (fit) 給定的訓練樣本資料。然而,你得到的模型卻可能無法成功地解釋來自相同機率分布的其他樣本,也就是說你的模型有很大的泛化誤差 (generalization error)。這個現象稱為過適或過度擬合 (overfitting)[3]。圖2顯示包含11個數據點 \{(x_i,r_i)\}_{i=1}^{11} 的樣本散布。真實的響應與輸入關係為圖中直線 r=ax,但量測響應時引入了雜音。考慮基函數 \phi_j(x)=x^jj=0,1,\ldots,10,線性基函數模型變成多項式回歸 (polynomial regression):

    \displaystyle   y(x;\mathbf{w})=w_0+w_1x+w_2x^2+\cdots+w_{10}x^{10}

    此例 n=m=11,若輸入 x_i 兩兩相異,則存在唯一的 \mathbf{w}=(w_0,\ldots,w_{10})^T 滿足 y(x_i;\mathbf{w})=r_ii=1,\ldots,11,稱為內插 (interpolation),詳見“特殊矩陣 (8):Vandermonde 矩陣”。過適可以解釋為你將數據所包含的雜音當成信號,擬合雜音得來的模型 (圖中10次多項式) 嚴重偏離真正的輸入與響應關係 (圖中直線)。

    過適現象(取自 Wikimedia)

    圖2 過適現象(From Wikimedia)

 
根據奧卡姆剃刀原則 (Occam’s razor)[4]:「在結果大致相同的情況下,我們應當選擇較簡單的模型」,正則化 (regularization) 提供了解決上述兩個問題的辦法。我們不僅滿足於降低模型的誤差函數值,同時也希望只使用少量的基函數。線性基函數模型的複雜性可粗略地用 \Vert\mathbf{w}\Vert^2=\sum_{j=0}^{m-1}w_j^2 來度量,Tikhonov 正則化考慮底下的新目標函數 (見“每週問題 September 5, 2016”):

\displaystyle   J(\mathbf{w})=E(\mathbf{w})+\lambda\Vert\mathbf{w}\Vert^2=\Vert\mathbf{r}-\Phi\mathbf{w}\Vert^2+\lambda \Vert\mathbf{w}\Vert^2

其中 \Vert\mathbf{w}\Vert^2 稱為懲罰項 (penalty),\lambda\ge 0 稱為懲罰係數 (請勿與 Lagrange 乘數混淆)。Tikhonov 正則化產生的模型稱為脊回歸或嶺回歸 (ridge regression),此名稱來自於 J(\mathbf{w}) 製造了一個穩定的山谷 (最低點)。透過控制 \lambda 的大小得以調節線性基函數模型的複雜性,\lambda 越大表示模型的複雜性越低。懲罰係數 \lambda 不屬於模型參數,其數值通常由交叉驗證 (cross validation) 程序決定以建立精確性最高的模型並避免過適現象發生 (在此不深入討論,詳見[5])。

 
給定 \lambda,不難找到 \hat{\mathbf{w}} 使最小化 J(\mathbf{w})。展開目標函數,

\displaystyle   J(\mathbf{w})=\mathbf{w}^T\Phi^T\Phi\mathbf{w}-2\mathbf{w}^T\Phi^T\mathbf{r}+\mathbf{r}^T\mathbf{r}+\lambda\mathbf{w}^T\mathbf{w}

求導可得 (見“矩陣導數”,SV-8,SV-10)

\displaystyle  \frac{\partial J}{\partial\mathbf{w}}=2\Phi^T\Phi\mathbf{w}-2\Phi^T\mathbf{r}+2\lambda\mathbf{w}

設上式等於零,解出

\displaystyle  \hat{\mathbf{w}}=(\Phi^T\Phi+\lambda I_m)^{-1}\Phi^T\mathbf{r}

\lambda>0\Phi^T\Phi+\lambda I_m 是一個正定矩陣 (\Phi^T\Phi 是半正定的),因此是可逆的。欲度量懲罰係數 \lambda 對於模型複雜性的影響,考慮脊回歸所預測的響應

\displaystyle  \hat{\mathbf{r}}=\Phi\hat{\mathbf{w}}=\Phi(\Phi^T\Phi+\lambda I_m)^{-1}\Phi^T\mathbf{r}

n\times m 階設計矩陣 \Phi 的奇異值分解為 \Phi=U\Sigma V^T (見“奇異值分解 (SVD)”),其中 U^T=U^{-1}V^T=V^{-1}\Sigma=\begin{bmatrix}  D&0\\  0&0  \end{bmatrix}D=\hbox{diag}(\sigma_1,\ldots,\sigma_s) 是非零奇異值組成的對角矩陣,\sigma_1\ge\cdots\ge\sigma_s>0s\le\min\{m,n\} (請勿與殘差的變異數 \sigma^2 混淆)。因此,

\displaystyle  \begin{aligned}  \hat{\mathbf{r}}&=U\Sigma V^T(V\Sigma^T\Sigma V^T+\lambda I_m)^{-1}V\Sigma^TU^T\mathbf{r}\\  &=U\Sigma V^T(V(\Sigma^T\Sigma+\lambda I_m)V^T)^{-1}V\Sigma^TU^T\mathbf{r}\\  &=U\Sigma(\Sigma^T\Sigma+\lambda I_m)^{-1}\Sigma^TU^T\mathbf{r}\\  &=\sum_{j=1}^s\mathbf{u}_j\frac{\sigma_j^2}{\sigma_j^2+\lambda}\mathbf{u}_j^T\mathbf{r},  \end{aligned}

上式中 \mathbf{u}_jU 的第 j 個行向量。定義 \hbox{df}(\lambda)=\sum_{j=1}^s\frac{\sigma_j^2}{\sigma_j^2+\lambda},稱為有效自由度 (effective degrees of freedom)。奇異值 \sigma_j 越大,\frac{\sigma_j^2}{\sigma_j^2+\lambda}\in[0,1] 越不受 \lambda 影響而減縮。有效自由度 \hbox{df}(\lambda)\lambda\ge 0 的單調遞減函數。當 \lambda 增大時,脊回歸的權值受限縮故而減少有效自由度。若 \lambda\to 0,則 \hbox{df}(\lambda)\to s\hat{\mathbf{r}}\to\sum_{j=1}^s\mathbf{u}_j\mathbf{u}_j^T\mathbf{r};若 \lambda\to\infty\hbox{df}(\lambda)\to 0,也就有 \hat{\mathbf{r}}\to\mathbf{0},脊回歸完全喪失預測能力。

 
m 的數值很大,計算 \hat{\mathbf{w}} 估計式中 \Phi^T\Phi+\lambda I_m 的逆矩陣是一件相當麻煩的事。如果樣本大小 n 小於 m,Sherman-Morrison-Woodbury 公式提供一個比較省力的逆矩陣計算方式 (見“Sherman-Morrison-Woodbury 公式”):

\displaystyle   (\Phi^T\Phi+\lambda I_m)^{-1}=\frac{1}{\lambda}I_n-\frac{1}{\lambda^3}\left(\Phi^T(\Phi\Phi^T+\lambda I_n)^{-1}\Phi\right)

其中 \Phi\Phi^T+\lambda I_n 是一個 n\times n 階矩陣。值得注意的是 \Phi\Phi^T(i,j) 元為 \boldsymbol{\phi}(\mathbf{x}_i)^T\boldsymbol{\phi}(\mathbf{x}_j)1\le i,j\le n。這個事實提示你不必知道基函數向量的顯式表達式 (explicit expression) \boldsymbol{\phi}(\mathbf{x}),我們真正需要的是兩個基函數向量的內積,稱為核函數 (kernel function):

\displaystyle   k(\mathbf{x},\mathbf{x}')=\boldsymbol{\phi}(\mathbf{x})^T\boldsymbol{\phi}(\mathbf{x}')

核函數的設計比起多變數基函數要容易得多,透過一個新概念──線性基函數模型的對偶表達 (dual representation),我們可以深入探究核函數,進而認識機器學習的核方法 (kernel method) 與支援向量機 (support vector machine)。

 
註解
[1] 因為 \frac{\partial y}{\partial x_j}=w_j,權值 w_j 也稱為敏感度 (sensitivity)。

[2] 使用矩陣導數公式 (見“矩陣導數”,SV-8),

\displaystyle   \begin{aligned}  \frac{\partial \log\mathcal{L}}{\partial\mathbf{w}}&=-\frac{1}{2\sigma^2}\sum_{i=1}^n\frac{\partial}{\partial\mathbf{w}}(r_i-\mathbf{w}^T\boldsymbol{\phi}(\mathbf{x}_i))^2\\  &=\frac{1}{\sigma^2}\sum_{i=1}^n(r_i-\boldsymbol{\phi}(\mathbf{x}_i)^T\mathbf{w})\boldsymbol{\phi}(\mathbf{x}_i)\\  &=\frac{1}{\sigma^2}\left(\sum_{i=1}^nr_i\boldsymbol{\phi}(\mathbf{x}_i)-\sum_{i=1}^n\boldsymbol{\phi}(\mathbf{x}_i)\boldsymbol{\phi}(\mathbf{x}_i)^T\mathbf{w}\right)\\  &=\frac{1}{\sigma^2}\left(\Phi^T\mathbf{r}-\Phi^T\Phi\mathbf{w}\right).  \end{aligned}

設上式等於零,可得最大似然估計 \hat{\mathbf{w}}=(\Phi^T\Phi)^{-1}\Phi^T\mathbf{r}。如果 \log\mathcal{L} 僅對偏權值 w_0 求導,

\displaystyle   \begin{aligned}  \frac{\partial \log\mathcal{L}}{\partial w_0}&=-\frac{1}{2\sigma^2}\sum_{i=1}^n\frac{\partial}{\partial w_0}\left(r_i-w_0-\sum_{j=1}^{m-1}w_j\phi_j(\mathbf{x}_i)\right)^2\\  &=\frac{1}{\sigma^2}\sum_{i=1}^n\left(r_i-w_0-\sum_{j=1}^{m-1}w_j\phi_j(\mathbf{x}_i)\right).  \end{aligned}

設上式為零,可得

\displaystyle   \hat{w}_0=\overline{r}-\sum_{j=1}^{m-1}w_j\overline{\phi_j}

其中 \overline{r}=\frac{1}{n}\sum_{i=1}^nr_i 是響應的平均數,\overline{\phi_j}=\frac{1}{n}\sum_{i=1}^n\phi_j(\mathbf{x}_i)  是基函數的平均數。偏權值 \hat{w}_0 補足了響應平均數與平均基函數的凸組合之間的差異。

[3] 俗話說:「蟑螂怕拖鞋,烏龜怕鐵鎚。」建模者說:「線性模型怕離群值 (outlier),非線性模型怕過適 (overfitting)。」

[4] 維基百科:Occam’s razor
底下有兩套解釋「麥田圈 (crop circle)」的理論。根據奧卡姆剃刀原則,你會選擇哪一個理論?

  1. 在歐洲與北美,有些人晚上不睡覺,呼朋引伴取出倉庫裡的工具跑去鄰近的麥田,大家合力踩壓出一些幾何圖案。天亮前,眾人才作鳥獸散。
  2. 五百年前,一批外星人來到地球,之後便隱藏在百慕達三角洲深海處。外星人偶而趁黑夜從海底駕駛太空船飛上地表 (太空船的隱形防護功能使人類的雷達與衛星無法偵測他們的活動)。出於某個不明的原因,外星人對著麥田發射強大的光束,留下世人難以理解的圖案。無不例外地,外星人在黎明前駕船返回深海基地。
麥田圈From Wikimedia

麥田圈(From Wikimedia)

[5] 維基百科:Cross validation

廣告
本篇發表於 機器學習 並標籤為 , , , , , , , , , , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s