Tag Archives: Hessian 矩陣

Krylov 子空間法──線性方程的數值解法 (一):Arnoldi 與 Lanczos 算法

本文的閱讀等級:高級 令 為一 階複矩陣, 為一非零向量。向量序列 稱為 Krylov 序列,此序列所生成的子空間稱為 Krylov 子空間 (見“Krylov 子空間法”),記為 。 因為 是有限維空間 的一個子空間,當 不斷增大時,Krylov 序列 最終會是一個線性相關集。設 為最小的正整數使得 ,也就是說 為一個線性獨立集且 。因此,存在唯一數組 滿足 。 定義 次多項式 。 因為 ,我們稱 為 相對於 的最小 (消滅) 多項式 (minimal polynomial)。以下考慮 為可逆矩陣。我們可以斷定 ,否則有 ,即存在次數小於 … Continue reading

Posted in 線性代數專欄, 數值線性代數 | Tagged , , , , , , , , | 3 Comments

邏輯斯回歸

本文的閱讀等級:中級 假設我們有一筆維數等於 ,樣本大小為 ,包含 個類別的數據 。數據點 散布在 空間,以 標記類別或代表類別的指標集,例如, 表示 來自 (歸屬) 第 類。我們的問題是利用給定的樣本 ,設計一個分類器 (classifier);具體地說,給定一個數據點 ,判定它應歸於何類。貝氏定理 (Bayes’ theorem) 提供了分類問題的理論基礎 (見“貝氏定理──量化思考的利器”): , 其中 是類別 出現的機率,稱為先驗機率 (priori probability); 是條件密度函數,即給定類別 ,數據點 的機率密度函數,也稱為似然 (likelihood); 是數據點 的機率密度函數,稱為證據 (evidence),算式為 ; 是指在給定數據點 的情況下,該點屬於 的機率,稱為後驗機率 (posterior probability)。 … Continue reading

Posted in 機器學習 | Tagged , , , , , , , , | 4 Comments

答張盛東──關於 Hessian 矩陣與多變量函數的泰勒展開式

網友張盛東留言: 老師,其實能否將 Hessian 矩陣看作 gradient 算子與自身的外積 (outer product)[1] 再乘以函數 ?如果可以,是否可能將多變數函數的 Taylor 展開式前兩項之後的項都像這樣表示成 gradient 算子與自身的外積?

Posted in 特別主題, 答讀者問 | Tagged , , , | 2 Comments

凸函數

本文的閱讀等級:中級 令 為一個非空凸集,也就是說,給定任意兩點 和 ,點 屬於 (見“凸組合、凸包與凸集”)。凸函數 (convex function) 是一個實函數 滿足下列性質:對於任意 且 , 。 若定義式等號僅發生於 和 ,我們稱 是一個嚴格凸函數。相反的,若 是一個 (嚴格) 凸函數,則 稱為 (嚴格) 凹函數。圖一顯示一個單變量凸函數 ,任一弦 (連結點 和 的紅色線段) 必位於函數 (藍色曲線) 的上方。下面列舉一些單變量凸函數:,, 和 。對於 ,仿射函數 和向量 -範數 ,,都是凸函數 (見“向量範數”)。本文將討論凸函數的一些性質和判別方法。

Posted in 線性代數專欄, 仿射幾何 | Tagged , , , , , , | 2 Comments

矩陣導數

本文的閱讀等級:中級 令 為一個多變量可導函數,或記為 ,其中 。我們定義 的梯度 (gradient) 為底下的 維向量: , 其中 的第 元是 對變數 的一階偏導數 。如果給定 個多變量函數 ,則有 個梯度 。將所有 梯度合併成一個矩陣,再取轉置,可得 階矩陣 , 稱為 Jacobian 矩陣。另一方面,如果 是二階可導函數,我們可以計算 的每一元 的梯度,如此可得 , 稱為 Hessian 矩陣。請注意,梯度 的 Jacobian 矩陣即為函數 的 Hessian 矩陣 (見“Jacobian … Continue reading

Posted in 特別主題 | Tagged , , , , , | 31 Comments

Jacobian 矩陣與行列式

本文的閱讀等級:中級 令 為一個向量函數。對於 維實向量 , 具有下列形式: , 其中 , 是 的定義域。例如,極座標至卡氏座標的轉換是一個向量函數: , 其中 ,。如果向量函數 的數學形式相當複雜,線性化是一個常用的簡化方法。針對單變量函數 ,在 附近我們可用直線 近似 。推廣至多變量函數,令 為一個仿射 (affine) 變換 (見“仿射變換”),表示如下: , 其中 是一個 階實矩陣,。下面解釋如何以仿射變換 近似向量函數 ,由此衍生 的導數矩陣,稱為 Jacobian 矩陣 (或簡稱 Jacobian),隨後介紹 Jacobian 行列式與其應用,以及 Jocabian 矩陣與 Hessian 矩陣的關係。

Posted in 線性代數專欄, 應用之道 | Tagged , , , , , , , , | 14 Comments

Hermitian 矩陣與實對稱矩陣的一些實例

本文的閱讀等級:初級 令 為一個 階矩陣。若 ,其中 ,即 ,我們稱 為 Hermitian 矩陣 (見“特殊矩陣 (9):Hermitian 矩陣”)。若所有 都是實數,則 ,實 Hermitian 矩陣即為實對稱矩陣。Hermitian 矩陣和實對稱矩陣是目前應用最廣的特殊矩陣,原因有二:它們具備許多美好的特徵分析性質 (見“實對稱矩陣可正交對角化的證明”,“Hermitian 矩陣特徵值的變化界定”),以及它們「天生地」出現在多樣應用場合。下面列舉一些實例,包括 Hessian 矩陣、共變異數矩陣、鄰接矩陣、二次型和雙線性形式。

Posted in 線性代數專欄, 二次型 | Tagged , , , , , , , , | Leave a comment

Lagrange 乘數法

本文的閱讀等級:中級 約束最佳化 (constrained optimization) 是指在一個或多個束縛條件下,尋找一個多變數函數的極值 (極大值或極小值)。舉例來說,我們希望得到 的極小值,但前提是 與 必須滿足束縛條件 。最直截了當的作法是解出束縛條件,如此 可表示為 的函數,譬如 。將上式代入 可得單變數無約束目標函數 ,求導並設為零即得極值的必要條件 。這個方法的主要缺點在於束縛條件未必存在代數解,也就是說 無法寫成 的函數。此外,當變數的數量增多或有多個束縛條件時,縱使能夠得到代數解,無約束目標函數的表達式也可能相當複雜。與上述作法比較,拉格朗日乘數法 (method of Lagrange multipliers) 或稱未定乘數法 (undetermined multipliers) 不須解出束縛條件,因而保留了變數之間的對稱性。由於兼具簡單與典雅兩個優點,Lagrange 乘數法是目前最常被使用於約束最佳化問題的方法。令 Lagrangian 函數為 , 其中 稱為 Lagrange 乘數。計算 對所有變數的偏導數並設為零: , 這個方程組即為最佳解的必要條件。本文採用較富直覺的幾何觀點解說 Lagrange 乘數法的基本原理,預備知識包括正交補餘和正交投影 (見“正交補餘與投影定理”)。

Posted in 特別主題 | Tagged , , , , , | 9 Comments

最佳化理論與正定矩陣

本文的閱讀等級:中級 最佳化理論 (優化理論,optimization theory) 提供許多應用於社會、自然與工程科學的數值算法。給定一個目標函數或稱成本函數 ,無約束優化 (unconstrained optimization) 是指找到 使得 有最小值,表示如下: 。 在一些應用場合,如果我們希望找到最大值,只要改變目標函數的正負號即可。對一般的目標函數 ,這是一個很困難的問題,通常我們願意接受局部最小值 (稍後詳述),意思是在某個範圍內的最小值。底下我們先考慮單變數的目標函數,隨後再推廣至多變數函數。本文的主旨在介紹無約束優化的一些基本概念並解釋正定矩陣於判定極值 (最大或最小) 存在性的用途。

Posted in 線性代數專欄, 二次型 | Tagged , , , , , | 5 Comments