Tag Archives: 機器學習

費雪的判別分析與線性判別分析

本文的閱讀等級:高級 在許多現實應用中,我們往往要面對高維度 (多變數) 數據,為便利分析,降維 (dimension reduction) 常是一個必要的前處理工作。主成分分析 (principal components analysis) 是目前普遍被採用的降維技術 (見“主成分分析”)。主成分分析是一種非教導式學習法 (unsupervised learning),根據樣本自身的統計性質降維,並不在乎 (甚至不知道) 這些數據的後續應用。在機器學習領域,分類 (classification) 與回歸 (regression) 是兩個最具代表性的問題描述典範。所謂分類是指識別出數據點所屬的類別。本文介紹英國統計學家費雪 (Ronald Fisher) 最早提出的一個專為包含兩個類別樣本所設計的教導式 (supervised) 降維法,稱作費雪的判別分析 (Fisher’s discriminant analysis),隨後並討論三個延伸問題: 甚麼是線性判別分析 (linear discriminant analysis)?它與費雪的判別分析有何關係? 線性判別分析與最小平方法有甚麼關聯性? 費雪的判別分析如何推廣至多類別 (類別數大於2) 判別分析? Advertisements

Posted in 機器學習 | Tagged , , , , , , , , | 10 Comments

紐約時報中文網關於機器學習的報導

《紐約時報》在2012年6月28號正式推出中文網站,以繁體和簡體兩種文字形式,提供包括政治、經濟、科技、風尚、旅遊、教育健康等多元訊息。據《美國之音》報導,《紐約時報》發出聲明說,中文版網站「旨在向中文讀者提供有關全球時事、商業及文化的高水準報導」。為了測試海外三大中文網站BBC中文網、華爾街日報中文版和紐約時報中文網的「文化底蘊」,我在這三個網站搜索「機器學習」,結果只有《紐約時報》列出相關報導: 大數據分析,微軟的新商機 (2012年11月17日) 16000台電腦一起找貓 (2012年7月6日) 谷歌研發更人性化智能搜索技術 (2012年10月20日) 值得注意的是這三篇報導刊登在「商業與經濟」分類,可見其中內容都是當今頗具市場價值的前端科技。特此張貼連結與讀者同好分享。   陸續添增新報導: 讓機器領會人類語言的「深度學習」 (2012年11月28日) GE押注工業互聯網時代到來 (2012年12月1日)   關於大數據 (big data) 與數據科學 (data science) 的報導: 大數據在手,沒人比Netflix更了解觀眾 (2013年3月1日) IBM人工智能技術讓電腦變大廚 (2013年3月4日) 「大數據」徹底顛覆音樂排行榜 (2013年3月16日) 美國大學爭相培養數據科學家 (2013年5月22日) 美國如何利用科技掃蕩全球數據? (2013年6月13日)

Posted in 隨筆雜談 | Tagged | Leave a comment

機器學習的難題

除了線性代數與矩陣理論,多年以來我在交大電機系還開授一門研究所課程:智慧型資料分析 (Intelligent data analysis),此課程與機器學習 (machine learning),數據挖掘 (data mining,又譯為資料探勘) 和統計學習 (statistical learning) 多所重疊。以下是維基百科對機器學習領域的介紹[1]: 機器學習是近20多年興起的一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的演算法。機器學習演算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的演算法。因為學習演算法中涉及了大量的統計學理論,機器學習與統計推斷學聯繫尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的,行之有效的學習演算法。很多推論問題屬於無程序可循難度,所以部分的機器學習研究是開發容易處理的近似演算法。

Posted in 隨筆雜談 | Tagged , | 15 Comments