Tag Archives: MDS

古典多維標度法 (MDS)

本文的閱讀等級:中級 下圖顯示一份手寫數字的樣本,其中每一數字以大小為 像素 (pixel) 的灰階圖片儲存。讀者不妨想像樣本所含的200張數字圖片對應於 空間的200個數據點。我們提出下面的問題:給定這份樣本資料,如何「目視」數據點於高維空間的散佈?主成分分析 (principal components analysis) 是當今最常採行的一種降維技術 (見“主成分分析”)。在保留數據集的最大變異前提下,將高維數據點正交投影至一個特定的二維空間,此空間由對應樣本共變異數矩陣的最大兩個特徵值的特徵向量擴張而成。如此一來,我們可在平面上觀察所有數據點的投影位置 (稱為主成分係數)。   不過,在某些應用場合,我們僅知道任兩數據點的相異性 (dissimilarity)。舉例來說,手寫數字包含許多變異,如位移、旋轉、伸縮與形變,直接計算兩數字圖片於同一像素位置的灰階差距並不能反映實際的型態差異,我們必須先把兩圖放在可供比較的基準上。為了降低上述變異造成的影響,在比對圖片之前,我們容許一圖 (或兩圖) 些微調整轉變 (見“最小平方法於圖形比對的應用”),並採用各種複雜的圖片相異性算法。因為這些緣故,主成分分析不適用於手寫數字圖片的降維。本文介紹一個建立於數據點的相異性的降維方法,稱為多維標度法 (multidimensional scaling,簡稱 MDS)。下圖顯示手寫數字集經多維標度法處理後得到的二維標度散佈圖。根據相異性的定義,多維標度法可區分為公制 (metric) 與非公制 (nonmetric),前者採用歐幾里得距離 (簡稱歐氏距離),後者則泛指任何非歐氏距離[1]。本文將介紹公制,也稱古典多維標度法,並解說古典多維標度法與主成分分析的關係。 Advertisements

Posted in 機器學習 | Tagged , , , , | Leave a comment