機器學習Lesson 13 — 特徵工程中的奇異值分解與共變異數的關係

施威銘研究室
8 min readApr 9, 2021

--

在許多領域中,複雜系統產生的資料可以排成大型矩陣。舉例來說,圖片當中的像素值本身便可以看成矩陣。但是通常這些資料只需要少數維度就足以代表原始。特徵工程中的奇異值分解(Singular Value Decomposition, SVD),是主成分分析(Principle Component Analysis, PCA)中後台運算的演算法,這個方法讓我們可以讓我們找到少數維度來捕捉資料最多的資訊,詳細的說明,可以參考旗標出版的「Kaggle競賽攻頂秘笈 - 揭開Grandmaster的特徵工程心法,掌握制勝的關鍵技術」。

Photo by Bernard Hermant on Unsplash (可以看到圖片都邊緣其實沒有太多資訊)

資料分析中,我們常常也會觀察資料分布的狀況。其中,很常用的兩種指標分別為變異數(Variance)、共變異數(Covariance)。變異數告訴我們資料的散布狀況,共變異數告訴我們兩組資料的關係。

大家知道變異數、共變異數、以及奇異值分解之間的關係嗎?今天就讓我們好好來看一下。

一、變異數

在機率與統計當中,變異數代表「隨機變數」與「隨機變數的平均值」的「差值平方」的「期望值」。因此透過變異數我們可以得知資料與平均值之間的分布狀況,根據前述得知變異數可以定義為:

上述適用連續、離散或兼具兩者性質的資料,接著我們依隨機變數為離散或連續改寫計算公式。若隨機變數的機率密度函數為離散,則變異數為:

若隨機變數的機率密度函數為連續分布,則變異數為:

若是已知的資料集(不考慮自由度),則變異數為:

由變異數的數學定義,我們可以得到幾個重要的性質:

1、變異數不為負數

2、隨機變數的數值放大a倍,變異數會放大a平方倍

二、共變異數

共變異數代表「兩個」隨機變數的連動變化程度,主要用於顯示兩變數的相關性,數值的大小則可以反映出兩變數的線性強弱關係。因此共變異數可以得知兩變數是否獨立。共變異數可以定義為:

若隨機變數的機率密度函數為離散,則共變異數為:

若隨機變數的機率密度函數為連續分布,則共變異數為:

若是已知的資料集(不考慮自由度),則變異數為:

由變異數的數學定義,我們可以得到幾個重要的性質:

1、 變異數為共變異數的特例

2、若隨機變數的平均數為0,則共變異數計算可簡化

3、若兩變數為獨立,則共變異數為0

我們來看一個計算範例:

三、共變異數矩陣

共變異數矩陣的概念主要在於將隨機變數推廣到高維度。我們可以把多個變數排成行向量,組成一個矩陣,並且透過矩陣轉置、相乘來計算共變異數。舉例來說,如果要計算三度空間中三個資料點的共變異數,用矩陣來表示如下:

我們可以發現,將矩陣D減去平均值後,再乘上轉置,其實就會得到共變異數。此外,共變異數矩陣會是一個對稱矩陣,其主對角線上的元素,即為變異數。

四、奇異值分解與共變異數的關係

奇異值分解是一種矩陣分解的方式,這個方法跟特徵值分解(Eigenvalue Decomposition)一樣都是用於找尋矩陣中重要的數值。奇異值分解跟特徵值分解其中一個差異在於:奇異值分解可以應用在大多數的矩陣,但是特徵值分解只能用在方陣。奇異值分解的定義如下:

當我們要計算奇異值分解時,我們會先計算D矩陣乘以D矩陣的轉置,得到一個方陣後,再對此方陣做特徵值分解。舉例來說:

接下來我們做特徵值分解:

我們就可以得到奇異值:

更詳細的計算過程,可以參考我們之前發表奇異值分解的篇。

現在,我們可以發現一個重要的結果:所謂的奇異值分解,其實就是對一個平均值為0的原始資料,算共變異數矩陣,接著做特徵值分解。換句話說,我們是找共變異數矩陣的特徵值以及特徵向量

重點整理

1、變異數代表隨機變數與隨機變數的平均值的差值平方的期望值

2、共變異數代表兩個隨機變數的聯合變化程度

3、奇異值分解,其實就是對一個平均值為0的原始資料,找共變異數矩陣的特徵值以及特徵向量

參考資料

1、Brunton S. and Kutz J. N. (2019). Data-Driven Science and Engineering: Machine Learning, Dynamic Systems, and Control. 1st ed. Cambridge: Cambridge University Press.

2、‘Singular Value Decomposition’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Singular_value_decomposition.(Accessed: 9 April 2021).

3、‘Variance’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Variance.(Accessed: 9 April 2021).

4、連續型機率分配

http://itchen.class.kmu.edu.tw/kmu/book/Pro&Sta/stat-ch8.pdf

5、‘Covariance’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Covariance.(Accessed: 9 April 2021).

6、‘Probability Mass Function’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Probability_mass_function.(Accessed: 9 April 2021).

7、‘Probability Density Function’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Probability_density_function.(Accessed: 9 April 2021).

8、‘Covariance Matrix’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Covariance_matrix.(Accessed: 9 April 2021).

9、‘Definite Symmetric Matrix’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Definte_symmetric_matrix.(Accessed: 9 April 2021).

10、‘Moment (mathematics)’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Definte_symmetric_matrix.(Accessed: 9 April 2021).

關於作者

施威銘研究室。致力開發AI領域的圖書、創客、教具,希望培養更多的AI人才。整合各種人才,投入創客產品的開發,推廣「實作學習」,希望實踐學以致用的理想。

--

--

施威銘研究室

致力開發AI領域的圖書、創客、教具,希望培養更多的AI人才。整合各種人才,投入創客產品的開發,推廣「實作學習」,希望實踐學以致用的理想。