機器學習Lesson 13 — 特徵工程中的奇異值分解與共變異數的關係

8 min readApr 9, 2021

在許多領域中，複雜系統產生的資料可以排成大型矩陣。舉例來說，圖片當中的像素值本身便可以看成矩陣。但是通常這些資料只需要少數維度就足以代表原始。特徵工程中的奇異值分解(Singular Value Decomposition, SVD)，是主成分分析(Principle Component Analysis, PCA)中後台運算的演算法，這個方法讓我們可以讓我們找到少數維度來捕捉資料最多的資訊，詳細的說明，可以參考旗標出版的「Kaggle競賽攻頂秘笈 - 揭開Grandmaster的特徵工程心法，掌握制勝的關鍵技術」。

Photo by Bernard Hermant on Unsplash (可以看到圖片都邊緣其實沒有太多資訊)

資料分析中，我們常常也會觀察資料分布的狀況。其中，很常用的兩種指標分別為變異數(Variance)、共變異數(Covariance)。變異數告訴我們資料的散布狀況，共變異數告訴我們兩組資料的關係。

大家知道變異數、共變異數、以及奇異值分解之間的關係嗎？今天就讓我們好好來看一下。

一、變異數

在機率與統計當中，變異數代表「隨機變數」與「隨機變數的平均值」的「差值平方」的「期望值」。因此透過變異數我們可以得知資料與平均值之間的分布狀況，根據前述得知變異數可以定義為：

上述適用連續、離散或兼具兩者性質的資料，接著我們依隨機變數為離散或連續改寫計算公式。若隨機變數的機率密度函數為離散，則變異數為：

若隨機變數的機率密度函數為連續分布，則變異數為：

若是已知的資料集(不考慮自由度)，則變異數為：

由變異數的數學定義，我們可以得到幾個重要的性質：

1、變異數不為負數

2、隨機變數的數值放大a倍，變異數會放大a平方倍

二、共變異數

共變異數代表「兩個」隨機變數的連動變化程度，主要用於顯示兩變數的相關性，數值的大小則可以反映出兩變數的線性強弱關係。因此共變異數可以得知兩變數是否獨立。共變異數可以定義為：

若隨機變數的機率密度函數為離散，則共變異數為：

若隨機變數的機率密度函數為連續分布，則共變異數為：

若是已知的資料集(不考慮自由度)，則變異數為：

由變異數的數學定義，我們可以得到幾個重要的性質：

1、變異數為共變異數的特例

2、若隨機變數的平均數為0，則共變異數計算可簡化

3、若兩變數為獨立，則共變異數為0

我們來看一個計算範例：

三、共變異數矩陣

共變異數矩陣的概念主要在於將隨機變數推廣到高維度。我們可以把多個變數排成行向量，組成一個矩陣，並且透過矩陣轉置、相乘來計算共變異數。舉例來說，如果要計算三度空間中三個資料點的共變異數，用矩陣來表示如下：

我們可以發現，將矩陣D減去平均值後，再乘上轉置，其實就會得到共變異數。此外，共變異數矩陣會是一個對稱矩陣，其主對角線上的元素，即為變異數。

四、奇異值分解與共變異數的關係

奇異值分解是一種矩陣分解的方式，這個方法跟特徵值分解(Eigenvalue Decomposition)一樣都是用於找尋矩陣中重要的數值。奇異值分解跟特徵值分解其中一個差異在於：奇異值分解可以應用在大多數的矩陣，但是特徵值分解只能用在方陣。奇異值分解的定義如下：

當我們要計算奇異值分解時，我們會先計算D矩陣乘以D矩陣的轉置，得到一個方陣後，再對此方陣做特徵值分解。舉例來說：

接下來我們做特徵值分解：

我們就可以得到奇異值：

更詳細的計算過程，可以參考我們之前發表奇異值分解的上、下篇。

現在，我們可以發現一個重要的結果：所謂的奇異值分解，其實就是對一個平均值為0的原始資料，算共變異數矩陣，接著做特徵值分解。換句話說，我們是找共變異數矩陣的特徵值以及特徵向量！

重點整理

1、變異數代表隨機變數與隨機變數的平均值的差值平方的期望值

2、共變異數代表兩個隨機變數的聯合變化程度

3、奇異值分解，其實就是對一個平均值為0的原始資料，找共變異數矩陣的特徵值以及特徵向量

參考資料

1、Brunton S. and Kutz J. N. (2019). Data-Driven Science and Engineering: Machine Learning, Dynamic Systems, and Control. 1st ed. Cambridge: Cambridge University Press.

2、‘Singular Value Decomposition’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Singular_value_decomposition.(Accessed: 9 April 2021).

3、‘Variance’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Variance.(Accessed: 9 April 2021).

4、連續型機率分配

http://itchen.class.kmu.edu.tw/kmu/book/Pro&Sta/stat-ch8.pdf

5、‘Covariance’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Covariance.(Accessed: 9 April 2021).

6、‘Probability Mass Function’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Probability_mass_function.(Accessed: 9 April 2021).

7、‘Probability Density Function’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Probability_density_function.(Accessed: 9 April 2021).

8、‘Covariance Matrix’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Covariance_matrix.(Accessed: 9 April 2021).

9、‘Definite Symmetric Matrix’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Definte_symmetric_matrix.(Accessed: 9 April 2021).

10、‘Moment (mathematics)’ (2021). Wikipedia. Available at https://en.wikipedia.org/wiki/Definte_symmetric_matrix.(Accessed: 9 April 2021).

關於作者

施威銘研究室。致力開發AI領域的圖書、創客、教具，希望培養更多的AI人才。整合各種人才，投入創客產品的開發，推廣「實作學習」，希望實踐學以致用的理想。