機器學習Lesson 15— 從迴歸分析理解Hypothesis Test

施威銘研究室
7 min readApr 22, 2021

--

各位讀者或許常常使用機器學習中的迴歸分析,幫忙做一些資料的預測。讀者也許偶爾會用Hypothesis Test來檢查某一個事件是否具有統計顯著性。但是,讀者知道這兩件事情可以連結在一起嗎?今天讓我們來仔細看看Hypothesis Test跟迴歸模型的關係。

Photo by Enayet Raheem on Unsplash

一、T Distribution

我們從生活中最常見、最有名的Normal Distribution開始談。要定義一個Normal Distribution,需要兩個參數:平均值以及標準差。假設我們現在執行以下演算法:

1、產生平均值為0、標準差為1的Normal Distribution隨機變數N個

2、計算平均數

3、計算變異數

4、計算變異數除以資料筆數N,再開根號。大家也可以想成「標準差」除以「資料數開根號」。此數值剛好也是「標準誤差」

5、將平均數除以步驟4算出來的東西

6、重複執行步驟1到5後,所搜集的資料,我們稱為T Distribution

下圖是N=10所產生的T Distribution,可以發現跟Normal Distribution是有一點點不一樣:在T Distribution中,距離0較遠的數字出現的機率,較Normal Distribution大一點點。

二、簡單線性迴歸

假設今天我們要對做線性迴歸,經過計算可以得到迴歸直線的係數:

其中,我們口語上稱b為斜率。然而,我們在Lesson 1的時候已經有提過:由於各種無法控制的因素,造成我們量測時會有量測誤差,量到的資料不會是真實值。也就是說,我們算出來的係數,都只是估計值,這個估計值可能比實際值還大,也有可能比較小。不過如果我們可以重複量測資料並計算迴歸直線的係數,將所有計算出來的係數取平均,將會是一個非常貼近真實資料的狀況。這時候我們稱這樣的係數估計方式為unbiased

三、迴歸係數的標準誤差

讀者可能會想:我沒辦法重複量測資料呀…沒錯,這種狀況常常發生。因此,通常我們會想知道的是「根據手上一組資料所估計出來的係數,可能偏離真實狀況多少」。這時候,我們通常會計算係數的標準誤差(Standard Error),其公式為「標準誤差的平方,等於變異數除以資料個數」。經過一連串數學推導,可以得到迴歸係數的標準誤差:

其中,e是量測誤差標準差(Standard Deviation)。這時候讀者可能又會想:我怎麼知道量測誤差的標準差…沒錯,這種狀況也常常發生。因此,通常我們會用殘差(Residual)來取代量測誤差:

四、Hypothesis Test

我們現在可以知道係數估計值、也知道可能偏離真實情況多少。但是,其實我們最關心的問題通常是「特徵跟標籤到底有沒有關係」,用數學來描述就是「斜率是否不是0」!為了幫助我們釐清這個問題,通常我們會進行Hypothesis Test。想要了解「斜率不是0」會有一點麻煩,因為「斜率不是0」的可能性很多,因此我們通常會想知道「斜率是0」的可能性是多少,再來反推斜率不是0的可能性多少。我們先做以下兩個假設:

H0: 斜率是0

Ha: 斜率不是0

接著,我們要試圖說服大家(跟自己)H0不太可能發生。大家思考一下:斜率估計值很大,代表H0比較不可能成立嗎?不一定吧,因為如果Standard Error也很大,那麼斜率估計值很大可能只是因為偏離真實情況太多所造成。所以,當我們想要知道斜率是否為0,我們必須同時考慮斜率估計值以及標準誤差:

上述公式大家看到什麼嗎!這就是T Distribution!在統計上,我們稱上述為由N-2個自由度的T Distribution。大家可以想像是本文第一段的演算法,把N換成N-2即可。

如果我們假設「某一個特徵對預測沒幫助」,接著代上述公式後發現計算結果非常大(距離0非常遠),我們也已經知道T Distribution裡距離0很遠的數值出現的機率很低,代表「某一個特徵對預測沒幫助」的假設成真的機率很低,因此可能是「錯誤的假設」,最後可以得到「此特徵對預測有幫助」。

透過使用Hypothesis Test,可以幫助我們了解哪些特徵比較有用,哪些特徵可能對預測沒什麼幫助,是一個好用的特徵選擇方法。特徵選擇的技術還有很多,讀者有興趣可以參考旗標出版的「Kaggle競賽攻頂秘笈 - 揭開Grandmaster的特徵工程心法,掌握制勝的關鍵技術」。

重點整理

1、重複量測資料、估計係數,並將係數平均可以接近真實情況,我們稱這種估計方式是unbiased。

2、Standard Error告訴我們估計的係數偏離真實情況多遠。

3、透過Hypothesis Test可以得知特徵跟標籤之間可能的關係。

4、即使Null Hypothesis機率很小,並不代表這件事情不會發生。

參考資料

1、James G., Witten D., Hastie T., and Tibshirani R. (2013), An Introduction to Statistical Learning: with Applications in R. New York: Springer.

2、Weisberg S. (2014). Applied Linear Regression. 4th ed. New Jersey: Wiley & Sons, Inc.

關於作者

Chia-Hao Li received the M.S. degree in computer science from Durham University, United Kingdom. He engages in computer algorithm, machine learning, and hardware/software codesign. He was former senior engineer in Mediatek, Taiwan. His currently research topic is the application of machine learning techniques for fault detection in the high-performance computing systems.

--

--

施威銘研究室
施威銘研究室

Written by 施威銘研究室

致力開發AI領域的圖書、創客、教具,希望培養更多的AI人才。整合各種人才,投入創客產品的開發,推廣「實作學習」,希望實踐學以致用的理想。

No responses yet