機器學習看得見Lesson 10 — 箱型圖真能看到離群值?試試Letter-value Plot吧(下篇)

施威銘研究室
6 min readJan 7, 2022

--

上週,我們提到了用箱型圖(Box plot)找離群值(Outliers),可能會有誤判。並且提出可以改用 Letter-value Plot 來改善箱型圖,其基本想法就是多畫幾個箱子。不過,到底要畫幾個箱子呢?本文就來解答這個問題。

一、判斷 Letter-value Plot 的箱子個數

我們先回顧 Letter-value Plot 的繪製方式:

第 1 步:針對全部的資料,用紅色箭頭指的黑色垂直線,把全部資料分成左右各一半。

第 2 步:針對右半邊的資料,我們再用藍色箭頭指的黑色垂直線,把右半邊資料分成左右各一半。所以藍色箭頭是右半邊資料的中位數(Median)。

第 3 步:重複上述步驟,一直增加箱子把資料分成左右各一半。即可畫完 Letter-value Plot 了。

其實這個流程是一直找「半邊資料的中位數」。研究者(Hofmann et al., 2011)指出,如果當前資料中位數的信賴區間(Confidence Interval),已經包含了右半邊資料的中位數(比如藍色箭頭中位數的信賴區間,包含綠色箭頭),就不能繼續畫更多箱子了。

問題來了,很多文章討論信賴區間,都是用常態分布(Normal Distribution)的平均數(Mean),並沒有討論中位數的信賴區間呀!如果想要知道「當前資料中位數的信賴區間已經包含了右半邊資料的中位數」,那我們必須知道「中位數到信賴區間上界值裡有幾個數字」,現在就讓我們來瞧瞧吧!

二、用常態分佈來逼近二項式分佈

如果有一個隨機變數(Random Variable) X 是屬於二項式分佈(Binomial Distribution),而二項式分佈代表「某一個事件發生可能性為 p 的條件下,嘗試 n 次後發生此事件 x 次」的機率。則 X 的機率質量函數(Probability Mass Function, PMF)如下:

其中,二項式分佈的平均數、標準差(Standard Deviation)、中位數分別如下:

當機率質量函數中的 n 值夠大時,其實二項式分佈的長相就會很像常態分佈,下圖為 p = 0.5,n = 100 時的二項式分佈。

下圖為 p = 0.7,n = 100 時的二項式分佈。

所以說,當 n 夠大時,其實可以直接把二項式分佈看成常態分佈就好了。

三、順序統計量

假設有一堆連續(Continuous)隨機變數 X1、X2、...、Xn,這些變數都來自嚴格遞增累積機率分佈(Strictly Increasing Cumulative Density Function) F(X)。我們可以把這些隨機變數從小到大排成一列,結果是 S1、S2、...、Sn,我們將這堆排好的變數稱為順序統計量(Order Statistics),順序統計量也是屬於隨機變數。

通常研究隨機變數,會想要了解累積機率分佈,也就是「某一個順序統計量,小於某一個數字 M 的機率」:

這個機率怎麼算呢?如果排名 L 的順序統計量,比數值 M 還小,代表我們要「從 n 個隨機變數當中,最少選 L 個數字,這 L 個數字都要比 M 小」:

我們現在想要隨便抓 2 個順序統計量,並計算這 2 個順序統計量包住某一個數字 M 的機率:

上述的數學式子,得到的結果是「隨便抓 2 個順序統計量,並計算這 2 個順序統計量包住某一個數字 M」的機率,其實就是「二項式分佈中,從 L 到 R 的機率加總」。

四、中位數的信賴區間

我們現在知道了以下結果:

結果一:2 個順序統計量包住某一個數字的機率,等於二項式分佈的機率加總。

結果二:當 n 夠大時,二項式分佈近似常態分佈。

結果三:二項式分佈的中位數,近似於平均數。

為了要計算中位數的 95% 信心水準的信賴區間,我們要找 2 個順序統計量,包含中位數的機率是 95%。

套用結果一:找 2 個順序統計量包住中位數的機率,等於二項式分佈的機率加總。

套用結果二:二項式份佈的機率加總,近似於常態分佈的機率加總。

套用結果三:中位數近似於平均數。

所以,我們現在就是要在常態分佈中,找 2 個數字,包住平均數的機率是 95%:

如此一來,我們就知道在 95% 信心水準(Confidence Level)的條件下,中位數到信賴區間上界值裡的數字個數為:

參考資料

1、Hofmann, H., Kafadar, K., and Wickham, H. (2011). Letter-value plots: Boxplots for large data. Technical report, had.co.nz.

2、David, H. A. and Nagaraja, H. N. (2003), Order Statistics, New York: Wiley Series in Probability and Statistics.

3、黃志勝(2021)。機器學習的統計基礎:深度學習背後的核心技術。第一版,台北,旗標科技。

關於作者

Chia-Hao Li received the M.S. degree in computer science from Durham University, United Kingdom. He engages in computer algorithm, machine learning, and hardware/software codesign. He was former senior engineer in Mediatek, Taiwan. His currently research topic is the application of machine learning techniques for fault detection in the high-performance computing systems.

--

--

施威銘研究室
施威銘研究室

Written by 施威銘研究室

致力開發AI領域的圖書、創客、教具,希望培養更多的AI人才。整合各種人才,投入創客產品的開發,推廣「實作學習」,希望實踐學以致用的理想。

No responses yet