登入
大數據、數據挖掘與統計學

相信大家會聽過大數據 (Big Data)、數據挖掘 (Data Mining) 等名詞。早前在世界杯期間, 有文章1指出德國如何利用大數據分析對手優點與缺點,從而改變策略,幫助德國奪得冠軍;亦有不少書籍2及文章提及大商業機構如網上購物平台等,如何利用大數據進行促銷,銀行如何利用數據挖掘來偵測虛假交易等。一時間,大數據及數據挖掘等成為熱門話題。究竟這些技術為何如此神奇,背後的原理又是什麼? 當然沒法在這裡詳細解釋,不過簡單而言,背後是依靠電腦科學與統計學。

無可否認,電腦技術發展神速, 給我們日常生活帶來革命性的改變。電腦運算速度及資料儲存量以幾何級數增長,亦給予統計學帶來機遇與挑戰。電腦革命以前,我們沒有大量數據去分析,現在則有太多數據不知怎樣去分析。大數據及數據挖掘技術應運而生,目的是從大量數據中去蕪存菁,找出有價值的資訊。其基本原理還需依賴統計學來做數據分析。統計學系的課程裡面,就有不少有關數據分析的科目3,讓同學分析真實數據。其實數據分析並不一定要有大量數據,以下的例子正好說明。
page background

1970年代美國派軍隊去越南,需要從適齡的美國公民徵兵。方法是將有366個一模一樣的塑膠球4寫上全年的日子,然後放進大箱裡逐個球隨機抽出,就像現在六合彩攪珠一樣。圖表一是1970的攪珠次序的結果5,從中可見9月14日被最先抽出,凡出生日期是9月14的適齡美國公民最先被徵召入軍隊。其次是出生日期為4月24日的被徵召入軍隊,如此類推。從這一堆數字來看,似乎很公平。

但事後有人發覺這方法很有問題。在圖表一最後一行是每月次序的平均數,發現數值按月份計算有明顯的下降趨勢。如果攪珠次序是隨機的話,每個月的被抽中的平均次序應該差不多,不應出現明顯下降趨勢。實情是工作人員順序將一月的日期球先放入箱內,接著二月、三月,如此類推,最後將球攪亂。但原來將366個球攪亂是很不容易的,攪拌不均勻導致近年尾日期的球分佈於較上面,亦因而較先被抽中。所以12月的平均次序最少。月份越大平均次序就越少。

 

page background

有見及此,1971年的攪珠程序作出調整,避免了攪拌不均勻的問題重現。攪珠次序結果 (見圖表二) 再沒有出現每月平均次序的下降趨勢。圖表三更清楚顯示1970年及1971年的每月平均次序趨勢的分別。值得一提,圖表中的虛線是線性迴歸線 (Linear regression line),是數據分析中最常用的統計學模型,亦是中文大學統計系學生必修課6

從以上例子可知,像圖表一及圖表二裡面一大堆數字,不容易看出是否有問題。但通過簡單的平均數,就清楚看到明顯分別。好的數據分析不一定需要大量數據及複雜的計算,反而嚴密的推理更為重要。同學們更須學懂應用電腦軟件如 SAS, SPSS, R及EXCEL,來計算平均值及製作不同的圖表。

 

page background

統計學的應用很廣泛,包括自然科學、工程、醫學、社會科學及商業等。特別在金融業,由於金融危機不時出現,金融界越來越重視金融風險管理,各大學紛紛開設風險管理課程。本學系早於2000 年開設風險管理科學課程 (Risk Management Science),亦是全港最先開辦。畢業生已在各大銀行及金融機構從事風險管工作。

在現今資訊爆炸的年代,學懂如何分析大量數據及挖掘有用的資訊十分重要。難怪時代雜誌在2009年8月5 日發表一篇文章7,題目是 “For Today’s Graduate, Just One Word: Statistics”。在美國,統計系的畢業生為各大機構爭相聘請。同學們,如果你對數理有興趣,又喜歡福爾摩斯或神探伽俐略的精密推理,統計學及風險管理是你不二之選。
page background
撰文:梁沛霖教授 (香港中文大學統計學系副教授)


page background