文章

開卷筆記 – 精準預測

the-signal-n-the-noise

本書講訊息與雜訊與預測的關係。很容易可以看出這個主題跟現在的大數據有著密切的關係,不過這書其實並沒有多提大數據。作者的名氣在於他建立的預測模型在美國08選舉時所得到的高預測率。他自己本身早年也曾靠德州撲克、棒球比賽預測有所斬獲。在他的經驗裏,預測這回事所要面對的,多數不是高深數學和複雜模型,而是人性:對自己的預測過份自信。

作者在書裏舉不同範疇的例子:天氣、大選、捧球、地震、下棋、撲克、氣候、恐襲,去看預測這件事。你大致上可以看到不同領域的人對於預測有不同的態度。預測天氣者自知模型不完善,所以通過每天預測和修正,使其預測越來越準確,也成為書中唯一較成功的預測例子。預測地震者知道不單是模型不好,連輸入端也有嚴重不足不準的問題,他們很虛心地承認此點。不過隨著一步步進入更多人類活動的領域之時,預測者可能的偏誤就越多,容易過度自信。預測選舉的言之鑿鑿,預測經濟的以為模型夠多輸入就好,對訊息和雜訊沒有好好區分,預測得一塌糊塗。

輸入輸出

模型的永恒真理是:Garbage in, garbage out。當系統越來越複雜之時,預測對輸入尤其敏感,所以輸入端的資料質量很重要。然而,有些預測也會反過來受結果影響,例如商業天氣軟件,傾向報大下雨可能,因為下雨沒帶傘子很不爽,以為下雨卻是好天卻令人驚喜,於是商業天氣軟件就會調較一下結果。這市場資訊就竟然成為預報天氣的輸入資料了。同理,在電視上有關選舉的預告,總是驚人的才能吸引眼球,反而大部分可靠的預測其實平平無奇。

一些預測會有自我實現或自我取消的效果,因為我們會因應預測而調較自己的行為。最顯注的例子是 Google Flu Trend 用搜尋字眼預測,在首年很準,次年就不準了,因為我們都知道了搜尋行為本身有了另一層意義,於是下意識就調整了自己的行為。這是為甚麼一些有關大自然的預測可能會比較準,因為自然數據如風速、溫度之類是比較「被動」的。但一到有關人的數據就會複雜起來,人會 Hack the system

另一個有趣現象是我們的態度如何影響事件結果。一般來說,恐襲依照冪分佈,但以色列卻是唯一可以扭轉此分佈的唯一國家。以色列比其他國家更常被恐襲,但當地人民並沒有活在恐懼當中,他們表現上其實是容忍小規模的恐襲的,而發生事件後很快就會回復平常生活,不會因恐懼而陷於癱瘓。這種態度使到恐襲達不到他的目的:使人恐懼,間接使恐怖分子捨難取易,去嚇那些比較有反應的國家,例如美國。不過對於大規模的恐襲以色列是不容忍的,例如鄰國得到大殺傷力武器。證據顯示他們這種策略看來成功,死於恐襲的人數比起冪分佈所預測的少。當然這其實不是甚麼策略,只是時勢使然。

人的偏誤

預測者可以盡量地客觀,但不能達到完全客觀,對於資訊的取捨選擇有一套人腦式的邏輯。書在講述下棋的一章尤其有趣,當中描述棋王卡斯柏洛夫面對電腦深藍之戰。雖然說電腦可以用暴力算法去計盡所有可能性,但只能是在開局和終局之時適用,中間涉及的組合已是天文數字。所以深藍也必需有所取捨,而這些取捨正正就是由開發者所編寫的,成為電腦下棋的直觀推論(heuristic)。卡斯柏洛夫其實非常能掌握到深藍的直觀推論。棋局的關鍵轉折點,是深藍走出一步卡斯柏洛夫百思不得其解的步,這令他以為電腦已經超前他所能想過的步數,以至令他在之後的棋局斷然提早完局。卡斯柏洛夫的執念在於深藍的棋步必然有計算,而反而沒有想到那一步可能只是編程錯誤而已。這執念已然令他不能再很有信心地走下去,情緒也有所影響,所以敗給電腦。用這個角度看,這比拼其實沒有分出哪個直觀推論法、或者策略的高下。

更常見情況,是我們的過度自信,書中很多例子。我們迷信於模型,忽略了檢視訊號與雜訊。我們會以複雜模型過度適配(overfitting)手頭資訊。我們對某些關係視而不見,例如房地產泡沫中看不到不確定性,以為個別屋主付不起貸款風險不大,而不知情況是很多人其實都無力還款了。在經濟的例子尤其嚴重的一點是,他們都在用人家的錢來玩,心態更不著緊。比起科學家也毫不謙卑,因為就算看到市場有機會崩盤,在計算進自己在崩盤後的前途後,會得出不放手比較「理性」的結果。

在表現上,群體智慧會比個體好,關鍵是他們的意見不會太過互相影響。用之前讀《數位麵包屑》的理論來說,就是不要讓意念在群體間自我重覆流轉,形成回音室,改善方法是增加意念流。

測試與修正,貝耶斯

在某些領域,我們可以用試錯法(trail and error)去測試和修正模型,這是 Google 常用的手法,稍為改變一下服務的參數,將服務開給少量用戶再收集數據分析結果,在業界這手法叫 AB Testing。Google 的本錢在於有大量的用戶可供測試之用,他們在很多事情上都用這方法測試,甚至有人覺得到了執迷程度,例如用試錯法去測 41 隻藍色,這種工程觀曾引起設計師的不滿

要用試錯法的必要條件是:你要有很多機會去試,所以 Google 可以試錯,天氣預報也因為每天可試而能逐步修正。在其他領域就比較慘了:氣候變化(不是天氣,尺度較大)、地震、選舉等等。作者推崇使用貝耶斯定里,也是本書的重點。在數學上,它很簡單:由先驗機率,到出現新事件後再評估,計算出後驗機率。數學上不過是加減乘除,並不高深。可是其意義在於不斷的修正,在新事件出現的時候我們修正先驗率,得出後驗率後在下一次又成為先驗率了。在這個過程,我們可以將誤差修正得越來越少。

相對於貝耶斯定理的另一派哲學是費雪的頻率論。費氏對於貝氏必需要有先驗率這件事很感冒,覺得這個很主觀。頻率論用抽樣誤差去包含不確定性,而隨著資料越充足,誤差將趨近於零。然而作者認為頻率論的問題在於他有本身的假設(如誤差率依常態分佈)之餘,在實作上也有困難(資料不充足、抽樣母群難以定義),也阻礙研究者思考問題的基礎脈絡。

在這裏可以看到作者雖然很依靠數字預測,但其實還是很看到人為判斷,暗暗有一陣人文氣息。他在天氣一章也提過機器模型加上人為判斷的效果比較好。另一個他對貝氏的信心,相信來自於他的撲克經驗。線上德州撲克是應用貝氏定理的絕佳環境,在當中每一步你都可以用貝氏定理去計算好機率,從而從中獲利。

有批評者認為他這看法太偏頗,始終費氏頻率論也是有其用的,例如在我們對先驗機率亳無概念或共識的時候,事實上許多科學實驗就是在這種情況下進行。

黑天鵝

本書並沒有討論到黑天鵝,不過倒有相近的討論。對於九一一,國防部認為那是一件 unknown unknown — 我們未知而不自知,這與 Taleb 在黑天鵝的論述符合,一般都認為九一一是件黑天鵝事件。黑天鵝是我們認識論上的極限,而作者則認為貝氏理論「處理的是認識論上的不確定」。

然而,貝氏理論卻不能解決古老的火雞問題:火雞每天都活得很安穩,跟據牠的貝氏式估計能夠存活下去的機率非常高,直到某一天農場主將牠殺了,因為那天是感恩節。當然你可以說,在得此經驗後,我們可以大幅度用貝氏定理修正了,但問題是火雞已經死了。黑天鵝的精要在於,我們未知而不自知的東西,是足以致命的。以前或許還沒有這麼多這類致命事件,可是現在我們的世界太過複雜,高度連結,互相依賴,非線性關係非常之多。

再用黑天鵝的理論劃分平庸世界和極端世界,在本書在平庸世界的例子有:撲克、下棋、棒球等等,其他很難測的領域,都屬於極端世界。在極端世界的不確定性相當高的原因在於我們未知而不自知,也就沒有甚麼先驗機率可以得出。而黑天鵝論述,大都關於我們如何利用我們知道自己未知而不自知這件事,去避免這些致命的不確定性。在統計上,我們可以將黑天鵝變灰,例如用冪分佈或碎形分佈去稍稍見到牠們,本書中地震和恐襲的例子就是冪分佈,但見不到的就是見不到。

結語

本書中有關預測的故事都有趣好讀,其中有些也算是他的經驗之談。他建議我們在預測時使用機率表達,使用統計模型加人為分析,並且不斷地在新資訊出現時用貝氏理論改進機率,也就是我們對世界的認識。他對於有些人認為大數據是理論的終結的看法不敢苟同,覺得始終還要看相關又看因果。他指出我們常犯的錯是誤將雜訊看成訊號,而在這大數據時代這問題只會更為嚴重。但對於如何判別訊號與雜訊,他似乎也未有完整的想法,當中看來還是很依靠人為判斷,再輔以貝氏式改進。有人認為他也可能因此而誤入盲點區域,所以在近年英美大選的預測都失準。儘管如此,書中對於我們在認識上極限的深刻反思,仍然是真實的。

*