開卷筆記 – 大數據的傲慢與偏見

原書英文名是 Weapons of Math Destruction，玩字 Mass 變 Math，談的也不只是大數據，而是更普遍的「模型」，而這些模型不僅繼承了做模型的人類本身的傲慢與偏見，更致命的是由機器執行，變得其「殺傷力」大增之餘，在缺乏回饋修正模型的情況下，使這些偏見更深入於系統中而不可撼動，而當我們越來越不明白這些模型的運作時，我們甚至自己成了受害者也懵然不知。

我們社會早已進入量化計算的年代，為所有能夠評級的東西評級，並奉看似客觀的數字為準，於是「有數字」等於「準確」，問題當然就是並不是所有東西皆可輕易量化，於是當我們評量某些價值時，便會有所缺失、失準、做作偏見。模型必然是現實的簡化版本，也就是因為簡化才會有用，但當中取捨甚麼就是關鍵。我們傲慢地認為量化模型就是好，於是將偏見植入系統。

偏見一直存在，在數據當道的現在，我們更會偏向於某類容易量化量度的數據，而忽視其他難以取得、測得的特質，這其實已是兩重偏見：人做模的偏見 + 量化數據。然後我們再將偏見用機器規模化，於是傷害範圍大增。比起以前可能還是做個人評估，有很多文書工作，所以能處理的數量還是有限。偏見在此放大再放大。

書中一個故事是給老師教學質素作評分，用的數據是學生成績進度，並以其他黑箱作業(商業秘密)的數據，可能是學生本身社經地位、所住郵區等等，去計算在該次成績上有多少是因為老師教得夠好。這聽下去已經覺得很難建模，而且一班幾十人所得的數據量，也是極不可靠，這是普通的統計常識。但書裏述說的案例，都是簡陋可笑的所謂模型。

還不止這樣，當我們遇上這些存有偏見的系統時，我們自己本身也會作出反應，去嘗試找漏洞。老師評分例子就有人質疑有很多學校都有可能為了數據好看，而改寫考卷。於是垃圾進垃圾出，評分結果很極端。

有些模型是運作得很好的，例如捧球界的數據分析便是數一數二的好，除了其本身所收集的數據夠客觀和準確外，模型本身還可以通過回饋來修正其自身，如果作出的預測不夠準確，比賽結果能夠修正模型。但書中所見諸的例子，都是缺乏回饋修正的，於是錯就一直錯下去。機器重覆不停犯錯不懂停，就是典型的「萬字夾最大化」情景。設計模型和修正，是人的責任。舉凡設計模型者，無不有良好的初衷，為了改善孩子的教育、司法的公平、讓企業請對的人等等，但如果缺乏對所用的工具的優點缺點有所意識，便會很可能傷害無辜。

書中一個常見的傷害，是使受害者掉入惡性循環。例如警局現在都會用數據分析那個地區罪案較多，於是在可能出現罪案處多派人手，而由於多派人了，自然又增加了檢控的次數，於是又再預測該區犯罪可能性較高，此一循環只會加倍強化。上述地區郵區號碼可能會被模型視為高風險的人，於是便更難獲得貨款或保險，或者得付高利率。此又進一步壓低這些人的信用評比。於是貧窮的人生活更艱難，又更可能為糊口而犯法。

數據偏見也在大數據裏發生，作者指出網絡廣告的模型，使到那些生活艱難的人，更容易看到營利大學或申請次貸的廣告，更容易心動。對於廣告演算法來說，這只是配對問題，但卻有可能令他們花更多錢，在更沒有效帶他們脫困的事情上。

簡單的邏輯，例如保險就是為了攤分風險而設，使到少數出意外的情況可以得到保償。現在系統正以模型設法避開這些少數人，或增加他們的成本，用數據標籤他們，那末他們原來要保障的甚麼？作者認為，數學武器正是歧視弱勢，加劇不平等。數學當然也可以用來造福人的，但我們必需要有所警覺，尤其是現代分工之細碎，對於設計和寫程式的人，並不會對於自己能做成的傷害，有所意識。

開卷筆記 – 大數據的傲慢與偏見

Similar

Same day

回應

Likes

Mentions