文章

開卷筆記 – 開放資料大商機

open-data-now

開放資料是近年英美政府實行的政策,將資料開放,使其容易為大眾所取得,機器可讀,讓取得者可以以電腦處理這些資料,從分析中得到新的資訊和價值。以往資料不夠開放的原因,可能是因為資料格式不一,甚至是手寫文件,也沒有發放平台,再加上部門不想開放資料。現在這些困難正在漸漸解除,而且機關部門也開始看到開放資料的好處,在心態上有改變。這書正是宣傳開放資料的好處,當中緩引很多英美例子,不僅說政府,也說企業、團體、公眾如何能從開放資料得益,算是從比較大範圍去看開放資料這一回事,當中較著墨於商業如何可以用開放資料成功。

政府、企業之開放

開放資料之重要意義,在於賦權於公眾,磨平資訊不平衡,有利於調節市場,例如選擇引擎,可以綜合開放資料比較如班機、保費、人工、不動產、大學評比、社區用電、寬頻等等,幫助消費者作出選擇。以往這些資料不是非公開,就是難以取得,又或即使取得,也得花大量時間才能作分析,成本太高。易取易讀的開放資料,減少公眾取用之成本,使他們可以自行分析資料,做出決定或創新。

企業可在開放資料進行的創新有很多,收集、格式轉換、數據分析、平台化等等。開放資料好像大數據,只是所有資料都是公開的,沒有私人的。疑問是,這些創新能有持續營運嗎?始終靠的是開放資料,人人可取,沒有秘密。創新公司在此似乎要有深厚的技術,例如更有效的數據收集、有用的分析,才能足以在市場上競爭。

政府有開放資料政策,網絡上也可以收集到不同的數據,例如社交網絡裏的訊息、評比網站、部落格等。在留言貼文裏,做文本分析出情緒意見。企業可以此來掌握一些公眾意見,懂得如何在網絡這個快速環境裏作出回應。不過,這些文本分析並不容易,也易有誤區,得出的結果也得小心使用。一如大數據的問題,一涉及人的意見,就會變得複雜。當然,不一定要做高超又難以驗証的文本分析統計,也可以用社交網絡做簡單的即時客服。

除了使用開放資料,開放資料也是一個策略。企業多公開營運資訊,更透明化,透露自身對社會、環境、治理等各實務,可吸引投資,提高人才招募,改善企業形像。政府應也要規定企業透露資訊,這樣就正如政府本身一樣,在更高的透明度下,無論政府和企業也得對公眾負責(最好還不要是股東),在約束下改善本身的運作。政府和企業合作的計劃更應如此,公開當中合約內容、支出、利益關係等等,將監察權賦與公眾。

學術界之開放

學術界亦有開放之趨勢,以有別於以往的方式公佈研究所得,例如公開藥物方程式,加速同業間的研究,或者將問題公開外包給群眾。開放資料讓各方可以或競爭或合作,使研究上更能快有新成果。最大問題是商業性的科學研究,例如藥廠,往往視這些東西為秘密,對於可公開的東西總是小心翼翼,臨床藥效好的會被公佈,但失敗之作、有副作用的藥物研究往往不見天日。但對於整個行業來說,這些失敗資料更珍貴,終究醫藥行業面對人體的複雜系統,是很實証主義的,負面資訊就因此更有價值。

有關學術界的開放取閱,當然不得不提 Arron Swartz 的悲劇,他下載學術期刊意圖發放,即使在被捕後同意不發布,期刊資料庫也不起訴,可是司法部仍然起訴他,結果令他自殺身亡。他之所以這樣做,是如法重製他之前曾公開的公共法院電子紀錄資料庫,分別在於學術期刊有版權而法院記錄沒有,亦是他冒險之處。司法部的過度反應,引起社會憤慨,反思現有學術期刊取用的過高成本、收費昂貴,引起「學術之春」,要政府政策上更加支持研究結果公開取用。

個人資料庫

開放資料裏有人的資料的話就會涉及私隱問題,即使將個人資料模糊化,但仍難免馬賽克效應 (Mosaic effect),即其他數據間如位置、連接 IP 等等間接地指向同一個身份。我們要小心這些問題之餘,亦可以採取更進取的步伐,提供個人資料更大的存取權。現在一般網絡服務的模式是:企業提供免費服務,然後他們可以用我們的資料做數據分析、甚或賣給其他人,這不單單是我們填入的,還包括我們留下的足跡、選項、點擊歷史等等,暫時來說用戶對這些資料都沒有太大的權力,用戶和企業的關係並不對等。更進一步應讓用戶可以全權掌控資料,可以全取,界定企業在資料上的可用範圍,並可以完全移除。我們可以設立個人資料庫,就如放錢入銀行一樣,然後由銀行控制取存,而當然若不滿意銀行表現則可以離開。例子如 reputation.com 就幫人管理他們的網上身份。

對於企業來說,這好像沒有甚麼好處,這其實帶來企業與用戶間更對等的闗係,有助建立尊重用戶的形象。企業亦可向用戶提出條件以取得用戶資料,例如一些優惠,這麼一來用戶本身是自願提供資料的,就根本有更大可能會為物品或服務付款。有別於以往的無的放矢,或者通過複雜數據分析得出的結果,這更能對準潛在用戶。

總結

無疑地這書在描述一個開放資料的世界的理想圖景,人人可以通過開放資料,互相協作而得益,整體都是正面的。有些科技業者的信條是「資訊想要自由」,也是開放資料運動的核心概念,這連同網絡開放、互通、分權等概念是一整體的。即使不談抽象概念,對於一些有關公眾利益的事情(我的定義極寬鬆,包括例如 google 死機),更高的透明度才能形成約束力。但除私隱問題外,開放資料會帶來哪些安全問題?在這恐襲年代,這似乎又成為一股相抗衡的力量,給政府政策帶來更大的挑戰。

*