訊息超載:過濾與發現

Sunday, April 30, 2006

APE4 寫了一篇 《猿說 – 南威龍泉 – Part II》 ,講的是「甚麼是blog?」的問題,雖然這個問題在 之前 已經引來一番討論,但那時候大都主張不給文化定義,只講工具性質,讓 Blog 文化自由發展下去。如今 APE4 再此一問,主要是從文化層面講,他說:

以前,我每天都在blog-you看聯播的文章。 可是後來加入的blogger愈多,而在毫無篩選的情況下,在聯播中找到好文章的機會也愈益下降,至今,我已經是甚少再訪blog-you。

原因,是因為越來越多人寫 Blog,而因為 Blog 的「劣幣驅逐良幣論」 — 普及化下,有見地有內涵的內容只是在「金字塔的頂端」,似乎是必然的定律。隨著越來越多人加入寫 Blog,大家閱讀的 Blog 也隨著時間也一直在增長,RSS 閱讀器越養越肥,在資訊之海裏已經越來越迷失。

我們對於資訊過載,可以如何取捨選擇?

RSS 閱讀器需要進化

正如 Keso 所言,現在的 RSS 閱讀器,大都只是為大家抓 Feed,但沒有進一步的功能。為了防止自己訂閱太多 Feed,我定期也會清理一下一些不常讀的,但也有 279 條正在追踪中。如果有一、兩天不讀,就會有七、八百個新項目了。

RSS 閱讀器要進化,不單單只停留在閱讀的層面,是能夠給我們選出「必讀」、「次要」等等的優先等級。這些優先等級應該要從用戶的使用習慣,累積起來的數據中分析評分,排列優先次序的分數。 Google 搜尋器正在做這樣東西:個性化搜尋,從你個人的搜尋歷史和點擊結果統計,計算出你的取向,在搜尋中優先表列你「想要」的結果。RSS 閱讀器,需要的就是這種「個性化」分析。

不過,這是相當複雜的,包含很多數據,實作上有一定困難。

首先,對每個人來說,「必讀」的文章一定很不同。例如,我每天必讀有關 javascript 類的新聞,而你每天必讀的則是一些電影新聞評論。每個人不同的取向,可以靠你的訂閱、點擊率等等使用和閱讀習慣來分析。除此之外,也應該可以自己打分數,決定個 Feed 或文章對你的價值。

其次複雜的,是分析文章的相關性。在得知上述個人習慣後,閱讀器如何從文章中得知那些是相關的?現在,我自己會為 Feed 設定分類,可以先讀自己認為最重要的分類,某程度上算是作了不同的「相關性」分類。然而很多時候,「相關性」並不只是在 Feed 層次,而是去到單篇文章,單單將 Feed 分類就顯得不足夠了。

例如,我有其中一個分類是「BLOGs」,收的是各個 Blogger 的 Blog Feed。而因為這些內容大都是以 Blogger 的個人為中心,題目是天南地北甚麼都有,所以當中一定有些自己不感興趣的題目。閱讀器如何得知文章裏的內容,是與我的閱讀取向相關,是另一項複雜的運作。

以 Tag 協助自動過濾

暫時機器還未能做到「文章分析」此等複雜工作,所以還是要靠人來做:使用 Tag 的方法,為文章添加 meta 的描述資料。這主要有兩種方式:文章作者自己為文章加 Tag,或是讀者自己加 Tag。現在已經有一些 RSS 閱讀器,如 RojoNewsAlloy 也可以為 Feed 文加 Tag,但主要是用來作分類管理之用。Rojo 的 Tag 系統則進一步去到社會性的層面了,統計大家都在閱讀那些文章。

Technorati 一直在做的,也是搜集網上的 Blog 文的各種 Tag。各式各樣的書籤服務,也有很多網頁加入了 Tag ,為網頁加添了很多「形容詞」。好好地運用這些 Tag 資料,RSS 閱讀器就能知道這篇文章在說甚麼,然後幫我們配對,取捨選擇,優先顯示與我們閱讀取向有較高關係的文章和消息。

不過,在時間上一定會有所延遲。在內容出現,到人們加上 Tag 的時間差裏,閱讀器就不能自動配對了。要作出實時的過濾,除非機器能夠作出文章的自動分析。不過,只要過了一段相當的時間,相關內容就能「浮」上用戶的「必讀」了。

被遺忘的「注意」

不僅出門靠朋友,我們讀文章,也可以靠網友。在上一年,曾經有一項叫 Attention.XML 的格式出來,要解決我們在海量 RSS 資訊裏的取捨選擇問題:通過我所信賴的人的閱讀習慣,給我推薦我該讀的東西。

Attention.XML 所記錄的,是用戶的閱讀習慣。而通過分析和分享閱讀習慣,便能為我的訂閱清單作出過濾,排好優先次序。可惜的是,這個技術在這一年都沒有被太多人使用,“Yahoo! My Web”:13 和 Technorati 曾經作出試驗,但卻沒有了下文。

網摘:發現新大陸

我們不單單只是讀我們既有的訂閱,也需要對外拓展,發現新大陸。我們會在訂閱了的文章裏面的連結,找到以外的其他文章。如果文章與文章之間在同一主題上發生很多緊密的連結,就會成為一股「串連」效應。早前的繁簡討論就是這與串連的一個例子,使我們能夠找到更多天外的文章。

然而,單靠串連,看來並不足夠。而最近興盛起來的網摘,是其中一個解決方法。在最初的時候,外國有的 del.icio.us 幫人們可以簡單地記錄下自己想看的網頁。靠著 del.icio.us 開放式的 API,有人會將這些書籤變成「最近閱讀」,放在側邊欄,又或者像我那樣,索性定時出一篇 Blog 文,裏面有最近我所記錄的連結。

網摘是個人的閱讀記錄和推薦,是另一種形式的分享。然而,在資訊之海裏,這些分享便變成一種「資訊過濾器」,給讀者在自己訂閱清單外一些新的連結。與串連運動不同,網摘是定期而成的,所以不會在沒有大討論話題時,變得沉靜。

聚合式網摘:專業 vs 大眾

不過,個人摘始終只是從個人出發,所以其搜集的文章,很視乎其個人訂閱清單、興趣、時間等等,有一定程度上的限制。方潤兄早前提出了 blogazine 的建議,就是想解決個人摘的限制,以專業團隊的形式,集合多人的力量,挑選網上文章內容。

這一種聚合式網摘,在外國經歷過一定的發展和 Web2.0 的洗禮。外國最出名的 IT 網站 Slashdot ,就是由用戶投稿,通常都是網址和其扼要介紹 (也算是網摘啦),經過 Slashdot 的編輯審定決定投稿出不出街。Slashdot 成功地挑選出 IT 消息和專業評論,吸引了大量的讀者群,成為每個人的 IT 「必讀」網站。而在 Blog 發展下,因為出版形式十分相似,所以也出現了很多類似的「專業團隊」網摘網,例如專搜網上新鮮事的 boing boing 、專講電子產品的 Engaget 等等。

而在 Web 2.0 的洗禮下,講求「社會性」的服務也相繼出籠,其中最成功的可算是 del.icio.us 的在線書籤服務。del.icio.us 不單單是將你的書籤放上網,他還會統計哪些網站短期內最多人記錄,哪些 Tag 最熱門等等。事實上,每一個書籤已經相當於一人一票的選舉,當用戶人數多的時候,這些最熱門的連結就很有代表性。而籍著 Tag ,我們可以彈性地再從這些熱門連結分門別類。del.icio.us 一下子,由在線書籤變身成由大眾所聚合的網摘網,由大眾選出精華網址。

上年大熱至今的 Digg ,正好是結合了 Slashdot 和 del.icio.us 的特質:由用戶發投稿介紹網頁,並由大眾為每個故事作出投票,票數多的就會被推上首頁。Digg 比 del.icio.us 更上一層樓的地方,是每一篇投稿故事都設有留言討論系統,因此用戶間可以互相討論,發展出社群,這又與 Slashdot 相當相似。Slashdot 與 Digg ,一個是專業團隊,一個是大眾支持,兩種不同的模式運作,同樣為大家在資訊之海裏,抓出精華,發現新大陸。

大眾網摘「推選」出來的網頁、文章,自然是網絡上的熱門話題。專業團隊如果能夠做得好的話,也能夠抓到重點,提供有意義的內容。兩者各有強項和好處。

總結

在資訊過載的時代,如果不能知道甚麼該讀甚麼不該讀,會浪費我們很多時間。RSS 閱讀器現在的功能只停留在「讀」的階段,還未能夠對我們的閱讀習慣、取向作出分析,這是有待改進的地方。

雖然如此,在 Web2.0 的時代,我們也可以從其他人的分享裏得取有價值的資訊。以上所說的服務,不論是專業網摘網還是大眾網摘,都是以外國服務為例子。而在中國、台灣也有一些書籤服務如 365KeyMyShareHEMiDEMi 等等,都有很多人在使用了,已開始為大家提供精華網址。MyShare 更獨創了「網摘師」一職,由專人做網摘。

這些服務的要點,是每個人都作出分享,那就能從統計得知大眾的選擇,幫我們發掘有用的新資訊。可是要留意的是,有時這些新資訊也會有過量的時候,那時就要好好想想,自己能夠承受的訊息量,好好整理自己的訂閱清單。

P.S. 本來只是想簡單講講網摘的,但一起題時實在越想越多,結果搞成這麼長篇大論,出事…… 文中其實介紹多於探討,寫得十分簡單,希望更多人認識現在的資訊量問題和解決的方向 (現在確實是未能解決)。

20060427網摘 - 中大新書院已通過?

Thursday, April 27, 2006

嘩!好多網摘…

中大新書院

權利

  • 閒談中日肖像權
    中國的肖像權問題很嚴重,而日本則執行得比較嚴
  • 聯播的權利
    討論與「引用」不同的聯播權利
  • 寫博?你還沒有預備好。
    Quote: 如果大家繼續使用網誌,請大家學習和適應新模式,新概念,也希望在自己網誌訂立清晰的版權和回應指引,讓真正討論得以延續,讓意見越辯越明,知識得以廣傳。
  • 網摘與引用的權利
    台灣的類似「引用」事件

網絡發展

  • 我是網絡發展的「大好友」
    以積極態度面對未來的網絡發展,始終「舊屎已經沖左落屎坑」了。Web 2.0 其實也將人與網絡做了更緊密的連繫
  • 網路禮儀 與 部落格留言
    Quote: 這意味著,我們儘管認為哪個商家是黑店,或者哪個上司很豬頭,都不應該明目張膽地寫出來,甚至用一些不好的字眼去形容他們。因為這同樣被認為是網路誹謗,要吃官司的。

刪留言/feed事件引來 blog-you手法的討論

資訊過載

  • Bloglines带来的郁闷及其他
    Quote: 登高谈到了解决信息过载的思路,这种思路不可能依靠某种单一方法,它必须综合考虑个性化阅读、群体阅读和链接关系等多种因素,为每个feed乃至每篇文章,给出针对每个用户的不同的�
  • 猿說 – 南威龍泉 – Part II
    Quote: 嘗試把blog的定義和blogger的定義分開,一個是技術層面,一個文容深度,這樣會不會更好呢?

New

Development

  • ThickBox – One box to rule them all.
    類似 Lightbox 的 javascript,但使用 jQuery,檔案少多了 (Prototype + scriptaculous 要 100KB,這個只是 20KB),也顯示了 jQuery 的簡潔威力。
  • The D Programming Language
    一隻叫「D」的程式語言,意圖彌補其他語言的不足,99年開發
  • CSS Love Child
    因為 CSS,網站的身體和衣服可以分開來了,而這個實驗則嘗試用 mix and match 不同網站的身體和衣服
  • High DPI Web Sites
    在 screen resolution 越來越大的今天,只計 pixel 的設計會有問題,可使用 DPISVG 來解決

Tips and Reference

IE Related

File sharing

  • EFF: RIAA Petition
    美國的 EFF 正在收集簽名,反對現在 RIAA 週圍捉 file-sharing 的人賠償,浪費公帑之餘,又不思進取想想如何改變商業模式
  • Next steps for BitTorrent
    BT 的未來可能發展:當 BT Client 都整合在所有軟件上時,再配搭 online storage (Amazon S3) 的開放 API 支持,可以做成 Server-side BT

Media and Critics

  • 改篇歷史漫畫傷害民族感情?
    話改得離譜時,有沒有思考過自己的論點站得住腳?
  • 四大天王 The Heavenly Kings
    Quote: 雖然同時挑起的負面反響亦不少,但不得不對 Alive 的勇氣及毅力感到佩服,試問有幾多齣電影會花費三年時間籌備,還要先準備海量的前期工作,及準備面對可預視的既得利益者的無情指�

環保

《機器人》系列?

Thursday, April 27, 2006

i-robots-book

今天在書店看到了《我,機器人》出版了,我想是因為之前《基地》系列重新再出,令到更多人 (包括我) 認識到這位科幻老祖宗:艾西莫夫,所以他的其他作品也有機會再面世了。

有關他的作品,我暫時只看過《基地》的頭五本 (正傳三本,前傳二本,還剩兩本!),實在是非常精彩,心理史學貫穿了帝國與基地的未來,當中有關人民、政治、宗教各種描述,很有深度。

現在出版《我,機器人》,我當然不錯過了。這是《機器人》系列的開始,當中最為人所熟悉的,當然是「機械人三大法則」,改寫了今後機器人故事,甚至是現實機器人的開發。此書以很便宜的價格 HK$44 出售,是不是因為篇幅比較短?而我所關心的是:會不會打算出整個《機器人》系列呢?

此書寫著是「艾西莫夫作品集 001」,可推測以後還會再推出其他作品。而書的內頁則宣傳,會在七月之前推出整個《帝國》系列 — 《繁星若塵》、《星空暗流》、《蒼穹一粟》三本,但沒有提過其他。所以,我推測應該不會有其他《機器人》系列再版了。不過,會推出《帝國》系列,則是沒有想過,算是一個驚喜。

另外,本書也追上了時代,搞了個「部落格有奬徵文」,如果大家在 Blog 或個人網頁,寫下了對此書的讀後心得,只要將連結貼到那 網站的回應欄 上,就可參加了徵文比賽,而奬品是《帝國》三部曲。特地到站上去看,已經有不少網友貼上了 Blog 網址了。這個推廣辦法,能夠聚集各位讀者,提供評論內容,的確不錯。

相關舊文:

CC與引用

Wednesday, April 26, 2006

本來以為要說都說了,應該暫告一段落,但最近發現有人搞混亂了一些事情,有些人以為:「只要那個 Blog 有 Creative Commons 授權,就可以引用了,否則就不可以」。

這是個錯誤的觀點。

首先要明白,我們所討論的字眼,就一篇文章來說:

  • 引用:指的是拿文章的一部份到另一文章,作為討論/批評/報導的參考原文
  • 轉載:指拿全部文章到另一個地方,有些人會將這說成「全文引用」,但其實與引用無關係

「引用」屬於合理使用的範疇,任何人也可以引用其他文章而不用通知原作者,這個我在 《對自己的內容負責任》 已講過。合理使用的精神,是讓研究、評論、學術、新聞可自由交流發展。

CC 所處理的是「轉載」形式,以其話說就是「重製、散布、展示及演出本著作」。你使用 CC 作授權,意思是其他人可以轉載你的作品,但要符合一些你自己訂立的條件。而 CC 最後有這麼一句

您合理使用的權利及其他的權利,不因上述內容而受影響。

也即是說,人家有沒有權「引用」 (即合理使用) 你,與你 CC 不 CC 是沒有關係的。如果你有再看詳細的條款的合理使用條文,就會發現「合理使用」的權利,是來自原來的版權法,而 CC 只是特別在「轉載」上附加了許可條件,以促進知識交流。

換句話說,只要有版權的東西,就可以被「合理使用」,不論有沒有 CC。如何有版權?就香港來說 (以下輯自 《香港的版權法》 ):

香港的新《版權條例》已於一九九七年六月二十七日生效。該條例為認可類別的文學、戲劇、音樂及藝術作品、電影、電視廣播及有線傳播節目,以及在互聯網向公眾人士發放的作品,提供全面的保護。至於演出節目的版權,任何人如與表演者訂有獨家錄製合約,也可受法例保障。

作品要在香港取得版權保護,毋須辦理任何手續。各地作者的作品,或在世界各地首次發表的作品,都可在香港受到版權保護。

所以,不要搞亂了,CC 與引用權,其實沒有太大的關係。我在 《對自己的內容負責任》 一文提及 CC,是希望大家如想在「轉載」上申明條件,可以選用 CC 幫助你。

事實上,真正灰色的地帶,是你可不可以聲明「不被引用」?要以何種方式才有效?像色情網站般加一版「我過了十八歲」 (轉過來即是「我同意不引用」) 的連結點擊才可進入是否有法律效力?還是在 Sidebar 上寫寫就可以? 靠搜尋器進來,跳過了那一版的又怎樣算?

在以上的問題未有結果前,大家要明白「放上網 —> 自動有版權 —> 可被合理使 —> 可被引用」這個邏輯,如果是敏感或不想被人知道的內容,應該自己好好保護,不應甚麼也不理放上去就算。

另外,大家也應想想「合理使用」的精神,那是言論自由的一種保障,請珍惜我們的言論空間。

跟本是錯的!

Tuesday, April 25, 2006

留意到有甚麼錯?

答案:女友告訴我,你常常將「根本」寫成「跟本」。

一搜之下,果然有十多篇都在寫「跟本」啊,趕忙修正!嘿嘿,已經消去所有證據了!

可能我太習慣寫/打「跟」本,所以根本就沒有發覺自己打了白字。以後得小心小心。

相關連結: 寫文壞習慣