人工智能與語意網

Wednesday, July 12, 2006

Photobucket - Video and Image Hosting 剛剛看畢了 《會思考的機器》 一書,這是一本講人工智能 AI 實際發展的舊書,但最近再版,作者也添架了章節討論比較近期的 AI 趨勢。雖然書本的作者並非 AI 界的人,但她自己走訪不同的人,搜集不同的資料,從不同的角度去看 AI 那剛剛起步的歷史,當中包括對於智慧的理解、實際應用、合成心智的道德等等。

在我們開始發展 AI 時,也是對於人類智慧的一個探險旅程。什麼是理解?什麼是智慧?有什麼條件?等等許多問題,都是有待發掘和研究。如果我們沒有清楚明白「智能」所指的是什麼東西,在發展上可能有如瞎子摸象。有人說近年 AI 發展到了一個瓶頸位置,沒有什麼大突破,可能因為這個摸索期比預期的長的關係。

一個會思考的機器,並不是單單懂得運算和邏輯,當中還涉及大量的背景知識。以前,這許多知識都要靠人自己去輸入到機器裏去,用很專門的格式和方法存取資料。但現在網絡發達,機器人可以靠網絡取得資訊並加以運用,而這關係到 語意網 的發展。

現在的互聯網仍是以人為本的,成千上萬的網頁,文字、圖片、影象等等人類明白的方法呈現和記錄。但對於機器來說,要解讀分析這些文字、圖片、影象,以現有的 AI 技術來說,仍然很困難。所以,我們不能直接向搜尋器問問題,而是要靠用搜尋字眼作模糊的搜索相關資訊,因為機器並非「明白」網頁的內容,而是靠一些統計和評分,與搜尋字眼作計算,然後排列結果。

舊時的網頁,充斥著各種各樣用來描述外表的 Tag,如 font, b, br 等等,為的只是在瀏覽器上給人好看,但實際上對機器毫無意義,而且還會帶來解讀障礙。W3C 推的網頁標準,就是想將內容和表達分開來,以具有語意的 markup 來包著內容,以 CSS 控制外觀。

再進一步,「人類格式」的資料,必需加上足夠的敍述和形容,才可以令機器也可讀,所以有語意網的概念。語意網在我們的內容以上,再加上一層意義的敍述,讓機器也明白內容裏各種資料的架構和關係,從而可以處理這些資料。語意網使用 XML、RDF、OWL 等等為架構,為資料加上機器可讀的輔助。而且這種格式,不只是限制在網頁的應用之上,機器之間也可以使用這些格式來交換和理解資訊。

不過,語意網的發展仍在非常起始的階段,就網頁而言,單單是要由舊時的一個大 HTML 跳到 XHTML + CSS 已經十分困難,RDF、OWL 仍然有待支援,所以在「語意化」的路途上,又有很多不同的變化走了出來。近年冒起了的 Microformats 微格 ,使用 XHTML 為格式,又可以嵌入到現有的網頁上,實現人可讀,機器又可讀的目的。機器可以在網頁裏的微格抓到資料,明白當中意義。正因為微格小巧而精妙,又可溶入現有的網頁,所以漸漸受人關注,被稱為是 Lowercase Semantic Web。

不論如何,語意網在人工智慧的層面來說,是一個很重要的工具。AI 不必設計複雜到完全像人腦一樣,也可以明白資料的架構、意義,並作出處理。使用共同認可的資料格式,機器與機器之間也可以彼此了解,各種系統可以合作,來做更多事情了。

相關連結:

P.S. 事實上,我或許該看英文版的,因為對於很多翻譯的名詞看不太慣,在討論一些比較複雜的理論時看得有點吃力 (雖然看這本書其實不需要有背景知識) 。有時間的話,會再看一次。

網絡 copy and paste

Wednesday, March 15, 2006

自 Ajax 「掘起」以來,各方不斷努力地將一些現有網絡應用改頭換面,不用 Reload 的吸引力使大家不斷地使 Web Application 更像 Desktop Application。而最近的熱門話題,就是 Web Office 的應用了。Web Office 最大的吸引力,在於在任何地方,只要有瀏覽器就可以工作了,所有設定和用戶習慣都記錄在 Web Office 裏,自己只消一個 login 就可以工作。另一方面,在網上工作,又可以利用互聯網的便利,共同討論編輯文件而又不用將檔案寄來寄去。

近幾個月,冒出了不少此類應用:網上 Word、Excel、Powerpoint、Calendar 等等。可是大家真正在使用的有哪些?相信沒有。一來是這些產品都只是在起步階段,還未成熟可靠。二來是這些程式之間的互動問題,最近 Reinventing Copy and Paste 一文談到最近如雨後春荀的 Web Office 應用,面對著跟以前 Desktop 系統同一個問題: Interoperability。也就是說,我能不能夠將 Excel 的資料,抄到 Powerpoint 和 Word 裏面使用此類問題。

Microsoft 在作業系統和旗下的 Office 這一方面做了很大的整合功夫,而事實上 Office/Windows 都是由 Microsft 自家開發的,他們可以閉門做車做到 cross-application 的 copy and paste。但現在一旦要到了 Web Application ,問題又重現了,服務之間的資料不能有效地互相使用。

要做到 cross-web application 的 copy and paste ,就需要一眾程式使用通用的資料格式,可以讀取和分析。在 Web 2.0 時代,RSS 首先打破了程式間的隔閡。藉著 RSS 我們可以以統一的格式來收取資訊,我們不單單用 RSS 來看 Blog 、還可以收新聞、更新資訊、追蹤狀態等等。RSS 現階段只是單一方向,由服務商向用戶定時更新資訊,在格式上也有一定的限制。在將來 Microsoft 引進的 Simple Share Extensions,會使 RSS 的互動變成多個方向,在某個程度上,加強了程式間的溝通。

不過,這不適合用於 copy and paste 的動作,RSS/SSE 是程式間的互動,但是 copy and paste 是用戶和多個程式間的互動。最近 Ray Ozzie 發表了 Wiring the Web 一文,附有一個暫名為 Live Clipboard 的視像介紹和示範,可以使 copy and paste 在網絡服務之間實現。這個 Live Clipboard,聰明地使用了作業系統本身的 clipboard ,以 Microformats 為內容格式,一手交一手,由一個服務抄到 OS 的 clipboard,再貼到另一個服務之上,從而真正做到 copy and paste 的動作。因為使用通用的 Microformats 格式資料,所以可以互相理解在 clipboard 的資料,格式也沒有限制。

服務間可以 copy and paste 以後,再加上 SEE 和 RSS,網絡服務間可以互相運作了。就算我跟你使用不同的電郵、行事歷等等的服務,也可以照樣編輯和分享資訊。