文章

人工智能與語意網

Photobucket - Video and Image Hosting 剛剛看畢了 《會思考的機器》 一書,這是一本講人工智能 AI 實際發展的舊書,但最近再版,作者也添架了章節討論比較近期的 AI 趨勢。雖然書本的作者並非 AI 界的人,但她自己走訪不同的人,搜集不同的資料,從不同的角度去看 AI 那剛剛起步的歷史,當中包括對於智慧的理解、實際應用、合成心智的道德等等。

在我們開始發展 AI 時,也是對於人類智慧的一個探險旅程。什麼是理解?什麼是智慧?有什麼條件?等等許多問題,都是有待發掘和研究。如果我們沒有清楚明白「智能」所指的是什麼東西,在發展上可能有如瞎子摸象。有人說近年 AI 發展到了一個瓶頸位置,沒有什麼大突破,可能因為這個摸索期比預期的長的關係。

一個會思考的機器,並不是單單懂得運算和邏輯,當中還涉及大量的背景知識。以前,這許多知識都要靠人自己去輸入到機器裏去,用很專門的格式和方法存取資料。但現在網絡發達,機器人可以靠網絡取得資訊並加以運用,而這關係到 語意網 的發展。

現在的互聯網仍是以人為本的,成千上萬的網頁,文字、圖片、影象等等人類明白的方法呈現和記錄。但對於機器來說,要解讀分析這些文字、圖片、影象,以現有的 AI 技術來說,仍然很困難。所以,我們不能直接向搜尋器問問題,而是要靠用搜尋字眼作模糊的搜索相關資訊,因為機器並非「明白」網頁的內容,而是靠一些統計和評分,與搜尋字眼作計算,然後排列結果。

舊時的網頁,充斥著各種各樣用來描述外表的 Tag,如 font, b, br 等等,為的只是在瀏覽器上給人好看,但實際上對機器毫無意義,而且還會帶來解讀障礙。W3C 推的網頁標準,就是想將內容和表達分開來,以具有語意的 markup 來包著內容,以 CSS 控制外觀。

再進一步,「人類格式」的資料,必需加上足夠的敍述和形容,才可以令機器也可讀,所以有語意網的概念。語意網在我們的內容以上,再加上一層意義的敍述,讓機器也明白內容裏各種資料的架構和關係,從而可以處理這些資料。語意網使用 XML、RDF、OWL 等等為架構,為資料加上機器可讀的輔助。而且這種格式,不只是限制在網頁的應用之上,機器之間也可以使用這些格式來交換和理解資訊。

不過,語意網的發展仍在非常起始的階段,就網頁而言,單單是要由舊時的一個大 HTML 跳到 XHTML + CSS 已經十分困難,RDF、OWL 仍然有待支援,所以在「語意化」的路途上,又有很多不同的變化走了出來。近年冒起了的 Microformats 微格 ,使用 XHTML 為格式,又可以嵌入到現有的網頁上,實現人可讀,機器又可讀的目的。機器可以在網頁裏的微格抓到資料,明白當中意義。正因為微格小巧而精妙,又可溶入現有的網頁,所以漸漸受人關注,被稱為是 Lowercase Semantic Web。

不論如何,語意網在人工智慧的層面來說,是一個很重要的工具。AI 不必設計複雜到完全像人腦一樣,也可以明白資料的架構、意義,並作出處理。使用共同認可的資料格式,機器與機器之間也可以彼此了解,各種系統可以合作,來做更多事情了。

相關連結:

P.S. 事實上,我或許該看英文版的,因為對於很多翻譯的名詞看不太慣,在討論一些比較複雜的理論時看得有點吃力 (雖然看這本書其實不需要有背景知識) 。有時間的話,會再看一次。

回應

  1. 我想,機器應難讀的應該是諷刺之類的吧,我想像不到有人們什麼方法教電腦去分辨正話和反語。而且,很多的名詞在實際行文中都意義都有一定分別,這牽涉到作者對該名詞的理解,而這些名詞的確實意思往往需要在上文下理中摸索,這時候,ai 的作用就真的很難說。

    總之,我是同意ai 的發展不是已經也很快會遇上瓶頸

  2. 遇上樽頸的是 A.I.

    當大家還以為機器一定要以人工手段注入智能時﹐已經忽略了機器本身的知覺了。

    我們以人類的需要和習慣﹐作為審視機器的知性﹐那關鍵是在於我們認為人類統治機器。對於機器是而﹐人是不能想象的神﹐但機器本身有機器的需要﹐在我們全知而折不開個別地知的領域裏﹐機器已經動起來。

*