疑似人肉 SPAM
Friday, May 16, 2008
最近多了些奇怪的留言,最新鮮的有 這篇 在回覆 05 年的 Blog 事回顧一文。他這樣寫:
BLOG已經大眾化,民間化。我們每天落班必做的事。
抱住不同的心態,在這虛幻的空間裡暢遊。記錄落每天發生在身邊的點點滴滴事情,等10年過後回味也是件好事
這些留言有這些特點:
- 內容字眼好像相關,但其實文不對題。例如上文,除了「阿媽係女人」的道理外,還有甚麼 10 年啊?
- 留言者的名字怪怪,例如上例的自稱「recycle bag」
- 留言者的網址指向某些商業網站,上例就指向環保袋網站 (我已移除了連結)
很顯然這是 SPAM 留言。然而,我更有興趣的問題是,這些留言是如何產生的?內容可以如此「疑似真人」?究竟是人寫還是機器寫的?
我實在很難想像這是真人到各個 blog 特地對文留言,這樣太沒效率太花成本,所以我想還是機器來的。其方法可能是:先掃描文本找關鍵字,然後再用 blog search 之類找其他相關文章,再抄下這些文章的留言來當成新留言。又或再進一步,用關鍵字眼,建立「範例答案」資料庫,配合使用。
如果真的是這樣子的話,這些 SPAM robot 又真的進步不少了… 希望不是這樣吧?
現在我的做法是先移除連結再看,如果再多其他同類留言,則會刪除。暫時數量不多,只是有些煩,而且我始終不想加 CAPTCHA。況且,如果是真人肉 SPAM,加 CAPTCHA 也沒有效啦…





