方法一透過提取資訊裡的聯絡方式,建立聯絡方式黑名單

垃圾資訊製造者不管 IP 如何變、內容如何變,但是聯絡方式是不變的。我們可以根據這一點來建立聯絡方式黑名單資料庫。目前中國多使用者用的最多的聯絡方式有:電話號碼、 QQ 號、網址、 Email 地址等。這些聯絡方式都有一定的特徵,很容易透過正規表示式提取出來。那麼具體如何建立黑名單呢? 列表網的做法是:如果一條資訊被多使用者惡評五次,那麼該資訊自動標記為惡評狀態並隱藏。經確認的被多使用者投訴的資訊也被置於惡評狀態。當一條資訊被置於惡評的時候,該惡評資訊裡的所有聯絡方式均被存入黑名單資料庫中,並且出現頻率欄位加 1 。這樣我們就有了聯絡方式黑名單資料庫了,該資料庫有聯絡方式的出現頻率及最新出現時間等資訊。所有這些操作除了多使用者投訴需要人工辨別外,其他的都是機器自動完成的。

方法二鑑別並刪除異地商家資訊

分類資訊網站的特點之一就是本地性,本地多使用者到分類資訊網站上來看的就是本地的租房、交友、服務等資訊。因此如果資訊裡面出現異地的電話號碼的話則應該作為垃圾資訊處理。這個可以透過手機屬地資料庫及電話區號資料庫來判斷。並不是所有的類目都適用這條方法的,像交友、尋人類目就不應該採用這種方法。但是像二手車類目、服務類目則完全可以採用這種方法過濾掉異地資訊。

方法三限制某些類目同一天內一個多使用者只能釋出一條資訊

重複的資訊太多了,對多使用者的體驗也不好。在這裡重複資訊的定義是:同一個多使用者或商家 (包括商家聘請的資訊釋出者) 釋出的內容相同或相似的資訊。這些類目包括:生活服務、商務服務、培訓、交友、車輛等。那麼如何避免重複資訊的釋出呢? 列表網的做法是:在這些類目中多使用者一天內釋出的所有資訊中只保留最近釋出的資訊,其他資訊則刪除。

方法四關鍵字過濾

最後不要忘了關鍵字過濾。一些有害的、敏感的關鍵字是肯定需要過濾的。

以上是分類資訊網站可以採納的反垃圾資訊的簡單的行之有效的幾種方式。如果能配合貝葉斯演演算法過濾垃圾資訊那就更完美了。