方法一通过提取资讯里的联络方式,建立联络方式黑名单

垃圾资讯制造者不管 IP 如何变、内容如何变,但是联络方式是不变的。我们可以根据这一点来建立联络方式黑名单资料库。目前中国多用户用的最多的联络方式有:电话号码、 QQ 号、网址、 Email 地址等。这些联络方式都有一定的特征,很容易通过正规表示式提取出来。那么具体如何建立黑名单呢? 列表网的做法是:如果一条资讯被多用户恶评五次,那么该资讯自动标记为恶评状态并隐藏。经确认的被多用户投诉的资讯也被置于恶评状态。当一条资讯被置于恶评的时候,该恶评资讯里的所有联络方式均被存入黑名单资料库中,并且出现频率栏位加 1 。这样我们就有了联络方式黑名单资料库了,该资料库有联络方式的出现频率及最新出现时间等资讯。所有这些操作除了多用户投诉需要人工辨别外,其他的都是机器自动完成的。

方法二鉴别并删除异地商家资讯

分类资讯网站的特点之一就是本地性,本地多用户到分类资讯网站上来看的就是本地的租房、交友、服务等资讯。因此如果资讯里面出现异地的电话号码的话则应该作为垃圾资讯处理。这个可以通过手机属地资料库及电话区号资料库来判断。并不是所有的类目都适用这条方法的,像交友、寻人类目就不应该采用这种方法。但是像二手车类目、服务类目则完全可以采用这种方法过滤掉异地资讯。

方法三限制某些类目同一天内一个多用户只能释出一条资讯

重复的资讯太多了,对多用户的体验也不好。在这里重复资讯的定义是:同一个多用户或商家 (包括商家聘请的资讯释出者) 释出的内容相同或相似的资讯。这些类目包括:生活服务、商务服务、培训、交友、车辆等。那么如何避免重复资讯的释出呢? 列表网的做法是:在这些类目中多用户一天内释出的所有资讯中只保留最近释出的资讯,其他资讯则删除。

方法四关键字过滤

最后不要忘了关键字过滤。一些有害的、敏感的关键字是肯定需要过滤的。

以上是分类资讯网站可以采纳的反垃圾资讯的简单的行之有效的几种方式。如果能配合贝叶斯演算法过滤垃圾资讯那就更完美了。