1 、错误的封禁 在百度的 robots.txt 的更新上,如果多次点选 “检测并更新” 就会出现时常可以更新,但是又时常无法更新的问题。如此一来:不应当被收录的东西,在 robots.txt 上禁止的被收录了,又删除就很正常了。那么它的问题是什么呢?并非服务器负载过度,而是因为防火墙错误的将部分 Baiduspider 列入了黑名单。
2 、服务器异常 常规的服务器就不说了,大家都知道的,北上广的一般都不错。不过有一些特殊服务器,想必绝大多数的站群站长都不知道吧?例如西部数码的 “港台服务器” 就很有趣,真的是港台的吗?本身机房在国内,还算什么港台?为了逃避备案而用一个港台的 IP,资料全部在国内。 这样有什么不好呢?我们会发现:站点的服务器是经过 CDN 的,哪怕是您上传的一张图片,都会显示为 “302 状态码”,访问速度是提升上去了,可是这样利于 SEO 站群吗? 3 、获取不到真实 IP 规模较大的网站,一般都会使用 CDN 加速,但是有些站点不仅仅对 “装置” 使用了 CDN 加速,而且还对 Spider 使用了加速功能。后的结果是什么呢?如果 CDN 节点不稳定,那么对网站 spider 来讲,这个问题将是致命的。 很多大型站点开放 CDN 的原因就是容易被攻击,这个时候如果不做 “蜘蛛回源” 就可想而知了。您的站点做了 CDN 了吗?请登入百度站群站长平台检视一下 spider 是否可以抓取真实 IP 地址吧! 4 、频繁的 50X 类错误
这样的连结其中一个共同的特点是:当开启后,全部都是正常的,那么 Spider 为什么会报错提醒呢?只是因为在爬虫发起抓取的那一刻,httpcode 返回了 5XX”,您的站点是否频繁有这样的问题呢?有的话需要立即安排技术,或者通报 IDC 服务商做解决了!
5 、错误的抓取比例 任何网站都做不到 100% 不出问题,但是万事有一个度:我们认为,这个比例不超过 5%,对网站基本上是无影响的,且这样的错误不应当每天都出现。常见的抓取错误一般都是连线超时:” 抓取请求连线建立后,下载页面速度过慢,导致超时,可能原因服务器过载,频宽不足” 这种情况: A:尽量在不影响图片质量的情况下,对图片进行压缩,上传的时候就进行了压缩。 B:减少如 JS 指令码档案型别的使用,或者进行合并 C:页面大小进行控制,尤其是一些浏览量、抓取量较高的页面,不建议超过 2MB 。 D:增加网站的频宽,提升下载速度,或者更换服务器。 今天 SEO 站群关于网站收录服务器端问题就分享到这里,更多网站建设、优化等问题可咨询 SEO 站群技术团队。