有同学问百度站群站长学院一个关于 robots 的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.a.com/冒险岛/123.html,那在制作 robots 档案和 sitemap 档案的时候,可以直接使用中文吗?百度能获取到吗?在实际操作中我们发现,sitemap 中有档案是可以生效的,但 robots 封禁貌似没有反应,所以想确认一下:robots 档案是否支持中文?
工程师解答:Baiduspider 目前(2022 年 10 月)在 robots 里是不支持中文的。
同学追问:那我们进行 UrlEncode 编码会不会支持呢?比如这种:http://www.a.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97
工程师解答:robots 档案支持这种写法。但是否生效,还要取决于当时 BaiduSpider 抓取的是哪种形式结构的连结,如果是 UrlEncode 编码就可以生效,如果是中文就非常不幸了。