robots是你网站中搜索引擎第一个爬取的文件,就像你公司的前台一样,一个好的网站,必须用robort文件来指引搜索引擎的爬取,他的网站地图是相似的 ,前者决定让不让抓取,后者引导你怎样抓取。那么robots具体的写法需要注意什么呢?
第一、user-agent的数量
一般网站的robots.txt文件中不要出现多个user-agent记录,一般都是一个为宜,但是如果一个都不出现,也是被允许的。
第二、spider蜘蛛大小写
搜索引擎蜘蛛在查看robots的时候会忽略大小写,但是为了保险,也有网站分别写了两个不同的百度蜘蛛,比如淘宝。
第三、allow与disallow顺序
顺序的问题会导致抓取的错误,如果把allow放置后边,有时候就会出现想要收录的内容不被收录,举例说明:
想要搜索引擎唯一收录a文件夹下的b.html,那么则要这么写:
Allow:/a/b.html
Disallow:/a/
如果顺序写反,第一个匹配成功之后,b.html就不会被收录。
第四、记得反斜杠
反斜杠代表的意思是根目录,所以Disallow:/代笔的意思就是禁止收录一切页面和文件夹的内容。这个反斜杠很重要,少了反斜杠就代表允许搜索引擎收录全部页面。
第五、#表示注释
在robots.txt中,#开头均被视为注释,这和unix中的惯例是一样的。不要一不小心把通配符写错了。
第六、不要出现空格
有些robots文件中前边会不注意加一个空格,这样的问题应该尽量避免,否则一些机器人就不理解意思。
第七、区分什么要被爬取,什么不要被爬取。
Disallow的内容应该是对蜘蛛不友好的内容,如搜索页 注册页,这些页面对搜索引擎不友好,但却是用户体验的 必不可少的页面。这个才是robots存在的真实价值。
最后,写robots文件我们不应该随波逐流,别人怎么写我们就怎么写。而是理解其中的含义,写出符合自己网站的robots文件。robots.txt虽然优化的主要方向,但是它确实必需重视的一个方向,如果写的有问题,对整个网站的收录都会造成影响。所以一定要反复斟酌。
