摘要:robots文件的写法有很多种,大家可以自己去拓展一下,比如不允许抓取flash文件,图片文件,JS脚本文件等。
蜘蛛爬行网站时,首先会访问根目录下的robots文件。 如果该文件允许百度蜘蛛抓取网站内容,那么蜘蛛就会遵守robots规则禁止百度收录robots代码,抓取网站可以访问的数据; 如果不允许蜘蛛爬行该文件,那么蜘蛛只能包含网站的首页,其他页面无法访问爬行的数据。 淘宝上常见的就是把robots文件写死,阻止百度爬取内容!
淘宝机器人文件
那么robots文件怎么写呢?我们一起来看看
编写robots文件的最简单方法
用户代理:*
不允许:/
上述文件的意思是禁止所有搜索引擎抓取该网站的数据。 * 代表所有搜索引擎,Disallow:/ 代表不允许内容被抓取
那么如何写出让所有搜索引擎都能抓取的内容呢?
用户代理:*
不允许:
只需删除/
很多时候我们还可以阻止蜘蛛抓取某些文件夹的内容。 这时候我们就需要指定哪些文件夹是不能爬取的。 例如:
用户代理:*
禁止:/ab/
允许:/ab/cd/
该命令的意思是允许所有搜索引擎抓取cd目录下的文件,但不允许抓取ab目录下的文件。
网站优化
编写robots文件的方法有很多种,你可以自己扩展。 例如不允许爬取flash文件、图片文件、JS脚本文件等禁止百度收录robots代码,值得注意的是robots文件是区分大小写的。 错误的信件可能会给网站带来灾难性的后果,例如网站不被收录。 另外,robots文件写成txt文件,直接命名,放在网站根目录下。更多网站运营相关知识,可以关注单人小强