robots协议告诉蜘蛛不建立索引，哪些内容不可抓取

摘要：百度有个规则是判断页面质量，如果多个页面重复内容过多，会被降权，甚至移出索引库。不允许抓取的内容不是因为机器人不遵守，而是从抓取到索引到展现这个过程需要一段时间，当搜索引擎已经抓取了，你才更新，那么之前抓取的是不会那么快删掉的，删除周期并不规律，一般是算法更新后生效的情况多些。

该语句的含义是告诉蜘蛛不要建立索引，可以继续沿路径爬取内容。我以为这样会删除已经包含的快照，但有网友说这需要等待，而且不知道要等多久。

百度有一个判断页面质量的规则。如果多个页面有太多重复内容，它们将被降级，甚至从索引数据库中删除。从索引数据库中删除需要很长时间。一般来说，调整后的网站索引会有所降低，但幅度不大。这是因为算法更新后，一些垃圾页面被从索引数据库中删除。这对于经常进行 SEO 实践的网站来说并不好。从长远来看这是一件好事禁止百度收录robots代码，垃圾页面会影响网站的排名。

robots和nofollow都可以控制蜘蛛的爬行范围，但用法不同。

机器人协议

告诉蜘蛛什么可以爬行，什么不可以爬行。原则是：参与排名的将被蜘蛛抓取，不参与或与信息安全相关的将不被抓取。

不关注标签

告诉蜘蛛该页面中的某个链接不可信，不要传递权重。一般当一个页面的链接较多时（页面会给该页面下的所有链接赋予权重），为了集中页面的权重，会对一些无关紧要的链接进行nofollow控制。

简单来说，nofollow主要是集中某个页面的权重，而robots则控制整个网站的蜘蛛爬行范围。那么问题来了，为什么蜘蛛经常不遵守我们的机器人协议呢？（有些垃圾蜘蛛根本不遵守robots协议）我们所说的蜘蛛主要指的是百度和谷歌蜘蛛。

①书写错误

robots.txt的写入格式是逐行写入，不能连续写入，如

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

每条记录都需要另起一行。每条记录中不允许有空行。空行用于分隔不同的记录。更正为

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

很多时候搜索引擎抓取你的robots.txt不允许抓取的内容，并不是因为机器人不遵守，而是因为从抓取到索引到显示的过程需要一段时间。当搜索引擎抓取到它后，您只需更新它即可。那么之前抓到的就不会那么快被删除了。删除周期不规律。一般是算法更新后生效。

以下是新手可能需要的一些信息。

1、robots.txt怎么写？

各大搜索引擎的站长平台（英文称为webmasters）都有详细的说明和生成工具。

2. 如何确认robots.txt有效？

站长平台有抓取robots.txt的工具，也有“抓取工具”来确认页面是否可以正确抓取。

3. 如何通知搜索引擎robots.txt已更新？

就像上面那样，只需通过站长平台的爬虫工具重新爬取（有时是“更新”）即可。

4、搜索引擎抓取了不该抓取的内容怎么办？

有几种常见的方法：

* 在站长平台的删除链接工具中输入链接并确认删除
* 修改代码使搜索引擎访问时返回错误代码（503、404等），然后在站长平台重新抓取
* 修改 robots.txt （这个只建议在上面两个操作过之后补充）

5、全站禁止抓取。如何更有效地运作呢？

有些搜索引擎索引不符合robots.txt，只有在显示时才符合它。也就是说，即使你的robots.txt声明禁止爬行，你也会发现仍然有机器人在爬行。

因此，如果是大目录或者整个站点禁止抓取，建议直接在服务器软件（如nginx）的代码段中判断搜索引擎UA，并返回错误码。这样一方面可以减轻服务器的压力禁止百度收录robots代码，另一方面可以真正做到禁止爬取。

随机内容

成都火锅新口味，辣中带麻，让你回味无穷

值得一试:成都鱼火锅加盟店大揭秘：口感鲜美，环境舒适，价格亲民

科技晚报：支付宝上线 “安全守护” Sprint计划

推荐文章:揭秘百度收录排名：内容质量VS网页结构，胜者为王

成都熊猫亚洲美食节·2019成都美食必吃榜今日新鲜出炉

给力:四川火锅油碟大揭秘：传统VS创新，哪个更香？

重庆火锅料和成都火锅的区别有什么区别？怎么选？

袁记串串香店内装潢简约大气，宽阔的桌椅

中文域名现状分析

四川火锅辣酱大比拼，哪款更辣更香？