摘要:百度有个规则是判断页面质量,如果多个页面重复内容过多,会被降权,甚至移出索引库。不允许抓取的内容不是因为机器人不遵守,而是从抓取到索引到展现这个过程需要一段时间,当搜索引擎已经抓取了,你才更新,那么之前抓取的是不会那么快删掉的,删除周期并不规律,一般是算法更新后生效的情况多些。
该语句的含义是告诉蜘蛛不要建立索引,可以继续沿路径爬取内容。 我以为这样会删除已经包含的快照,但有网友说这需要等待,而且不知道要等多久。
百度有一个判断页面质量的规则。 如果多个页面有太多重复内容,它们将被降级,甚至从索引数据库中删除。 从索引数据库中删除需要很长时间。 一般来说,调整后的网站索引会有所降低,但幅度不大。 这是因为算法更新后,一些垃圾页面被从索引数据库中删除。 这对于经常进行 SEO 实践的网站来说并不好。 从长远来看这是一件好事禁止百度收录robots代码,垃圾页面会影响网站的排名。
robots和nofollow都可以控制蜘蛛的爬行范围,但用法不同。
机器人协议
告诉蜘蛛什么可以爬行,什么不可以爬行。 原则是:参与排名的将被蜘蛛抓取,不参与或与信息安全相关的将不被抓取。
不关注标签
告诉蜘蛛该页面中的某个链接不可信,不要传递权重。 一般当一个页面的链接较多时(页面会给该页面下的所有链接赋予权重),为了集中页面的权重,会对一些无关紧要的链接进行nofollow控制。
简单来说,nofollow主要是集中某个页面的权重,而robots则控制整个网站的蜘蛛爬行范围。 那么问题来了,为什么蜘蛛经常不遵守我们的机器人协议呢? (有些垃圾蜘蛛根本不遵守robots协议)我们所说的蜘蛛主要指的是百度和谷歌蜘蛛。
①书写错误
robots.txt的写入格式是逐行写入,不能连续写入,如
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/
每条记录都需要另起一行。 每条记录中不允许有空行。 空行用于分隔不同的记录。更正为
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/
很多时候搜索引擎抓取你的robots.txt不允许抓取的内容,并不是因为机器人不遵守,而是因为从抓取到索引到显示的过程需要一段时间。 当搜索引擎抓取到它后,您只需更新它即可。 那么之前抓到的就不会那么快被删除了。 删除周期不规律。 一般是算法更新后生效。
以下是新手可能需要的一些信息。
1、robots.txt怎么写?
各大搜索引擎的站长平台(英文称为webmasters)都有详细的说明和生成工具。
2. 如何确认robots.txt有效?
站长平台有抓取robots.txt的工具,也有“抓取工具”来确认页面是否可以正确抓取。
3. 如何通知搜索引擎robots.txt已更新?
就像上面那样,只需通过站长平台的爬虫工具重新爬取(有时是“更新”)即可。
4、搜索引擎抓取了不该抓取的内容怎么办?
有几种常见的方法:
* 在站长平台的删除链接工具中输入链接并确认删除 * 修改代码使搜索引擎访问时返回错误代码(503、404等),然后在站长平台重新抓取 * 修改 robots.txt (这个只建议在上面两个操作过之后补充)
5、全站禁止抓取。 如何更有效地运作呢?
有些搜索引擎索引不符合robots.txt,只有在显示时才符合它。 也就是说,即使你的robots.txt声明禁止爬行,你也会发现仍然有机器人在爬行。
因此,如果是大目录或者整个站点禁止抓取,建议直接在服务器软件(如nginx)的代码段中判断搜索引擎UA,并返回错误码。 这样一方面可以减轻服务器的压力禁止百度收录robots代码,另一方面可以真正做到禁止爬取。