摘要:如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。禁止搜索引擎跟踪网页的链接,而只对网页建索引
什么是 robots.txt 文件?
搜索引擎利用蜘蛛程序自动访问互联网上的网页并获取网页信息。 当蜘蛛访问一个网站时,它首先会检查网站根域下是否有一个名为robots.txt的纯文本文件。 该文件用于指定蜘蛛在您网站上的爬行范围。 您可以在网站中创建 robots.txt,并在文件中声明您不希望搜索引擎包含的网站部分或指定搜索引擎仅包含特定部分。
请注意,仅当您的网站包含您不希望搜索引擎编制索引的内容时,您才需要使用 robots.txt 文件。 如果您希望搜索引擎包含您网站上的所有内容,请勿创建 robots.txt 文件。
robots.txt 文件位于哪里?
robots.txt文件应放置在网站的根目录下。 例如,当蜘蛛访问一个网站时(例如),它会首先检查该文件是否存在于该网站中。 如果蜘蛛找到了该文件,它就会根据该文件的内容来确定其访问权限的范围。
阅读步骤
我已经在robots.txt中设置禁止百度收录我网站的内容。 为什么它仍然出现在百度搜索结果中?
如果其他网站链接到您在 robots.txt 文件中设置的禁止网页,这些网页仍可能出现在百度的搜索结果中,但您网页上的内容不会被抓取、索引和显示。 ,百度搜索结果中显示的只是其他网站对您相关网页的描述。
阻止搜索引擎跟踪网页链接并仅对其进行索引
如果您不希望搜索引擎跟踪此页面上的链接并且不传递链接的权限禁止百度收录robots代码,请将此元标记放在页面的此部分中:
如果你不想让百度跟踪某个特定链接,百度还支持更精准的控制。 请直接将此标记写在链接上:
登入
要允许其他搜索引擎跟踪,但仅阻止百度跟踪指向您页面的链接,请将此元标记放置在页面的此部分中:
阻止搜索引擎在搜索结果中显示网页快照,仅对网页进行索引
要防止所有搜索引擎显示您网站的快照,请将此元标记放置在页面的此部分中:
要允许其他搜索引擎显示快照,但仅阻止百度显示它,请使用以下标签:
注意:该标签仅阻止百度显示网页快照。 百度将继续索引该网页并在搜索结果中显示网页片段。
如何禁止百度图片搜索包含某些图片?
要禁止Baiduspider抓取网站上的所有图片,或者禁止或允许Baiduspider抓取网站上某种格式的图片文件,可以设置robots.txt。 请参考“Robots.txt文件使用示例”中的示例10、11和12。
robots.txt 文件的格式
“robots.txt”文件包含一条或多条由空行分隔的记录(以 CR、CR/NL 或 NL 结尾)。 每条记录的格式如下:
“:”
可以使用#来注释该文件,具体使用方法与UNIX中的约定相同。 该文件中的记录通常以一行或多行 User-agent 开头,后面是几行 Disallow 和 Allow 行。 详情如下所示:
用户代理:
此项的值用于描述搜索引擎机器人的名称。 在“robots.txt”文件中,如果有多个User-agent记录,则意味着“robots.txt”将限制多个机器人。 对于此文件,必须至少有一个用户代理记录。 如果此项的值设置为*,则对任何机器人都有效。 在“robots.txt”文件中,只能有一条记录,如“User-agent:*”。 如果将“User-agent:SomeBot”和几行“Disallow”和“Allow”添加到“robots.txt”文件中,则名称“SomeBot”仅受“User-agent:SomeBot”后面的“Disallow”和“Allow”行的限制。
不允许:
此项的值用于描述一组您不希望被访问的 URL。 该值可以是完整路径或路径的非空前缀。 机器人将不会访问以“禁止”项的值开头的 URL。 例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html和/help /index.html,而“Disallow:/help/”则允许机器人访问/help.html和/helpabc .html。 访问/help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL。 “/robots.txt”文件中必须至少有一条禁止记录。 如果“/robots.txt”不存在或者是空文件,则该网站对所有搜索引擎机器人开放。
允许:
此项的值用于描述一组期望访问的URL。 与Disallow项类似,该值可以是完整路径或路径前缀。 以“允许”项的值开头的 URL 允许机器人访问。 例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。 网站上的所有 URL 默认都是“允许”禁止百度收录robots代码,因此“允许”通常与“禁止”结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。
使用“*”和“$”:
Baispider支持使用通配符“*”和“$”来模糊匹配URL。
“$”匹配行终止符。
“*”匹配0个或多个任意字符。
注:我们将严格遵守机器人的相关协议。 请注意区分不希望被抓取或包含的目录的大小写。 我们会准确地将robots中编写的文件与您不希望被爬取和包含的目录进行匹配。 否则,机器人协议无法生效。
URL匹配示例
阅读步骤
robots.txt 文件的使用示例
阅读步骤
阅读步骤
阅读步骤
结尾
申请创业报告,分享创业好点子。 点击这里一起讨论新的创业机会!