摘要:如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。
防止搜索引擎跟踪网页链接并仅对网页建立索引。 如果您不希望搜索引擎跟踪此网页上的链接并且不传递链接的权限,请将此元标记放在网页的 HEAD 部分:metaname="robots" content="nofollow" 如果您不这样做想让百度跟踪特定的链接,百度也支持更精准的控制。 请直接将此标签写在链接href="signin.php" rel="nofollow"符号上,以允许其他搜索引擎跟踪,但仅阻止百度跟踪您网页的链接。 请将这个元标记放在网页的HEAD部分:metaname="Baiduspider" content="nofollow" 禁止搜索引擎在搜索结果中显示网页快照,但仅限于网页。 索引 要防止所有搜索引擎显示您网站的快照,请将此元标记放在页面的 HEAD 部分:metaname="robots"content="noarchive" 允许其他搜索引擎显示快照,但仅阻止百度要显示它禁止百度收录robots代码,请使用以下标签:metaname="Baiduspider" content="noarchive" 注意:此标签仅阻止百度显示网页快照。 百度将继续对该网页进行索引,并在搜索结果中显示该网页的摘要。 我想阻止百度图片搜索包含某些图片。 我该如何设置? 要禁止Baiduspider抓取网站上的所有图片,或者禁止或允许Baiduspider抓取网站上某种格式的图片文件,可以设置robots.txt。 请参考“Robots.txt文件使用示例”中的示例10、11和12。
我已经在robots.txt中设置禁止百度收录我网站的内容。 为什么它仍然出现在百度搜索结果中? 如果其他网站链接到您在 robots.txt 文件中设置的禁止网页,这些网页仍可能出现在百度的搜索结果中,但您网页上的内容不会被抓取、索引和显示。 ,百度搜索结果中显示的只是其他网站对您相关网页的描述。 robots.txt文件的格式“robots.txt”文件包含一条或多条记录,记录之间用空行分隔(以CR、CR/NL、NL为终止符)。 每条记录的格式如下:“字段:可选空间值可选空间”。 可以使用#来注释该文件,具体使用方法与UNIX中的约定相同。 该文件中的记录通常以一行或多行 User-agent 开头,后面是几行 Disallow 和 Allow 行。 具体如下: User-agent:此项的值用于描述搜索引擎机器人的名称。 在“robots.txt”文件中,如果有多个User-agent记录,则意味着“robots.txt”将限制多个机器人。 对于此文件,必须至少有一个用户代理记录。 如果此项的值设置为*,则对任何机器人都有效。 在“robots.txt”文件中,只能有一条记录,如“User-agent:*”。
如果将“User-agent:SomeBot”和几行“Disallow”和“Allow”添加到“robots.txt”文件中,则名称“SomeBot”仅受“User-agent:SomeBot”后面的“Disallow”和“Allow”行的限制。 Disallow:此项的值用于描述一组您不希望被访问的 URL。 该值可以是完整路径或路径的非空前缀。 机器人将不会访问以“禁止”项的值开头的 URL。 例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html和/help/index.html,而“Disallow:/help/”则允许机器人访问/help.html和/helpabc .html。 访问/help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL。 “/robots.txt”文件中必须至少有一条禁止记录。 如果“/robots.txt”不存在或者是空文件,则该网站对所有搜索引擎机器人开放。 允许:此项的值用于描述一组期望访问的URL。 与Disallow项类似,该值可以是完整路径或路径前缀。 以“允许”项的值开头的 URL 允许机器人访问。 的。
例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。 网站上的所有 URL 默认都是“允许”,因此“允许”通常与“禁止”结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。 请务必注意,Disallow 和Allow 行的顺序是有意义的。 机器人将根据第一个匹配的“允许”或“禁止”行确定是否访问 URL。 使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配URL。 匹配 0 个或多个任意字符。 URL 匹配示例允许或不允许 URL 匹配结果 /tmp/tmpyes/tmp/tmp.htmlyes/tmp/tmp/a.htmlyes/tmp//tmp/tmp//tmphoho/tmp//tmp/a.html yes /Hello* / Hello .html 是 /He*lo /Hello,lolo 是 /Heap*lo /Hello,lolo html$/tmpa.html 是 /a.html$ /a.html 是 htm$ /a.html 10.robots.txt 文件 用法示例禁止所有搜索引擎访问网站的任何部分 User-agent:允许所有机器人访问(或者您可以创建一个空文件“/robots.txt”) User-agent:不允许:或 User-agent:仅禁止Baiduspider访问您的网站 用户代理:Baiduspider 禁止:仅允许 Baiuspider 访问您的网站 用户代理:Baiduspider 禁止:用户代理:禁止蜘蛛访问特定目录。 在此示例中,该网站具有搜索引擎无法访问的三个目录。 限制,即机器人不会访问这三个目录。
需要注意的是,每个目录都要单独声明,不能写“Disallow:/cgi-bin/ /tmp/”。 用户代理:不允许:/cgi-bin/ 不允许:/tmp/ 不允许:/~joe/ 允许访问特定目录中的某些 url 用户代理:允许:/cgi-bin/see 允许:/tmp/hi 允许: / ~joe/look Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 使用“*”限制对URL的访问,禁止访问/中所有以“.htm”为后缀的URL cgi-bin/ 目录(包含子目录)。 User-agent: Disallow:/cgi-bin/*.htm 使用“$”限制对URL的访问,仅允许访问以“.htm”为后缀的URL。 User-agent:Allow:.htm$ Disallow:禁止访问网站中的所有动态页面 User-agent:示例10.禁止Baiduspider抓取网站上的所有图片。 只允许抓取网页禁止百度收录robots代码,禁止抓取任何图片。 用户代理:Baiduspider Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.png$ Disallow: /*.bmp$ 示例 11. 只允许 Baiuspider 抓取网页允许捕获网页和.gif 格式图像,但不允许捕获其他格式图像 用户代理:Baiduspider 允许:/*.gif$ 不允许:/*.jpg$ 不允许:/*。 jpeg$ Disallow: /* .png$ Disallow: /*.bmp$ 示例 12. 仅禁止 Baispider 抓取 .jpg 格式图片 User-agent: Baiuspider Disallow: /*.jpg$ 11. Robots.txt 文件参考 更多具体设置robots.txt文件请参考以下链接:http://.robotstxt/meta.html 12.robots.txt在线生成网站 三国在线亲子奉献网址:ASEO专门制作