阿开 2021-04-22 10:53:23 21206 0 0 0 0

本文告诉你，如何配置robots.txt文件，让你详细了解robots.txt的标准格式。

我们先来了解一下什么是robots.txt？

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt，在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。

Google，雅虎，微软合作，共同遵守统一的Sitemaps标准。又同时宣布，共同遵守的robots.txt文件标准。Google，雅虎，微软各自支持的robots.txt文件及Meta标签的标准，以及一些各自特有的标准。

特别说明：
360比较无耻，它不会遵守你设定的限制！如果你设置了一些禁止抓取的内容，你会发现在360上仍然会出现。
不知道现在有没有改进。反正2年前我的网站有一个目录设置了禁止抓取，百度，google都遵守了，但还是被360抓取了。。。。
360的流氓，绝对不是浪得虚名的！

下面做一个总结。

三家都支持的robots文件记录包括：
Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件：
User-agent: *
Disallow: /
Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件，而只抓取其中cd下的文件：
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL：
User-agent: *
Allow: .htm$
*通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件：
User-agent: *
Disallow: /*.htm
Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里，格式为：
Sitemap: <sitemap_location>

三家都支持的Meta标签包括：
NOINDEX - 告诉蜘蛛不要索引某个网页。
NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。
NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。
NOARCHIVE - 告诉蜘蛛不要显示快照。
NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。
上面这些记录或标签，现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow，Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。

只有Google支持的Meta标签有 ：
UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时候过期。在这个日期之后，不应该再出现在搜索结果中。
NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。
NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。

雅虎还支持Meta标签 ：
Crawl-Delay - 允许蜘蛛延时抓取的频率。
NOYDIR - 和NOODP标签相似，但是指雅虎目录，而不是开放目录。
Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分，或者换个角度，告诉蜘蛛哪些部分是页面的主要内容（想被检索的内容）。

MSN还支持Meta标签 ：
Crawl-Delay
另外提醒大家注意的是，robots.txt文件可以不存在，返回404错误，意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时 之类的错误，可能导致搜索引擎不收录网站，因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容，这与确认文件不存在是不一样的。

另：

robots.txt 放置位置
robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站(比如http://www.ubangmang.com)时，首先会检查该网站中是否存在http://www.ubangmang.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

robots.txt 格式
文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)，每一条记录的格式如下所示：”:”。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下。
User-agent:
该项的值用于描述搜索引擎robot的名字。
在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。 
如果该项的值设为*，则对任何robot均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。
如果在”robots.txt”文件中，加入”User- agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。 

--Disallow:
该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被robot访问。
例如”Disallow: /help”禁止robot访问/help*.html、/help/index.html， 而”Disallow: /help/”则允许robot访问/help*.html，不能访问/help/index.html。
"Disallow:"说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一条Disallow记录。
如果”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow:
该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。
例如”Allow:/hibaidu” 允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。
一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。
使用”*”和”$”： Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。

robots.txt文件用法举例：
1. 允许所有的robot访问
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页，禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片，不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$

【版權聲明】
本文爲原創，遵循CC 4.0 BY-SA版權協議！轉載時請附上原文鏈接及本聲明。
原文鏈接：https://tdlib.com/am.php?t=9CSo207dqcN2

Tag:

還沒有評論，快來搶沙發吧！ ↓

我也要發一個 · 返回首頁 · 返回[网站技术] · 前一個 · 下一個