我在www.example.com/A/B/C/NAME (A,B,C更改,名称是静态的)上有一堆文件,我基本上想在robots.txt中添加一个命令,这样爬虫就不会跟随任何在末尾有名字的链接。
在robots.txt中使用的最佳命令是什么?
发布于 2010-02-19 19:27:06
这是做不到的。没有官方的robots.txt
标准,这实际上只是一个惯例,不同的网络爬虫正在努力尊重和正确解释。
但是Googlebot支持通配符,所以您可以有这样的部分:
User-agent: Googlebot
Disallow: /*NAME
由于大多数网络爬虫无法正确解释通配符,谁也不知道他们是如何解释通配符的,因此可能只为googlebot隔离这条规则是安全的,但我认为,到目前为止,每个大型搜索引擎都可以支持通配符,而谷歌在搜索中所做的一切都已成为事实上的标准。
发布于 2010-02-19 19:20:43
User-agent: googlebot
Disallow: /*NAME
User-Agent: slurp
Disallow: /*NAME
发布于 2010-02-19 19:22:16
不幸的是,您不能在“不允许”行中幸灾乐祸,因此没有通配符。对于要排除的每个目录,您都需要有一个不允许行。
User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/
这是不幸的,但标准是非常简单的,这是需要这样做的。还请注意,您必须有尾随/在您的不允许行。这是一个相当好的使用robots.txt参考资料。
https://serverfault.com/questions/114738
复制相似问题