首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Robots.txt命令

Robots.txt命令
EN

Server Fault用户
提问于 2010-02-19 19:21:03
回答 7查看 190关注 0票数 1

我在www.example.com/A/B/C/NAME (A,B,C更改,名称是静态的)上有一堆文件,我基本上想在robots.txt中添加一个命令,这样爬虫就不会跟随任何在末尾有名字的链接。

在robots.txt中使用的最佳命令是什么?

EN

回答 7

Server Fault用户

发布于 2010-02-19 19:27:06

这是做不到的。没有官方的robots.txt标准,这实际上只是一个惯例,不同的网络爬虫正在努力尊重和正确解释。

但是Googlebot支持通配符,所以您可以有这样的部分:

代码语言:javascript
运行
复制
User-agent: Googlebot
Disallow: /*NAME

由于大多数网络爬虫无法正确解释通配符,谁也不知道他们是如何解释通配符的,因此可能只为googlebot隔离这条规则是安全的,但我认为,到目前为止,每个大型搜索引擎都可以支持通配符,而谷歌在搜索中所做的一切都已成为事实上的标准。

票数 4
EN

Server Fault用户

发布于 2010-02-19 19:20:43

代码语言:javascript
运行
复制
    User-agent: googlebot
    Disallow: /*NAME

    User-Agent: slurp
    Disallow: /*NAME
票数 1
EN

Server Fault用户

发布于 2010-02-19 19:22:16

不幸的是,您不能在“不允许”行中幸灾乐祸,因此没有通配符。对于要排除的每个目录,您都需要有一个不允许行。

代码语言:javascript
运行
复制
User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/

这是不幸的,但标准是非常简单的,这是需要这样做的。还请注意,您必须有尾随/在您的不允许行。这是一个相当好的使用robots.txt参考资料

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/114738

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档