在一个now服务器上,我现在必须调整一下,我注意到robots.txt是空的。我想知道空的robots.txt和根本没有文件之间是否有区别。
在这两种情况下,爬虫的行为会有所不同吗?那么,只删除一个空的robots.txt安全吗?
发布于 2015-03-06 10:01:57
在这两种情况下,爬虫的行为会有所不同吗?
一个空的robots.txt文件和一个找不到的文件并没有什么不同,两者都不允许爬行。
但是,当爬虫程序请求404
文件时,您可能会在服务器日志中收到许多robots.txt错误,如本问题这里中所示。
那么,只删除一个空的robots.txt安全吗?
是的,有以上的警告。
发布于 2015-03-06 10:01:23
不是的。没什么区别。
服务器日志中会出现404个错误,如果你订阅了Google Web Master工具之类的东西,它可能会告诉你没有,但就爬虫机器人的行为而言--对于任何你关心的机器人来说,它们都是一样的。
发布于 2022-03-15 06:26:25
我不知道这是什么时候开始的,但是如果没有,WordPress会自动生成robots.txt。在我看来,这是一个可怕的变化。在我的例子中,自动生成的WordPress robots.txt文件将机器人发送到我的管理页面(?!)这最终在DuckDuckGo中被索引了,非常奇怪。
WordPress创建了某种配置“筛选器” robots.txt行为,但是我找不到任何代码将WordPress完全排除在robots.txt之外;和( b)即使我能够编写一些代码,一次只影响一个主题和一个博客。
我想说这是WordPress中的一个缺陷,假设我们都想要一个自动生成的robots.txt文件。
创建一个“空白”robots.txt迫使WordPress远离我的业务,并向机器人发送适当的消息。
简而言之,如果您看到一个空白的robots.txt用于WordPress博客(或其他一些软件),这可能是原因:防止比空白文件更糟糕的东西的自动生成。
https://webmasters.stackexchange.com/questions/77837
复制相似问题