就在不久前,谷歌宣布现在它的爬虫能够在页面上索引ajax生成的内容(你只需要遵循一些规则)。但在我的例子中,我需要确保任何搜索引擎都不能让爬行我的ajax生成的内容。因此,问题是:
如何防止搜索引擎索引ajax生成的内容?
谢谢一堆人!
发布于 2015-07-12 17:44:56
一个很好的开端是阅读关于这个主题的Google文档。
如果您没有任何哈希标签,那么就像往常一样在robots.txt中屏蔽这个页面。谷歌应该尊重这一点,但要记住,其他爬虫,尤其是那些知名度较低的爬虫可能不会。
想到的另一个想法是检查AJAX请求上的用户代理。但话又说回来,这并不能防止用户代理欺骗,所以仍然会有一个子集的胭脂爬虫出来,以获取您的敏感内容。
您可能会找到其他解决方案,可能是一种智能的JavaScript黑客,它将阻止大多数爬虫下载您的内容,但是这种方法永远不会可靠或可持续,因为最终会有人致力于制作更好的爬虫程序。
如果您的目标是确保某些内容没有被索引,那么它是否是AJAX并不重要。任何敏感数据都需要隐藏在某种身份验证或图灵测试(如Captcha )后面。
https://stackoverflow.com/questions/31370653
复制相似问题