这可能是一个模糊的问题,但它看起来像是某个机器人正在抓取我的网站,而且做得非常糟糕。它似乎是从我的应用程序js文件中猜测It,并将其放入urls中,例如:
Couldn't find Post with id=keypress
更奇怪的是,HTTP引用被列为application.js。
以前有没有人经历过这种情况?有什么办法阻止这些爬虫吗?
我的团队一直在使用Sharepoint 2010抓取大量外部网站。
Sharepoint web爬虫没有提供足够的可配置性,因此我们一直使用快速web爬虫来运行爬虫。
但是,在Sharepoint 2013中,FAST web crawler似乎已被弃用/与Sharepoint web crawler合并。
我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗?