我有下面的robots.txt
User-Agent: *
Disallow:
User-Agent: Googlebot
Allow: /
我上周做了这个改变,当我在谷歌上搜索我的域名时,我仍然可以得到A description for this result is not available because of this site's robots.txt。我做错了什么吗?谷歌每隔多长时间进入一个域名?
我正在编写蜘蛛,这将爬行约1000个域。我在想,如果有任何方法来跟踪域名爬行的数量。因为在一个使用进程中抓取1000个域名需要很长时间。
如果我可以跟踪域名的数量过程,那么我可以触发一些任务,如发送电子邮件后爬行的100个域名的1000。
我试着在网上找,但找不到相关的信息。
如果有人知道什么方法,请告诉我。如果我找不到任何方法,那么我必须跟踪urls爬行的数量。但这将是一件好事,如果域名的数量可以跟踪。
class MySpider(CrawlSpider):
name = 'alok2'
# 'list.txt' file have doma