我编写了一个程序,读取页面的/robots.txt和/sitemap.xml,并对可用的站点地图进行减缩,并将它们存储在siteMapsUnsorted列表中。当我在普通的siteMapIndex上使用它时,这个问题发生在一些较大的站点在压缩格式上有SiteMapIndexes列表的情况下,例如:
Normal sitemapIndexsitemapParser.parseSiteMap(n
我尝试使用PythonGZIP模块来简单地解压缩一个目录中的几个.gz文件。请注意,我不想读取这些文件,只想解压缩它们。在搜索这个站点一段时间后,我有这个代码段,但它不工作:import globfor file in glob.glob(PATH_TO_FILE + "/*.gz"): if os.path.isd
我想解析压缩的站点地图,比如www.example.com/sitemap.xml.gz,并收集站点地图中的所有urls,而不下载sitemap.xml.gz。有一些方法可以在下载sitemap.xml.gz之后解析它,并在lxml或beautifulsoup等帮助下对其进行反压缩。delete sitemap file now
subprocess.call(['rm',