scrapy 保存html_scrapy 保存mysql_scrapy 保存到mysql - 腾讯云开发者社区

、

我使用scrapy为我的爬虫，它是完美的工作，但我需要保存整个html文件从我正在编写的csv文件分开。我不知道如何保存我正在解析的整个html文件。import scrapyimport csv data

浏览 1提问于2018-09-12得票数 0

1回答

Scrapy-递归地抓取网页并将内容保存为html文件

我正在使用scrapy提取网页标签中的信息，然后将这些网页保存为HTML files.Eg 这个网站有一些与司法案件有关的网页。我想转到每个链接，只保存与特定司法案件相关的内容作为HTML page.eg。转到此，然后保存与案件相关的信息。有没有一种方法可以递归地在scrapy中执行此操作，并将内容保存在HTML页面中

浏览 1提问于2013-07-05得票数 3

回答已采纳

1回答

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

3回答

Scrapy Shell和Scrapy Splash

、、、、

我们一直在使用通过运行在docker容器中的Splash javascript引擎传递抓取的HTML源代码。self.parse_result, meta={ 'args': { 'html但是，如何在中使用scrapy-splash呢

浏览 3提问于2016-02-12得票数 23

回答已采纳

1回答

将html元素保存到html文件中

、、

我想将div元素class="col-md-12博客-数据“(包含图像)保存到html文件中。我应该把response.css放在哪里？我对蟒蛇和刮痕很陌生。import scrapy name = "quotes" urls= [

浏览 2提问于2018-05-25得票数 0

回答已采纳

1回答

在保存到磁盘之前，如何更改由Scrapy爬行的网页的一部分？

、

在Scrapy蜘蛛的parse()方法中，我们可以在response上使用css()方法来获取所需的信息。例如，我们可以使用response.css("#container")获取以下HTML片段。</div><div id="container&quo

浏览 0提问于2020-10-12得票数 0

回答已采纳

1回答

从解析结果中抓取链接列表

以下是我的当前代码： from scrapy.linkextractorsimport LinkExtractor from scrapy import'] 'http:&#x

浏览 2提问于2017-05-08得票数 1

回答已采纳

1回答

网络爬行:用-o file.json作为utf-8保存python文件:输出显示字符\u00a9

、、、、

使用scrapy爬虫，我尝试从html页面提取数据，并使用命令行将输出保存为json文件：在我使用的代码中 yield { } 但是它使用\u00a0和类似的字符保存数据

浏览 1提问于2019-02-12得票数 1

回答已采纳

2回答

使用scrapy提取大量登录页面的原始html内容

、、

对于一个分类项目，我需要大约1000个网站的原始html内容。我只需要登录页面，而不是更多，所以爬虫不必遵循链接！我想为它使用scrapy，但我无法获得代码。因为我在文档中读到JSON文件首先存储在内存中，然后保存(这会在抓取大量页面时导致问题)，所以我想以“.js”格式保存文件。我使用Anaconda提示来执行我的代码。我希望生成的文件有两列，一列是域名，另一列是每个站点上的raw_html内容 domain, html_raw ..., ...这是我得到的结果:

浏览 10提问于2019-02-12得票数 0

回答已采纳

1回答

使用Scrapy存档页面

、

我刚刚开始玩Scrapy，我现在的目标是构建一个网页归档工具。 name = "testbot" filena

浏览 2提问于2016-12-06得票数 0

1回答

如何使用只包含匿名密码字段的登录表单刮取特定的网页，然后将值提交给ajax？用硒？

、、、

我对还不熟悉，到目前为止，我还需要这样做： name = 'example' for sku in self.skus: yield scrapy.Request(url='http://www.flas

浏览 3提问于2017-12-18得票数 0

1回答

刮除-每个星形单独的输出文件

、、、、

我有一只皮肤粗糙的蜘蛛运行良好：import scrapy start_urls = ['http://www.exampleregelwiki.de/index.php/categoryA.html','http:/

浏览 0提问于2017-11-18得票数 3

1回答

用刮伤下载整页

、、、、

就像在浏览器中保存页面一样。如果不可能使用Scrapy，我还能使用什么？

浏览 0提问于2018-10-18得票数 1

回答已采纳

2回答

使用Scrapy fetch命令自动将看到的html写入文件？

我还处于学习scrapy的早期阶段。当我开始使用新页面时，我将进入cmd提示符并输入例如它将立即在cmd框中显示该页面的完整html。然后我手动高亮显示，复制并粘贴到记事本中，以检查我想要抓取的信息是否在那里，因为我发现一些网站无法完全用scrapy查看。一定有比手动复制和粘贴到记事本更简单的方法。有没有一个命令修饰符可以添加到fetch命令中，让它将html保存到文件中？

浏览 1提问于2020-03-01得票数 0

1回答

刮擦-Splash不呈现此页面

、、、、

': 723, 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware= 'scrapy_splash.SplashAwareDupeFilter' HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

浏览 0提问于2018-07-20得票数 1

1回答

如何在scrapy-splash中同时返回png和html？

、、

如果我有一个从scrapy-splash请求返回的html和png，如何在使用png保存png图像的同时使用该html抓取元素？我可以写response.html和response.png吗？

浏览 14提问于2020-08-11得票数 1

1回答

爬虫获取有关页面的信息(Scrapy)

、

如何实现获取页面所有信息的爬虫(使用SCRAPY)。例如，图像大小、CSS文件大小和保存在.txt文件中(page1.txt，page2.txt)class TestSpider(scrapy.Spider): start_urls = ["http://www.example.com/page1.html", "http://www.example.com

浏览 3提问于2017-07-01得票数 0

回答已采纳

3回答

从xml中提取HTML

、、

我想从xml文件中提取html页面。有什么想法吗？ <first> </second> <html>.....some html code here </xhtml> 我想提

浏览 1提问于2013-04-15得票数 0

1回答

将值传递给刮伤回调。

、

对于其中的每一个，它将进行一个回调，即将文本响应保存到磁盘，并使用crawerItem存储有关页面的一些元数据。我希望有人能帮我弄清楚怎么通过 import scrapyfrom scrapy.linkextractors import LinkExtractors

浏览 2提问于2016-06-02得票数 1

1回答

提交用Scrapy动态呈现的表单？

、、、、

我正在尝试使用Scrapy提交一个动态生成的用户登录表单，然后解析对应于成功登录的页面上的HTML。我想知道我怎么能用Scrapy或者Scrapy和Selenium的组合来做到这一点。Selenium使在DOM上找到元素成为可能，但我想知道在获得完整的HTML之后是否可以“将控制权还给Scrapy”，以便使它能够执行表单提交并保存必要的cookie、会话数据等，以便抓取页面。基本上，我认为Selenium是必要的唯一原因是，在Scrapy查找<

浏览 2提问于2015-03-21得票数 1

回答已采纳

点击加载更多