使用Scrapy和Python抓取JS生成的内容

文章/答案/技术大牛

发布

1回答

、

有一个网页是用JS：生成的默认情况下，scrapy只获取超文本标记语言，而不执行JS。我怎样才能改变它？

浏览 14提问于2018-01-16得票数 0

回答已采纳

1回答

使用scrapy从facebook中抓取数据

、、、

facebook上的新图表搜索允许您使用查询令牌搜索一家公司的现有员工- Current Google (例如)。import sysfrom scrapy.ht

浏览 3提问于2013-05-31得票数 5

1回答

为了与html页面进行交互，我试图把一些我需要的插件集合在一起。我需要的范围从简单的浏览和与按钮或网页链接(如“在这个文本框中写一些文本并按这个按钮”)进行交互，到解析html页面和向服务器发送自定义get/post消息。我正在使用Python3，到目前为止，我有Request用于简单的网页加载、自定义get和post消息，BeautifulSoup用于解析HTML树，我正在考虑尝试机械化来进行简单的网页交

浏览 3提问于2014-04-17得票数 1

回答已采纳

1回答

用Python抓取加载AJAX的网站，我应该使用哪个url？

、、、、

我刮过以下网站:使用Selenium的。我正在搜集所有的表格数据。它运行得很好，但是运行脚本需要相当长的时间。因此，我开始搜索替代方案，并在StackOverflow上使用API向服务器发送请求，但经过几个小时的尝试和搜索(例如，我放弃了)，因为我没有得到一些东西： import json url = "htt

浏览 4提问于2017-11-25得票数 1

4回答

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

、、

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的末尾停止

浏览 1提问于2013-05-09得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

使用Scrapy和selenium抓取网站

、、

我打算用Scrapy在上抓取html内容。我想先进入ntry.com，然后单击一个名为的锚点转到 <div id="wrap"> <div id="href=&qu

浏览 2提问于2016-11-26得票数 0

1回答

如何在Spyder或VScode中使用Scrapy

、

我想在Spyder中使用Scrapy，而不是通过终端/shell使用它。我是一个windows用户，Scrapy版本1.8.0，pyhton 3.7.3，我正面临着BeautifulSoup的问题。例如，我试图从一个网站获取一个产品的价格，问题是它并不总是得到数据，但Scrapy在这里通过使用CSS选择器工作得很好。所以我想将Scrapy与Spyder或Vscode一起使用，因为我还有其他依赖于Sc

浏览 69提问于2019-12-14得票数 0

回答已采纳

1回答

不确定在Anaconda平台上加载Scrapy的位置

、

当涉及到抓取网站的话题时，我太天真了。到目前为止，我已经从预先生成的数据集中手动抓取或抓取数据。不过，我想解决一个分析问题，由于其规模，这个问题需要解决。因此，我决定尝试学习如何在python中刮刮。Scrapy是我被推荐使用的工具，所以这也是我将要使用的工具。我正在尝试按照教程加载我的第一个Scrapy项目，但遇到了一个障碍。当我尝试在Spyder中输入启动项

浏览 13提问于2020-01-29得票数 0

1回答

PHP cURL vs Python* Scrapy？*

、、

我已经开始使用Python Scrapy抓取网站数据，尽管我在PHP cURL方面有丰富的经验。我不知道哪个更适合抓取数据和操作返回值，以及速度和内存使用情况。Python Scrapy中的(yield)函数应该做些什么呢？

浏览 0提问于2013-05-21得票数 0

1回答

如何在旋转代理中使用scrapy* splash？*

、、、、

我仅通过使用以下内容作为请求才能成功抓取js内容。def start_requests(self): yield scrapy.Request(, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}

浏览 10提问于2017-08-14得票数 1

1回答

Scrapy dmoz教程，csv文件中没有desc的数据。

、、

我按照Scrapy官方网站上的dmoz教程来抓取Python书籍和资源的标题、链接和描述。在本教程中，我使用了完全相同的蜘蛛，内容如下：from tutorial.items import DmozItem

浏览 3提问于2015-10-07得票数 1

回答已采纳

2回答

使用python* scrapy抓取动态内容*

、

我想抓取这个链接中的“日历”内容：我想知道我是否可以在不使用selenium的情况下使用python scrapy来抓取这些内容。因为我无法从网络选项卡中找到任何信息。谢谢!

浏览 0提问于2017-11-15得票数 0

1回答

Scrapy:如何开始从使用Javascript的搜索结果中抓取数据

、、

我是新手使用scrapy和python我想开始从搜索结果中抓取数据，如果你会加载页面默认内容将会出现，我需要抓取的是过滤后的内容，同时做分页？下面是我需要从时间过滤器中抓取项目的URL："Today“我所做的就是这些，但更多的是关于布局结构。class TmcnfSpider(scrapy<

浏览 1提问于2019-05-10得票数 0

1回答

可以将pyexecjs与scrapy一起使用吗？

、、、、

不久前我偶然发现了pyexecjs，我想知道它是否可以与scrapy一起用于抓取JS生成的数据。我检查了应该如何使用该库的示例，但我不确定如何将其与scrapy集成。

浏览 4提问于2014-10-12得票数 0

1回答

如何将javascript呈现模块集成到scrapy中？

、、、

我正在做一个网络抓取程序，但我遇到了一个问题，使用刮擦与javascript生成的内容。我知道scrapy不是为进行这种类型的抓取而构建的，但我一直试图使用或来完成我所需要的工作。但是，我无法让这两个模块中的任何一个正确地使用scrapy。我的问题是，如果有人有一个最小的示例，他们可以显示使用

浏览 0提问于2014-02-04得票数 4

回答已采纳

1回答

端口web刮刀，刮0.24，到python* 3。或者使用更好的东西。*

、、

我试图使用来制作一个web刮刀，但是我遇到了很多问题，因为它使用了Python2。可以在tarball中的所有文件上同时运行2to3命令吗？这会不会导致看不见的错误？是否有一个可供选择的网页刮板框架，是更最新的，更多的功能，可能会被推荐替代？我这么说是因为在表单上似乎没有太多关于运行scrapy版本0.24所固有问题的活动，也就是说，它是用python 2编写的。如果scr

浏览 1提问于2015-02-08得票数 1

回答已采纳

2回答

在web服务器上使用java内容的抓取

、、

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题、匹配名和赔率。

浏览 3提问于2016-01-28得票数 1

回答已采纳

3回答

用python刮网站

、、、、

我试图在网上刮一个网站，以获取价格和标题从它。我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。

浏览 1提问于2020-06-09得票数 1

回答已采纳

1回答

Python -我尝试过使用scrapy抓取项目，但是图像链接没有抓取

、、

我刚接触python和网络抓取，我试着从这个网站抓取内容，但我无法获得图像时，我运行的爬虫。下面是spider.py： class TestSpiderSpider(scrapy.Spider):page_number = 2 items['product_imagelink'] = p

浏览 33提问于2020-11-09得票数 0

回答已采纳

点击加载更多