如何在PhantomJs中使用动态urls抓取网页

、

通过使用简单的硬编码url，它可以很好地工作。var phantomJS = new PhantomJS();但问题是我正在尝试使用动态urls抓取网页 var url

浏览 9提问于2016-07-20得票数 0

1回答

Azure函数中的无头浏览器JavaScript？

、、、

我试过使用幻影，但显然它是不支持的，有没有办法使用javascript中的azure函数来抓取网站呢？

浏览 0提问于2018-12-10得票数 1

回答已采纳

1回答

PythonAnywhere - 'phantomjs.exe‘可执行文件需要在PATH中

、、

其中一个文件使用phantomjs来抓取网页(我上传了文件夹中的Phantomjs.exe和所有其他文件)。selenium.common.exceptions.WebDriverException: Message: 'phantomjs.exe' executable needs to be in PATH所以问题是，如何在PythonAnywhere中将phantomjs.exe添加到PATH中</e

浏览 0提问于2017-09-09得票数 0

1回答

如何动态抓取页面数据？

、、

我已经尝试了几天从一个网站获取一些数据，该网站使用asmx post请求来检索我想要的数据。我已经尝试过php curl，python，现在还有html解析器，但仍然没有成功。

浏览 11提问于2017-07-18得票数 1

2回答

BeautifulSoup不会从网页中提取所有表单

、、、、

我希望从一个给定的网站使用Python3和BeautifulSoup提取所有表单。parser.find_all('form') print(form)如果您运行代码并访问URL，您将注意到解析器没有抓取但是如果我查看页面源代码(Chrome中的Ctrl+U)，源代码只显示BeautifulSoup抓取的三个表单。我如何抓取所有的表单？

浏览 0提问于2017-03-27得票数 2

2回答

如何从命令行运行带有参数化url的自动化测试？

、、、、

我正在使用Python的单元测试、Selenium和PhantomJS创建自动化测试。我会让他们和Jenkins一起运行。因此，可以将urls列表添加到Jenkins。我发现pytest可以进行从命令行获取urls的测试，如所示。但是，我使用的是unittest框架。这样做的主要原因是，我将测试500个网页上的菜单、页眉和页脚。那么，如何从命令行获取urls并将其放入self.driver.get('urls_from_c

浏览 0提问于2017-06-23得票数 0

1回答

抓取不会返回所需的数据

、

我正在尝试从站点获取数据。我希望输入城市“艾哈迈达巴德”和服务号"3031629“，并提取表格，给出账单的详细信息。a<- postForm("https://bill.torrentpower.com/billdetails.aspx", "ctl00$cph1$txtServiceNo" = "3031629",) write(a,file=&

浏览 0提问于2015-02-18得票数 1

1回答

如何在Python中使用线程来解析多个网页？

、、

大多数时候，我要抓取的网页数量都在100个以下，所以使用for循环，我可以在合理的时间内解析它们。但现在我要解析1000多个网页。 driver.get(url)

浏览 1提问于2015-09-10得票数 0

2回答

任何优秀的javascript库，允许爬行网站

、

我需要一个javascript库来爬行一个web应用程序。我找到了这个，但正如作者所声称的，它还处于开发的早期阶段。在谷歌上搜索了很多输入之后，我什么也找不到

浏览 5提问于2014-08-26得票数 0

回答已采纳

2回答

具有多个页面的PhantomJS意外加载行为

、

我有一个脚本(下面)，抓取一个网站与3个步骤的过程。当设置为一次最多1页时，效果很好。然而，当我将其增加到2次时，事情就开始变得不稳定了。我应该补充说，我使用的是最新版本(1.5)。

浏览 0提问于2012-04-27得票数 5

回答已采纳

1回答

PhantomJS -无法使用Tor网络作为代理运行Phantomjs (Orchid正在作为Tor服务运行)

、、

我实际上参与了一个宠物项目，涉及到从网站上抓取数据。我编写的应用程序完全是用java编写的。这个应用程序会运行几个小时，从网页上抓取数据。所以在运行了Tor服务之后，我使用phantomjs来抓取网站。但当我使用Tor.exe执行同样的操作(即启动tor.exe文件，然后尝试使用</e

浏览 0提问于2016-12-19得票数 0

1回答

使用Scrapy从动态网页中抓取urls

、、、、

cat=7提取10000个新闻链接，这个网页是动态的，当我向下滚动更多的链接加载。我尝试过使用selenium，但它不起作用。WebnewsSpider(scrapy.Spider): allowed_domains = ['www.hamariweb.com'] start_urls

浏览 20提问于2019-10-07得票数 1

回答已采纳

1回答

Xpath on request响应返回空列表

、、

我在试着学习网络抓取。我需要从这个页面获取所有的URLs 首先，我需要按最新的优先顺序对条目进行排序，为此，我在代码中复制了getresults_ajax POST请求。即使Chrome控制台中的xpath返回一个有效的结果，我的代码中也会得到一个空列表。我知道复制请求可能很乏味，我使用Selenium和PhantomJS来抓取动态页面，但我需要对内容进行排序，然后从响应中提取数据，这似乎很棘手。r.xpath('//d

浏览 0提问于2016-07-19得票数 2

5回答

如何使用Python将数据输入到网页以抓取结果输出？

、

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

6回答

使用/lxml抓取所有链接

、、、、

在“查看所有类别”选项卡下，您将发现所有主要产品类别。如果将鼠标悬停在任何类别上，它将扩展类别。我想从每一个主要类别的链接。data = urllib2.urlopen(url)#print data l = link.get('href'

浏览 4提问于2014-04-17得票数 1

回答已采纳

1回答

如何从JavaScript中抓取动态变量而不渲染它？

、、

我使用python来抓取网页，但是我需要的关于游戏的数据是由脚本填充的。然后，我转到js web，发现数据存储在一个名为'matchdata‘的动态变量中。我知道有些工具可以渲染javascript，比如scrayjs/PhantomJS，但它们需要

浏览 0提问于2017-10-16得票数 0

1回答

Phantomjs page.content未检索页面内容

、、、、

我使用Phantomjs抓取使用JavaScript和Ajax加载动态内容的网站。如果您通过web浏览器(如chrome)输入URL并阅读页面的源代码(在进行JavaScript和Ajax调用之后的动态源代码)，您将看到web浏览器源代码和Phantomjs源代码完全不同。但在这种情况下，我需要网页浏览器的源代码。通常，这段Phantomjs代码会检索我需要的源代码，但是在这个url(任何其他url)的情况下，<e

浏览 1提问于2014-10-15得票数 1

3回答

动态加载

、、

我知道我可以使用许多方法从一个网页中检索所有的urls，比如“机械化”、BeautifulSoup和许多其他方法。然而，问题是，有些页面可能包含由Javascript加密的urls，或者是从.js文件中加载的urls。在Firefox中，有一个名为"Live“的插件，当您打开这个插件并访问一个网页时，该插件将为您获取已加载到网页中的所有URL。我想在蟒蛇身上做同样的事情，有什么想法吗？PS: I通过<em

浏览 3提问于2015-02-28得票数 1

2回答

使用Python通过AJAX抓取网页

、、

我知道使用Python的Beautiful Soup抓取HTML的基础知识。但是，页面会进行AJAX调用，以获取球员上场时间的数据。(我使用firebug识别了网络调用)。我的问题是:有没有可能使用python来“抓取”这些信息？我需要什么工具，除了HTML我还应该知道什么？(我目前正在阅读有关JavaScript和AJAX的文章)。更新:几天后，我提出了一个在Python语言中结合使用Selenium和PhantomJS的解决方案。基本上，我使用Se

浏览 0提问于2013-11-02得票数 0

1回答

来自PhantomJS的HTTP请求？

、

在我的phantomJS脚本中，在使用幻影抓取HTML内容之前，我想发出一些HTTP请求，以便在Phantom中设置一些变量。从PhantomJS发出HTTP请求的正确方式是什么？我应该使用PageObject并像处理网页一样处理它吗？或者有没有什么XHR功能可以用来做这件事？我想先获取一些Json数据。

浏览 0提问于2013-09-06得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Azure函数中的无头浏览器JavaScript？

PythonAnywhere - 'phantomjs.exe‘可执行文件需要在PATH中

如何动态抓取页面数据？

BeautifulSoup不会从网页中提取所有表单

如何从命令行运行带有参数化url的自动化测试？

抓取不会返回所需的数据

如何在Python中使用线程来解析多个网页？

任何优秀的javascript库，允许爬行网站

具有多个页面的PhantomJS意外加载行为

PhantomJS -无法使用Tor网络作为代理运行Phantomjs (Orchid正在作为Tor服务运行)

使用Scrapy从动态网页中抓取urls

Xpath on request响应返回空列表

如何使用Python将数据输入到网页以抓取结果输出？

使用/lxml抓取所有链接

如何从JavaScript中抓取动态变量而不渲染它？

Phantomjs page.content未检索页面内容

动态加载

使用Python通过AJAX抓取网页

来自PhantomJS的HTTP请求？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐