腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7094)
视频
沙龙
1
回答
如
何在
PhantomJs
中
使用
动态
urls
抓取
网页
、
通过
使用
简单的硬编码url,它可以很好地工作。var
phantomJS
= new
PhantomJS
();但问题是我正在尝试
使用
动态
urls
抓取
网页
var url
浏览 9
提问于2016-07-20
得票数 0
1
回答
Azure函数
中
的无头浏览器JavaScript?
、
、
、
我试过
使用
幻影,但显然它是不支持的,有没有办法
使用
javascript
中
的azure函数来
抓取
网站呢?
浏览 0
提问于2018-12-10
得票数 1
回答已采纳
1
回答
PythonAnywhere - '
phantomjs
.exe‘可执行文件需要在PATH
中
、
、
其中一个文件
使用
phantomjs
来
抓取
网页
(我上传了文件夹
中
的
Phantomjs
.exe和所有其他文件)。selenium.common.exceptions.WebDriverException: Message: '
phantomjs
.exe' executable needs to be in PATH所以问题是,如
何在
PythonAnywhere中将
phantomjs
.exe添加到PATH
中</e
浏览 0
提问于2017-09-09
得票数 0
1
回答
如何
动态
抓取
页面数据?
、
、
我已经尝试了几天从一个网站获取一些数据,该网站
使用
asmx post请求来检索我想要的数据。我已经尝试过php curl,python,现在还有html解析器,但仍然没有成功。
浏览 11
提问于2017-07-18
得票数 1
2
回答
BeautifulSoup不会从
网页
中提取所有表单
、
、
、
、
我希望从一个给定的网站
使用
Python3和BeautifulSoup提取所有表单。parser.find_all('form') print(form)如果您运行代码并访问URL,您将注意到解析器没有
抓取
但是如果我查看页面源代码(Chrome
中
的Ctrl+U),源代码只显示BeautifulSoup
抓取
的三个表单。 我如何
抓取
所有的表单?
浏览 0
提问于2017-03-27
得票数 2
2
回答
如何从命令行运行带有参数化url的自动化测试?
、
、
、
、
我正在
使用
Python的单元测试、Selenium和
PhantomJS
创建自动化测试。我会让他们和Jenkins一起运行。因此,可以将
urls
列表添加到Jenkins。我发现pytest可以进行从命令行获取
urls
的测试,
如
所示。 但是,我
使用
的是unittest框架。这样做的主要原因是,我将测试500个
网页
上的菜单、页眉和页脚。那么,如何从命令行获取
urls
并将其放入self.driver.get('
urls
_from_c
浏览 0
提问于2017-06-23
得票数 0
1
回答
抓取
不会返回所需的数据
、
我正在尝试从站点获取数据。我希望输入城市“艾哈迈达巴德”和服务号"3031629“,并提取表格,给出账单的详细信息。a<- postForm("https://bill.torrentpower.com/billdetails.aspx", "ctl00$cph1$txtServiceNo" = "3031629",) write(a,file=&
浏览 0
提问于2015-02-18
得票数 1
1
回答
如
何在
Python中
使用
线程来解析多个
网页
?
、
、
大多数时候,我要
抓取
的
网页
数量都在100个以下,所以
使用
for循环,我可以在合理的时间内解析它们。但现在我要解析1000多个
网页
。 driver.get(url)
浏览 1
提问于2015-09-10
得票数 0
2
回答
任何优秀的javascript库,允许爬行网站
、
我需要一个javascript库来爬行一个web应用程序。我找到了这个,但正如作者所声称的,它还处于开发的早期阶段。在谷歌上搜索了很多输入之后,我什么也找不到
浏览 5
提问于2014-08-26
得票数 0
回答已采纳
2
回答
具有多个页面的
PhantomJS
意外加载行为
、
我有一个脚本(下面),
抓取
一个网站与3个步骤的过程。当设置为一次最多1页时,效果很好。然而,当我将其增加到2次时,事情就开始变得不稳定了。我应该补充说,我
使用
的是最新版本(1.5)。
浏览 0
提问于2012-04-27
得票数 5
回答已采纳
1
回答
PhantomJS
-无法
使用
Tor网络作为代理运行
Phantomjs
(Orchid正在作为Tor服务运行)
、
、
我实际上参与了一个宠物项目,涉及到从网站上
抓取
数据。我编写的应用程序完全是用java编写的。这个应用程序会运行几个小时,从
网页
上
抓取
数据。所以在运行了Tor服务之后,我
使用
phantomjs
来
抓取
网站。但当我
使用
Tor.exe执行同样的操作(即启动tor.exe文件,然后尝试
使用</e
浏览 0
提问于2016-12-19
得票数 0
1
回答
使用
Scrapy从
动态
网页
中
抓取
urls
、
、
、
、
cat=7提取10000个新闻链接,这个
网页
是
动态
的,当我向下滚动更多的链接加载。 我尝试过
使用
selenium,但它不起作用。WebnewsSpider(scrapy.Spider): allowed_domains = ['www.hamariweb.com'] start_
urls
浏览 20
提问于2019-10-07
得票数 1
回答已采纳
1
回答
Xpath on request响应返回空列表
、
、
我在试着学习网络
抓取
。我需要从这个页面获取所有的
URLs
首先,我需要按最新的优先顺序对条目进行排序,为此,我在代码
中
复制了getresults_ajax POST请求。即使Chrome控制台中的xpath返回一个有效的结果,我的代码
中
也会得到一个空列表。我知道复制请求可能很乏味,我
使用
Selenium和
PhantomJS
来
抓取
动态
页面,但我需要对内容进行排序,然后从响应中提取数据,这似乎很棘手。r.xpath('//d
浏览 0
提问于2016-07-19
得票数 2
5
回答
如何
使用
Python将数据输入到
网页
以
抓取
结果输出?
、
我熟悉从
网页
抓取
数据的BeautifulSoup和urllib2。但是,如果在返回我想要
抓取
的结果之前需要在页面
中
输入一个参数,该怎么办?我正在尝试
使用
这个网站获取两个地址之间的地理距离: 我希望能够转到页面,输入两个地址,单击“显示”,然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值,并将它们保存到字典
中
。有没有办法用Python把数据输入到
网页
中
?
浏览 2
提问于2011-08-13
得票数 8
回答已采纳
6
回答
使用
/lxml
抓取
所有链接
、
、
、
、
在“查看所有类别”选项卡下,您将发现所有主要产品类别。如果将鼠标悬停在任何类别上,它将扩展类别。我想从每一个主要类别的链接。data = urllib2.urlopen(url)#print data l = link.get('href'
浏览 4
提问于2014-04-17
得票数 1
回答已采纳
1
回答
如何从JavaScript
中
抓取
动态
变量而不渲染它?
、
、
我
使用
python来
抓取
网页
,但是我需要的关于游戏的数据是由脚本填充的。然后,我转到js web,发现数据存储在一个名为'matchdata‘的
动态
变量
中
。 我知道有些工具可以渲染javascript,比如scrayjs/
PhantomJS
,但它们需要
浏览 0
提问于2017-10-16
得票数 0
1
回答
Phantomjs
page.content未检索页面内容
、
、
、
、
我
使用
Phantomjs
抓取
使用
JavaScript和Ajax加载
动态
内容的网站。如果您通过web浏览器(
如
chrome)输入URL并阅读页面的源代码(在进行JavaScript和Ajax调用之后的
动态
源代码),您将看到web浏览器源代码和
Phantomjs
源代码完全不同。但在这种情况下,我需要
网页
浏览器的源代码。 通常,这段
Phantomjs
代码会检索我需要的源代码,但是在这个url(任何其他url)的情况下,<e
浏览 1
提问于2014-10-15
得票数 1
3
回答
动态
加载
、
、
我知道我可以
使用
许多方法从一个
网页
中
检索所有的
urls
,比如“机械化”、BeautifulSoup和许多其他方法。然而,问题是,有些页面可能包含由Javascript加密的
urls
,或者是从.js文件中加载的
urls
。在Firefox
中
,有一个名为"Live“的插件,当您打开这个插件并访问一个
网页
时,该插件将为您获取已加载到
网页
中
的所有URL。 我想在蟒蛇身上做同样的事情,有什么想法吗?PS: I通过<em
浏览 3
提问于2015-02-28
得票数 1
2
回答
使用
Python通过AJAX
抓取
网页
、
、
我知道
使用
Python的Beautiful Soup
抓取
HTML的基础知识。但是,页面会进行AJAX调用,以获取球员上场时间的数据。(我
使用
firebug识别了网络调用)。我的问题是:有没有可能
使用
python来“
抓取
”这些信息?我需要什么工具,除了HTML我还应该知道什么?(我目前正在阅读有关JavaScript和AJAX的文章)。更新:几天后,我提出了一个在Python语言中结合
使用
Selenium和
PhantomJS
的解决方案。基本上,我
使用
Se
浏览 0
提问于2013-11-02
得票数 0
1
回答
来自
PhantomJS
的HTTP请求?
、
在我的
phantomJS
脚本
中
,在
使用
幻影
抓取
HTML内容之前,我想发出一些HTTP请求,以便在Phantom
中
设置一些变量。 从
PhantomJS
发出HTTP请求的正确方式是什么?我应该
使用
PageObject并像处理
网页
一样处理它吗?或者有没有什么XHR功能可以用来做这件事?我想先获取一些Json数据。
浏览 0
提问于2013-09-06
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫入门,快速抓取大规模数据4
Python爬取携程网酒店价格信息案例
实战干货:从零快速搭建自己的爬虫系统
使用多个Python库开发网页爬虫(二)
走近代码之Python-爬虫框架Pyspider
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券