使用多个输入在python中抓取网页

文章/答案/技术大牛

发布

0回答

、、、、

我需要从这个网站的表中使用python获取数据。, data=data) print(soup)下表：

浏览 11提问于2017-01-03得票数 2

回答已采纳

1回答

page.py文件和element.py文件是如何在Selenium PageObject教程上交互的？BasePageElement是什么？

、、

基于用户在搜索引擎上的输入，我试图通过多个层从网站上的搜索结果中抓取数据。用户的搜索结果可能会有所不同，所以我决定使用PageObject设计模式来扩展我的项目，但是我不理解Python教程以及element.py文件和page.py文件是如何交互的，所以我可以根据自己的喜好编辑它们此文件是否仅适用于第一层的网页抓取？我是否应该复制BasePageElement类并编辑它，以便在我的网络抓取之旅中的

浏览 2提问于2020-12-16得票数 0

回答已采纳

5回答

如何使用Python将数据输入到网页以抓取结果输出？

、

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的所有外部链接，并创建一个新的爬网列表来再次运行吗？你怎么做？

浏览 1提问于2010-10-26得票数 2

回答已采纳

1回答

在没有BeautifulSoup的Python语言中将HTML表解析为列表

、、

我想知道是否有一种方法可以从HTML表中提取数据，并仅使用HTMLParser将其解析到字典中。由于某种原因，我不能做这件事..

浏览 1提问于2012-03-04得票数 0

1回答

使用python请求加载更多项

、、

我是一个python程序员初学者，我想抓取所有的体育新闻在网站。我创建了一个python请求来加载更多的项目。我使用了chrome中的inspect元素来查看。我的python代码如下所示：import jsonsession.trust_env = False print(response.json()){&#x

浏览 2提问于2018-11-28得票数 0

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。requests.get(url) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的我对Python中的线程化不是很了解。谁能告诉

浏览 0提问于2017-05-29得票数 2

1回答

用Python抓取多个网页

、、、、

它应该从列表self.urls中的每个网页中提取电话号码。

浏览 1提问于2017-12-04得票数 0

回答已采纳

2回答

数据抓取:网页不存在，除非我通过主网站加载它

、、、

我正在尝试使用BeautifulSoup从多个网页中抓取数据。每个网页都有相同的格式，结尾有一个代码来唯一地标识它们，例如。www.sample_000.com。但是，如果我转到主网站并选择适当的输入值来打开www.sample_123.com，它就会加载得很好。更新:

浏览 0提问于2019-10-11得票数 0

回答已采纳

1回答

使用Selenium RC从id抓取img文件名

我正在尝试抓取图像文件名-我的网页，根据输入，正在加载几个图像，我想抓取图像的文件名。如果我知道id或alt-text，我能抓取图像文件名吗？现在，我正在使用"get_html_source“(python，btw)并从那里解析它。有没有替代方案，或者selenium不是真正为此而构建的？

浏览 0提问于2010-10-13得票数 0

回答已采纳

1回答

适合浏览网站的Python模块

、、、、

我正在寻找一个python模块，可以让我浏览搜索栏，链接等的网站。就上下文而言，我希望对这个网站做一些网络抓取，我只想获取有关2020年选举的每个州的信息(投票数据等)，并将其组织在一个数据库集合中。显然，有许多州需要通过，每个州都在一个单独的网页上。因此，我在python中寻找一种方法，在这个方法中，我可以快速地浏览站点，获取每个页面的数据等等，以及更新和添加现有的数据。因此，找到一种快速导航链接和搜索栏与我输入的

浏览 3提问于2020-05-24得票数 1

回答已采纳

2回答

如何在带有R的网站的搜索框中直接书写

、、

我正在寻找一种方法来做网页抓取后，在其搜索框中键入。让我用一个例子更好地解释:我正在寻找一个R函数，它直接在amazon主页上写入单词"notebook“，这样我就可以随后对生成的页面进行web抓取。也许我可以用Python来做？感谢大家的帮助。

浏览 2提问于2021-01-25得票数 1

1回答

从Python网页中抓取多个表

、、、

我正试着从下面的网页上抓取多张表。但是，我的代码只得到第一个表，尽管所有的表都嵌套在相同的tr和td标记中。这是我的尝试： url = "http://zipnet.in/index.php?

浏览 2提问于2018-01-01得票数 0

回答已采纳

1回答

在python中抓取网页

、

我对抓取网页是完全陌生的，但我真的想在python中学习它。我对python有一个基本的理解。在评论“模式中的选择遵循CSS的规则”之后，我陷入了困境。我想了解这些代码背后的逻辑，或者一个好的文档来理解模块。我以前有什么需要学习的话题吗？

浏览 2提问于2014-01-12得票数 1

回答已采纳

1回答

找不到命令'scrapy‘

、、、、

我正在尝试安装，这样我就可以写一个python程序来抓取网页，但我甚至还不能这样做，因为我需要抓取设置，所以我一直试图在我的shell中输入以下命令："scrapy startproject scrapy_javascript我也在我下载的scrapy文件夹中。 📷

浏览 23提问于2019-05-09得票数 1

回答已采纳

2回答

使用Selenium和Python进行网络抓取:捕获JSON主体

、、、、

我正在尝试抓取一个在后台运行一些AJAX的网页。使用python和Selenium，我已经完成了加载网页、在表单中输入数据、单击提交和等待的过程。我不需要使用selenium (或者python )，谢谢！

浏览 1提问于2013-03-24得票数 1

回答已采纳

1回答

使用CSS选择器和Python对表中的多行单元格进行and抓取

、、

因此，我在网页上抓取一个页面()，其中表中有多行单元格：我使用下面的代码来抓取每一列(下面的一列恰好刮掉了名称)：from lxml.cssselect importtree)data1 = [result.text for result in results1] 不幸的是，它只是从每个单元格中返回名称我在webscraping工具Kimono上尝试过类似的东西，并且

浏览 5提问于2016-08-24得票数 2

回答已采纳

2回答

使用Python抓取网页

、、

我正在尝试学习抓取网页()，但是我不知道我做错了什么。我认为这与识别xpath有关，但是如何获得正确的路径(如果这是问题所在)？我尝试过Firefox中的Firebug以及Chrome中的开发工具。python脚本：import requests page = requests.get('http://www.expressobeans.com/public

浏览 4提问于2015-06-11得票数 1

1回答