使用BeautifulSoup从多个页面进行多线程文件下载的网络抓取

、、

我想从下面的网站上用相同的html标签从多个页面上抓取多个下载按钮： https://data.jakarta.go.id/dataset/indeks-standar-pencemaran-udara-ispu-tahunindeks-standar-pencemaran-udara-ispu-tahun-2012 https://data.jakarta.go.id/dataset/in

浏览 22提问于2021-06-24得票数 1

回答已采纳

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

减少创建BeautifulSoup对象时的开销

、

我对网络抓取和使用Python语言中的BeautifulSoup库非常陌生，所以我遇到了这个问题:我必须从大量的网页中下载和抓取内容，下载它们不是问题，但是当我为每个页面创建一个BeautifulSoup对象(为了解析它)时，我的程序变得非常慢。我在问您，是否有一种方法可以减少这种开销，并且可能避免为我要分析的每个新页面创建一个

浏览 0提问于2020-10-08得票数 0

5回答

如何从其他网站获取数据？

、、、

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

2回答

通过java中的FTP异步下载文件

、、、

我需要通过java的FTP下载多个文件。为此，我使用FTPClient编写了一段代码，该代码将文件逐个下载。我需要从服务器获取文件并下载到另一个网络。在编写了代码之后，我发现下载每个文件需要更多的时间，因为文件大小很大(超过10 as )。我决定多线程进程，即一次运行多个文件。有人能帮我在<e

浏览 2提问于2018-07-16得票数 0

5回答

正在寻找关于web抓取项目最佳实践的好教程的推荐吗？

、、、、

我需要做一个相当广泛的项目，涉及网络抓取，并正在考虑使用Hpricot或美丽的汤(即Ruby或Python)。有没有人看到过他们认为在这个主题上特别好的教程，可以帮助我从正确的角度开始这个项目？

浏览 0提问于2009-03-26得票数 4

3回答

网络刮擦冠状病毒互动图

、、、、

我正在尝试抓取新冠肺炎的相关数据。我可以从网站上下载一些数据，例如，病例总数，但不能从交互式图表中下载数据。我通常通过在inspect element页面的'network‘中查找源代码来获取json的交互图。然而，我找不到交互式图形的“网络”来抓取。只是想说清楚。我不想

浏览 2提问于2020-03-06得票数 0

1回答

Python web抓取: google搜索结果中的网站

、、、、

Python的新手。我想从一个谷歌搜索页面从多个网站(例如100+)提取信息。我知道如何从google搜索中收集网站URL列表；我还知道如何在查看页面的HTML后对单个网站进行网络抓取。我使用Request和BeautifulSoup来完成这些任务。但是，我想知道如何从所有这些(100+ !)中提取关键信息。网站，而不必逐个查看它们的html。有没有办法自动找出网

浏览 18提问于2021-03-31得票数 1

2回答

使用Python在youtube中搜索打开第一个视频

、、、

我试了试，但不知道如何打开第一个视频。此代码在浏览器中打开搜索。 words = search.split() link += i + "+" webbrowser.open_new(link[:-1])

浏览 1提问于2020-04-10得票数 3

4回答

如何用python抓取网站/将数据提取到数据库中？

、

我想建立一个网络应用程序，以帮助其他学生在我的大学制定他们的时间表。要做到这一点，我需要爬行主日程(一个巨大的html页面)，以及链接到每个课程的详细描述到一个数据库，最好是在python中。我可以/应该使用哪些工具/库？已经有很好的解决办法了吗？

浏览 5提问于2011-12-01得票数 12

回答已采纳

1回答

使用单个URL在多个页面上刮取表

、、、

我正试着从Fangraphs中抓取数据。表格被分成21个页面，但所有页面都使用相同的url。我对webscraping (或者一般的python )非常陌生，但是Fangraphs没有公共API，所以抓取页面似乎是我唯一的选择。我目前正在使用BeautifulSoup来解析超文本标记语言代码，我能够抓取初始表，但那只包含前30个球员，但我想要整个球员池。两天<em

浏览 21提问于2020-04-18得票数 1

回答已采纳

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

2回答

Python从多个页面请求.get()？

、、、

我正在学习如何使用python进行网络抓取，我想知道是否可以使用requests.get()抓取两个页面，这样我就不必进行两个单独的调用和变量。例如：r2 = requests.get("page2") pg

浏览 0提问于2017-06-03得票数 2

2回答

尝试从同一下拉菜单下载多个文件- Python Selenium Chromedriver

、、、

我在尝试使用Selenium Chromedriver从网站上的同一下拉菜单下载两个单独的文件时遇到了问题。我有代码来单击这两个链接，但它只确认第一个链接；第二个文件不会被下载。我知道，当我不使用webdriver时，我可以同时进行多个下载，所以可能问题是chromedriver一次只允许一个下载？我没有把握。我尝试在电子表格和shapefile点击之间添加一个

浏览 25提问于2020-09-09得票数 1

回答已采纳

5回答

从网站下载所有.pdf文件的Python/Java脚本

、、、

我想知道是否可以编写一个脚本，以编程方式遍历网页并自动下载所有.pdf文件链接。在我开始尝试之前，我想知道这是否可能。问候

浏览 5提问于2014-02-15得票数 12

回答已采纳

1回答

使用Python和BeautifulSoup抓取多个页面-网站url不起作用

、、、

我的python代码成功地从https://www.groupeactual.eu/offre-emploi中抓取文本并将其保存到csv文件中。然而，在上面的网站上有多个页面可用，我希望能够在其中刮。例如，使用上面的url，当我单击指向"page 2“的链接时，整个url会发生变化，但当我在代码中使用该url时，我会得到来自page 1的结果。如何更改我的代

浏览 16提问于2020-07-17得票数 1

1回答

使用python从网站下载文件

、

我需要下载所有的文件从()给定的网站。它有1995年到2017年的数据，每年都有需要下载的文件的多个链接。Th文件采用.pdf、.htm和.txt格式。我试着通过查看各种教程来抓取数据，但我需要做的与通常的web抓取教程不同。我使用了以下代码，但它没有达到我的目的。我是python的<

浏览 0提问于2017-05-26得票数 1

2回答

C++中的异步函数

、、、、

现在，正在以同步方式执行来自队列的请求的消耗和适当函数的启动。我想要的是使用者线程从队列中弹出一个请求，并以异步方式启动适当的函数，以便使用者能够立即从队列中弹出下一个请求。我尝试过的一个解决方案是，使用者从队列中弹出一个请求，并创建一个boost::thread并在一个新线程中启动适当的函数。考虑到这一点，如果线程已经完成了它的处理并退出了，那么它不应该

浏览 1提问于2013-01-21得票数 1

回答已采纳

1回答

用python抓取出现在单击中的表

、、、、

我想从这个中抓取信息。我对网络抓取很陌生，并且尝试过使用BeautifulSoup来做这件事。换句话说:我直接从页面中抓取的HTML代码不包括我想要获得的表。我对我的下一步感到有点困惑:我是应该使用selenium之类的东西，还是应该以更

浏览 1提问于2017-09-10得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python中的多线程爬虫真的可以提高速度吗？

BeautifulSoup和Scrapy crawler有什么区别？

减少创建BeautifulSoup对象时的开销

如何从其他网站获取数据？

通过java中的FTP异步下载文件

正在寻找关于web抓取项目最佳实践的好教程的推荐吗？

网络刮擦冠状病毒互动图

Python web抓取: google搜索结果中的网站

使用Python在youtube中搜索打开第一个视频

如何用python抓取网站/将数据提取到数据库中？

使用单个URL在多个页面上刮取表

如何配置Scrapy以使用BeautifulSoup解析器

Python从多个页面请求.get()？

尝试从同一下拉菜单下载多个文件- Python Selenium Chromedriver

从网站下载所有.pdf文件的Python/Java脚本

使用Python和BeautifulSoup抓取多个页面-网站url不起作用

使用python从网站下载文件

C++中的异步函数

用python抓取出现在单击中的表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐