Python使用相同的起始url字符串抓取多个网页

、

我正在尝试使用BeautifulSoup从alexaskillstore.com网站读取评论数据。为此，我将目标url指定为，其中Business-Leadership Series/后面的字符串随着所有不同技能的不同而不断变化。我想知道如何将正则表达式或类似的代码输入到我的输入url中，以便能够读取以开头的每个链接。

浏览 15提问于2018-01-13得票数 0

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我有两个Django模型，一个用于起始http://example.com，一个用于抓取的网页链接，如http://example.com/website1，http://example.com/website2所有抓取的网页链接都是start_urls列表中的一个开始网址的子网站。 web链接模型与起始url模型具有多

浏览 1提问于2012-05-15得票数 7

回答已采纳

1回答

爬行/刮取基于网页的搜索表单

、、

我想抓取/刮一个网页，它有一个表单，确切地说，下面是URL 我的搜索字符串总是给出一个唯一的页面，所以结果计数不会成为一个问题。那里的搜索不会在URL上搜索(例如google包含要搜索的参数)。如何从起始页(如上)搜索并获得结果页? 请告诉我一些想法。我正在使用C#/.NET。

浏览 3提问于2011-05-13得票数 0

回答已采纳

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： r = requests.get(url) links= soup.find_all("a", {"class":"dev-li

浏览 0提问于2017-05-29得票数 2

1回答

Web关键字搜索和计数器

、、

以狗为例，如下所示：沿着第一个链接。沿着第二个链接。梗-219场比赛诸若此类。我该如何去做，我需要用什么语言来写，以及这对我来说有多难(正如前面提到的，作为一个初学者)？

浏览 13提问于2020-05-12得票数 0

6回答

如何给抓取URL抓取抓取？

、

我想用刮擦来爬行网页。有办法从终端本身传递起始URL吗？在中，可以给出蜘蛛的名称或URL，但是当我给出url时它会抛出一个错误：文件"/usr/local/lib/

浏览 3提问于2012-03-13得票数 35

回答已采纳

3回答

使用一个字符两次的JavaScript正则表达式

、、、

所以我使用正则表达式从字符串中获取信息，问题是我需要在字符串中的/处启动和停止。var regexp = /\/(.*?)=(.*?)\//g; var match; while ((match= regexp.exec(url_h

浏览 2提问于2012-06-03得票数 1

回答已采纳

1回答

抓取aspx页面的Python代码是什么？

、、、、

我的要求是将mcode传递给下面的web aspx查询，然后将结果网页打印到pdf。在上面的url中，唯一的变量是99999。因此，我的目标是每次传递mcode，然后将生成的aspx页面打印为pdf。请原谅我的简体语言，因为我对此还不熟悉。

浏览 2提问于2020-03-18得票数 0

1回答

爬行数据，但url不会更改

、、、

我想使用python从这个网页抓取数据：为到期日期和符号保留相同的值，但对开始日期的所有值进行迭代。问题是URL对于所有组合都是相同的，因此我无法获得我想要爬行的URL列表。

浏览 0提问于2018-06-22得票数 0

回答已采纳

6回答

如何抓取整个维基百科？

、、、

我意识到如果我将wikipedia.org作为起始网址，它将不会进一步爬行。那么，如何抓取整个维基百科呢？有人能给我一些指导吗？我是否需要专门找到这些URL并放置多个起始URL？关于使用WebSphinx的API的教程，谁有好的网站的建议？

浏览 1提问于2010-02-23得票数 8

回答已采纳

3回答

解码符号和散列字符串(&#124&#120&#97)等

、、

其他答案中的解决方案在我尝试时不起作用，当我尝试这些方法时，相同的字符串输出。&am

浏览 4提问于2016-07-20得票数 7

回答已采纳

1回答

从单个MongoDB队列获取信息的多个工作人员

、、、、

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。每当工作人员完成URL抓取时，它将在MongoDB集合"queue“中发出请求，以获得要爬行的新URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的</em

浏览 0提问于2014-03-29得票数 0

回答已采纳

3回答

如何点击在href中有javascript:__doPostBack的链接？

、、

我正在用python编写一个带有模块'mechanize‘的屏幕抓取器脚本，我想在一个在href中有javascript:__doPostBack的链接上使用mechanize.click_link()我相信我正在尝试解析的页面正在使用AJAX。>>> next_link.__class__.__name__>>> next_li

浏览 1提问于2009-09-13得票数 7

回答已采纳

1回答

在满足特定条件时自动运行python脚本

我有一个网页抓取脚本，它基本上是从一个网站上抓取一个故事(标题、描述/摘要和故事文本)，通常在多个页面中，然后将其全部写到一个文本文件中。目前，我复制一个url并从PyCharm运行python脚本，它给出了我需要的结果。但是，我希望自动运行脚本部分，以便每当我复制包含特定文本(例如网站名称)的url时，它就会自动输出文本文件，而无需每次复制url时运行脚本。

浏览 7提问于2021-12-30得票数 1

2回答

BeautifulSoup不返回页面标题

、、、

我试着用Beautifulsoup4 python模块通过web抓取来获取网页的标题，它返回了一个字符串“无法接受！”作为标题，但是当我通过浏览器打开网页时，标题是不同的。我试着循环浏览链接列表和所有网页的标题，但是它返回的字符串是“不能接受的！”所有的链接。这里是python代码import requ

浏览 18提问于2022-03-01得票数 0

回答已采纳

6回答

抓取启用了Javascript的网站？

、、

我正在尝试将信息抓取并提交到严重依赖Javascript来执行大部分操作的网站。当我在浏览器中禁用Javascript时，网站甚至无法工作。到目前为止，我一直在使用Mechanize，它在不需要Javascript的网站上工作。有没有办法通过urllib2或类似的东西访问使用Javascript的网站？

浏览 0提问于2010-07-29得票数 17

2回答

我需要关于如何加速网络抓取器的建议

、、、

我正在尝试从网页中提取数据，但我实现的这个方法似乎有点慢。我使用了time模块来缩小延迟的原因。requests.get(url)soup = BeautifulSoup(data.content)请求总是这么慢吗？雅虎的问题是限制来自他们服务器的请求吗？现在，从yahoo.com/finance上拉出一个股票价格大约需要2-5秒，请求是主要问题，有什么想法吗？

浏览 1提问于2015-05-08得票数 2

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的</

浏览 0提问于2020-08-25得票数 0

5回答

在Chrome中以编程方式获取内存使用情况

、、、、

如何在Google Chrome中以编程方式获取我的网站的内存使用量(JS和总内存)？我考虑过在Chrome扩展中使用未记录的HeapProfiler (参见)来做这件事，但我找不到一种方法来从中获取数据。 });}); 解析时，JS

浏览 6提问于2013-08-27得票数 28

6回答

爬虫vs刮板

、、

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在抓取的CrawlSpider中访问特定的start_url？

爬行/刮取基于网页的搜索表单

如何在python中并行抓取多个html页面？

Web关键字搜索和计数器

如何给抓取URL抓取抓取？

使用一个字符两次的JavaScript正则表达式

抓取aspx页面的Python代码是什么？

爬行数据，但url不会更改

如何抓取整个维基百科？

解码符号和散列字符串(&#124&#120&#97)等

从单个MongoDB队列获取信息的多个工作人员

如何点击在href中有javascript:__doPostBack的链接？

在满足特定条件时自动运行python脚本

BeautifulSoup不返回页面标题

抓取启用了Javascript的网站？

我需要关于如何加速网络抓取器的建议

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

在Chrome中以编程方式获取内存使用情况

爬虫vs刮板

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐