python爬虫中断_爬虫 python_python 爬虫 - 腾讯云开发者社区

、、、

我们有一个web应用程序，这是大量的AJAX，它是非常可定制的，所以我们需要一些东西，将点击它的每个链接，以确保没有任何表单/页面中断。我知道有很多爬虫/爬虫，但是我们还找不到一个容易实现并且可以与AJAX一起工作的爬虫，并且允许你使用会话cookie。

浏览 1提问于2010-05-05得票数 2

2回答

在系统调用期间捕获/阻止SIGINT

、、、、

我已经写了一个网络爬虫，我希望能够通过键盘停止。我不希望程序在我中断它时死掉；它需要首先将数据刷新到磁盘。但是，我发现如果我发送中断时系统恰好正在执行socket.recv()，我会得到这样的结果：Interrupted; stopping... // indicates my interruptFile "/Library/Frameworks/Python.framework/Versions/2.6/lib/

浏览 3提问于2010-06-11得票数 8

回答已采纳

1回答

Scrapy暂停并启动

但是，如果crawler在服务器的后台静默运行，则无法执行ctrl+c 据我所知，ps -df会找到爬虫程序的进程，并以一种迫使爬虫程序关闭的方式杀死-s 9 id。但这将不可避免地中断爬虫的一些收尾工作。JOBDIR=crawls/somespider-1将在下次启动时丢失。我能做些什么来安全地停止爬虫？

浏览 23提问于2019-08-16得票数 0

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

2回答

如何使我的代码停止在我的web爬虫中打印关键字

、、、

对于python来说是个新手，只需要使用bs4和请求模块来玩网络爬虫。目前，代码一直在打印我的关键字实例，并想知道如何使它只打印一次。我是否使用“中断”，并将它插入到我的代码中？

浏览 1提问于2014-07-03得票数 1

回答已采纳

1回答

怎样才能做出完美的释义呢？

、

_translate_single_text(text, target_language, source_language)) File "C:\Python36\lib\site-packages\goslate.py",_open_url(url) File "C:\Python36\lib\site-packages

浏览 0提问于2017-06-05得票数 0

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。Cron won't r

浏览 0提问于2015-04-13得票数 0

2回答

插入Schema.org属性: JQuery还是DOMDocument？

、、、、

如果爬虫能够/能够执行Javascript的话，我对爬虫的工作方式没有太多的了解。如果他们不这样做，就没有必要为此使用JQuery。你怎么想，还有什么更好

浏览 3提问于2012-08-30得票数 0

回答已采纳

2回答

继续到下一页的麻烦

、

当我运行函数从某个站点获取一些链接时，它会从第一页获取链接，但它不会继续到下一页进行同样的操作，而是中断显示以下错误。爬虫：from lxml import html page=4错误信息： File "C:\Users\ar\AppData\Local\Programs\Python\<e

浏览 3提问于2017-04-21得票数 1

回答已采纳

2回答

在Python中，如何为有时挂起的函数调用强制超时？

、、、、

我正在使用Python爬虫通过urllib2 OpenerDirector在互联网上爬行。问题是，连接将不可避免地挂起在https地址上，显然忽略了超时值。显然，Python不支持杀死线程，而且由于垃圾收集和其他问题，它被认为是一个坏主意。然而，这个解决方案对我来说更可取，因为它很简单。我要么需要一种方法来强制中断调用，要么需要修复urllib2 OpenerDirector处理超时的方式。谢谢。

浏览 3提问于2011-12-28得票数 2

1回答

检查500错误以旁路

、、、

如果我的爬虫遇到500错误，它将被中断。因此，我需要在解析web内容之前检查可用的链接。非常感谢。

浏览 3提问于2012-08-30得票数 0

回答已采纳

1回答

完成后删除AWS Glue Crawler

、、

我有一个用例，在这个用例中，我需要创建一个AWS Glue crawler来抓取存储在S3中的一些数据，启动爬虫，然后在完成抓取数据后删除爬虫。我遇到的难题是，爬虫可能需要很长时间才能完成，有时需要20-30分钟来完成对实际数据的爬行，然后才能将其删除。最初我打算用AWSGlueAsyncClient来解决这个问题，这样就不会阻塞调用线程20-30分钟，我只需要写一个回调，这样当爬虫完成时，它就会立即被删除。这样做的问题是，如果服务器在爬虫完成所需的20-30分钟时间内关闭或中断，它将不

浏览 27提问于2021-05-26得票数 0

回答已采纳

2回答

php网络爬虫中断，运行时间限制？

、、、

我将爬虫设置为每天从Facebook获取所有页面的数据，以便数据始终在本地数据库中更新。问题是，有时爬虫会意外中断。

浏览 1提问于2012-07-03得票数 0

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

1回答

需要帮助获取Beatifulsoup/urlib以正确处理错误并解析字符串

、、、、

我一直在使用beautifulsoup在python中开发一个网络爬虫，并遇到了一些问题： num = num + 1 index()

浏览 2提问于2013-06-09得票数 0

回答已采纳

4回答

无法导入scrapy中的项目

、、、

scrapy.item import Item, Field title = Field() 当我运行这段代码时，scrapy要么找不到我的爬虫

浏览 3提问于2013-04-14得票数 4

回答已采纳

2回答

使用scrapy python的.net框架

、、、

可以在Python 框架中使用.NET框架从不同的站点抓取数据吗？我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数

浏览 1提问于2011-03-31得票数 1

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支，所以整个存储库现在有两个分支: Master(Remote-A)和Python3爬虫(Remote-B)，后者是主分支的一个

浏览 3提问于2019-09-10得票数 0

回答已采纳

点击加载更多