腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spider/Crawler用于测试需要会话cookie的AJAX web应用程序?
、
、
、
我们有一个web应用程序,这是大量的AJAX,它是非常可定制的,所以我们需要一些东西,将点击它的每个链接,以确保没有任何表单/页面
中断
。我知道有很多
爬虫
/
爬虫
,但是我们还找不到一个容易实现并且可以与AJAX一起工作的
爬虫
,并且允许你使用会话cookie。
浏览 1
提问于2010-05-05
得票数 2
2
回答
在系统调用期间捕获/阻止SIGINT
、
、
、
、
我已经写了一个网络
爬虫
,我希望能够通过键盘停止。我不希望程序在我
中断
它时死掉;它需要首先将数据刷新到磁盘。但是,我发现如果我发送
中断
时系统恰好正在执行socket.recv(),我会得到这样的结果:Interrupted; stopping... // indicates my interruptFile "/Library/Frameworks/
Python
.framework/Versions/2.6/lib/
浏览 3
提问于2010-06-11
得票数 8
回答已采纳
1
回答
Scrapy暂停并启动
但是,如果crawler在服务器的后台静默运行,则无法执行ctrl+c 据我所知,ps -df会找到
爬虫
程序的进程,并以一种迫使
爬虫
程序关闭的方式杀死-s 9 id。但这将不可避免地
中断
爬虫
的一些收尾工作。JOBDIR=crawls/somespider-1将在下次启动时丢失。我能做些什么来安全地停止
爬虫
?
浏览 23
提问于2019-08-16
得票数 0
2
回答
木偶人爬行器大规模爬行
、
、
我们正在使用Puppeteer编写一个网络
爬虫
。我们写的木偶
爬虫
执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而
中断
,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络
爬虫
从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
2
回答
如何使我的代码停止在我的web
爬虫
中打印关键字
、
、
、
对于
python
来说是个新手,只需要使用bs4和请求模块来玩网络
爬虫
。目前,代码一直在打印我的关键字实例,并想知道如何使它只打印一次。我是否使用“
中断
”,并将它插入到我的代码中?
浏览 1
提问于2014-07-03
得票数 1
回答已采纳
1
回答
怎样才能做出完美的释义呢?
、
_translate_single_text(text, target_language, source_language)) File "C:\
Python
36\lib\site-packages\goslate.py",_open_url(url) File "C:\
Python
36\lib\site-packages
浏览 0
提问于2017-06-05
得票数 0
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
2
回答
插入Schema.org属性: JQuery还是DOMDocument?
、
、
、
、
如果
爬虫
能够/能够执行Javascript的话,我对
爬虫
的工作方式没有太多的了解。如果他们不这样做,就没有必要为此使用JQuery。 你怎么想,还有什么更好
浏览 3
提问于2012-08-30
得票数 0
回答已采纳
2
回答
继续到下一页的麻烦
、
当我运行函数从某个站点获取一些链接时,它会从第一页获取链接,但它不会继续到下一页进行同样的操作,而是
中断
显示以下错误。
爬虫
:from lxml import html page=4错误信息: File "C:\Users\ar\AppData\Local\Programs\
Python
\<e
浏览 3
提问于2017-04-21
得票数 1
回答已采纳
2
回答
在
Python
中,如何为有时挂起的函数调用强制超时?
、
、
、
、
我正在使用
Python
爬虫
通过urllib2 OpenerDirector在互联网上爬行。问题是,连接将不可避免地挂起在https地址上,显然忽略了超时值。显然,
Python
不支持杀死线程,而且由于垃圾收集和其他问题,它被认为是一个坏主意。然而,这个解决方案对我来说更可取,因为它很简单。我要么需要一种方法来强制
中断
调用,要么需要修复urllib2 OpenerDirector处理超时的方式。谢谢。
浏览 3
提问于2011-12-28
得票数 2
1
回答
检查500错误以旁路
、
、
、
如果我的
爬虫
遇到500错误,它将被
中断
。因此,我需要在解析web内容之前检查可用的链接。非常感谢。
浏览 3
提问于2012-08-30
得票数 0
回答已采纳
1
回答
完成后删除AWS Glue Crawler
、
、
我有一个用例,在这个用例中,我需要创建一个AWS Glue crawler来抓取存储在S3中的一些数据,启动
爬虫
,然后在完成抓取数据后删除
爬虫
。我遇到的难题是,
爬虫
可能需要很长时间才能完成,有时需要20-30分钟来完成对实际数据的爬行,然后才能将其删除。最初我打算用AWSGlueAsyncClient来解决这个问题,这样就不会阻塞调用线程20-30分钟,我只需要写一个回调,这样当
爬虫
完成时,它就会立即被删除。这样做的问题是,如果服务器在
爬虫
完成所需的20-30分钟时间内关闭或
中断
,它将不
浏览 27
提问于2021-05-26
得票数 0
回答已采纳
2
回答
php网络
爬虫
中断
,运行时间限制?
、
、
、
我将
爬虫
设置为每天从Facebook获取所有页面的数据,以便数据始终在本地数据库中更新。 问题是,有时
爬虫
会意外
中断
。
浏览 1
提问于2012-07-03
得票数 0
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
1
回答
需要帮助获取Beatifulsoup/urlib以正确处理错误并解析字符串
、
、
、
、
我一直在使用beautifulsoup在
python
中开发一个网络
爬虫
,并遇到了一些问题: num = num + 1 index()
浏览 2
提问于2013-06-09
得票数 0
回答已采纳
4
回答
无法导入scrapy中的项目
、
、
、
scrapy.item import Item, Field title = Field() 当我运行这段代码时,scrapy要么找不到我的
爬虫
浏览 3
提问于2013-04-14
得票数 4
回答已采纳
2
回答
使用scrapy
python
的.net框架
、
、
、
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的
python
脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个
Python
脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
我用
Python
2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持
Python
3,这种转换必须在1 go内完成。我只能在
Python
3
爬虫
做好部署准备之后才能开始使用。现在,由于“所有操作都必须保持活动状态”,我需要一个单独的
Python
3
爬虫
的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Python
3
爬虫
(Remote-B),后者是主分支的一个
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
python中断和异常处理
Python 爬虫(六)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券