python增量爬虫 - 腾讯云开发者社区

我们有一个现有的基础设施，可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的，并通过spark作业转储。为了实现增量功能，我们在deltalake上做了一个POC。因此，当我通过星火三角洲作业在S3中编写这些deltalake文件时，我的爬虫程序无法从这些爬虫器中创建表。我们能用AWS爬虫来抓取三角洲湖的文件吗？

浏览 5提问于2020-09-05得票数 2

回答已采纳

1回答

在python中连接到Mongo数据库

、、

我必须做一个爬虫(我选择python)来填充在Symfony项目中创建的数据库(使用主义)。爬虫已经完成了，但当我尝试填充数据库时，它不工作...因此，我在我的数据库(mtdbdd)中创建了一个新的test表，其中只有一个自动增量ID和一个标题。

浏览 2提问于2017-09-16得票数 0

1回答

S3上连续到达数据的AWS增量爬行

、、、、

我正在寻找一种为S3数据设置增量Glue爬虫的方法，其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是，如果我在一天内运行这个爬虫，它的分区将被创建，并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新)，在逐步运行爬虫时进行爬行，而不将资源浪费在历史数据上？

浏览 3提问于2021-06-07得票数 0

回答已采纳

1回答

Scrapy Flight搜索

、、

我正在尝试使用Python中的Scrapy在一些航班上运行航班搜索，然后将其导出为csv。这只是为了好玩，因为我对Scrapy有了更多的了解。

浏览 1提问于2015-04-17得票数 0

1回答

使用NCrawler运行增量爬网

、

当我们在SOLR中使用NCrawler时，有没有办法运行增量爬行和索引？我不希望我的爬虫每次爬行时都获取完整的数据。有没有办法让爬行变得更强呢？提前谢谢。

浏览 3提问于2013-03-21得票数 1

回答已采纳

1回答

我正在为一个网络爬虫构建一个事件采购服务，其中有几个爬虫工人抓取几个网站，并试图为抓取的资源保留增量。我选择了PostgreSQL作为底层数据存储。最初，我使用一个表，利用事务的自动增量为每个“流”构建乐观锁定功能，但我很快发现，服务器可以处理的表数有一个文件系统上限。由于我不能再使用自动增量，因此我尝试使用两个表构建此功能，一个用于控制流的顺序，另一个用于存储事件本身。我的第一个问题是，我应该使用存储过程还是函数。

浏览 2提问于2020-05-12得票数 2

1回答

抓取增量抓取以过滤重复项目

、、

我想定期运行Scrapy来获取所有新内容。生成的项目存储在数据库中。当Scrapy再次爬行时，验证已经生成的项目是否没有存储为重复项的最佳方法是什么？谢谢!

浏览 3提问于2018-01-31得票数 1

1回答

自动增量ids中的MySql间隙

我写了一个爬虫，它在mysql中保存了大量的记录。有人知道为什么会发生这种事吗？

浏览 3提问于2014-08-10得票数 0

回答已采纳

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

、

它还提到，爬行也是以秒为增量定价的，最小运行时间为10分钟，但没有指定分配了多少DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。Cron won't r

浏览 0提问于2015-04-13得票数 0

2回答

在Netlogo中查找到给定颜色前面的下一个补丁的距离

我试图模拟捕食者在充满障碍的世界中捕食猎物。在一个无障碍的世界中，捕食者随机行走，直到猎物落在一定的探测半径内(react-D)，然后向猎物移动以捕获。我猜可能有几种方法来处理阻碍视线的障碍物，但我最初的努力是沿着以下路线进行的：[let target min-one-of prey in-radius react-D [distance myself] ...move towards target if it's closer than the nearest obstacle (bl

浏览 30提问于2021-03-03得票数 0

回答已采纳

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

3回答

使用Scrapy增量抓取网站

、

我是个爬虫新手，我想知道是否可以使用Scrapy来增量地爬行一个站点，比如CNBC.com？

浏览 0提问于2016-05-18得票数 3

2回答

使用scrapy python的.net框架

、、、

可以在Python 框架中使用.NET框架从不同的站点抓取数据吗？我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数

浏览 1提问于2011-03-31得票数 1

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支，所以整个存储库现在有两个分支: Master(Remote-A)和Python3爬虫(Remote-B)，后者是主分支的一个

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答