爬虫系统架构_系统架构_linux系统下的爬虫 - 腾讯云开发者社区

、、、、

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4提问于2012-04-16得票数 2

回答已采纳

1回答

AWS雅典娜分区键变成“varchar”

、、、

例如，我有两个分区键，account_id作为int，record_date作为date。当我执行一个查询时，雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么？

浏览 5提问于2022-09-29得票数 0

1回答

如何使用动态数据启用页面索引？

、、、

此外，动态url页面包含指向永久url的链接(我希望Google或任何爬虫进行索引)。Google爬虫控件(网站管理员工具)不能从页面中读取urls，但不能对它们进行索引。解决办法？爬行策略系统架构。

浏览 3提问于2010-04-26得票数 3

1回答

我应该使用Akka.io，Apache Spark，Mesos还是Storm作为网络抓取引擎？

、、、、

我已经用纯Java和selenium构建了一个多线程的web爬行和提取引擎。API中的每个作业都在自己的线程中执行，并将其状态提交回API。每个作业还可以包含提取信息(XPth、正则表达式、CSS选择器)、连接信息(代理凭据)和爬行引擎的挂钩。例如，在保存结果之前单击一个按钮。这个引擎工作得很好，但现在我想在多台机器上并行运行它。我可以用当前的版本做到这一点(有通道支持)，但我正在寻找改进和技术，让整个事情变得更好，并学习一些新的东西。我找到了Akka.io，Apache Spark，Apache Mesos和Apache Storm，并问自己其中一个框架是否可以成为一种技术，我应该花更多的

浏览 0提问于2015-06-17得票数 0

2回答

更新AWS Glue/Athena上的分区表模式

、

我有一个从火喉到S3的事件流，然后由Glue爬行，定期创建新的分区，并更新要在雅典娜中查询的表的架构。显而易见的尝试是将表模式从struct<...,field:int,...>编辑为struct<...,field:bigint,...

浏览 23提问于2020-01-22得票数 1

1回答

适用于分层Avro文件的AWS Glue & Crawler

、、

我知道对于扁平化文件，我们可以使用Crawler读取元数据并从中创建一个架构，但是我想知道crawler是否可以从分层文件中读取架构并刷新Glue ETL作业。请分享你对此的看法。谢谢!！

浏览 13提问于2020-06-07得票数 1

1回答

Apache Nutch工作实例的最大数量

、

一个主节点可以同时运行的Apache Nutch crawler实例的最大数量是多少？

浏览 0提问于2015-12-17得票数 7

1回答

S3上连续到达数据的AWS增量爬行

、、、、

我正在寻找一种为S3数据设置增量Glue爬虫的方法，其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是，如果我在一天内运行这个爬虫，它的分区将被创建，并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新)，在逐步运行爬虫时进行爬行，而不将资源浪费在历史数据上？

浏览 3提问于2021-06-07得票数 0

回答已采纳

1回答

AWS Glue中的ETL作业--可以覆盖数据吗？

、、

我正在尝试编写一个AWS Glue ETL作业，它根据最新的模式版本更新模式。还是可以删除源路径中的数据，然后将其重写到相同的目的地？

浏览 2提问于2018-02-16得票数 0

2回答

AWS Glue Catalog无法检测到拼花文件，而是将根路径创建为单个表

、、、

我还没有尝试过对爬虫参数进行任何定制。请帮帮忙。

浏览 3提问于2019-08-19得票数 2

1回答

AWS Glue Crawler查询

、、、

我有几个AWS胶水爬虫安装爬行在S3中的CSV，以填充我的表在雅典娜。我的场景和问题:我每天用更新的版本替换S3中的S3文件。我是否必须再次运行现有的爬虫程序，也许是按照一个时间表来用最新的内容更新雅典娜上的表格？或者，如果模式更改(例如添加了其他列)，是否只要求爬虫运行？

浏览 4提问于2020-05-10得票数 0

回答已采纳

1回答

ASP.NET站点递归HTTP-请求自己的URL

、、

这可以使用某种类型的爬虫来完成，该爬虫定期运行于URL列表中。我的问题：让网站本身向自己的URL发布HttpWebRequests是个好主意吗？另一种架构是在外部应用程序(如Windows )中使用爬虫。不过，这将是一个复杂得多的架构。在这个问题中，我不想探索这个选项，因为我试图用一个更简单的架构来解决问题。

浏览 1提问于2013-01-27得票数 0

1回答

缓存和使AWS Lambda响应无效

、、、、

我试图在AWS上实现一个解决方案，如下所示：可能的解决方案 API网关DynamoDB：爬行后将数据存储在DynamoDB中，然后由缓存的After提供服务。

浏览 1提问于2017-07-23得票数 0

1回答

用Java在分布式体系结构上实现Web爬虫

、、、

朋友们，我用Java实现了一个多线程的网络爬虫。为了使它更高效，我想将其转换为分布式架构，即在3台机器上。据我所知，主从架构是最好的。

浏览 0提问于2013-02-26得票数 0

1回答

爬虫如何比直接连接到数据库和提取数据要好得多？

、、

所以，，我的问题是：与直接连接数据库和检索数据相比，爬虫如何更好？

浏览 9提问于2020-08-26得票数 1

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

、、、

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。

浏览 0提问于2019-12-11得票数 1

1回答