腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
爬虫
和
爬虫
架构
、
、
、
、
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的
系统
(大多数专业
系统
似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的
系统
之间的权衡。
浏览 4
提问于2012-04-16
得票数 2
回答已采纳
1
回答
AWS雅典娜分区键变成“varchar”
、
、
、
例如,我有两个分区键,account_id作为int,record_date作为date。当我执行一个查询时,雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么?
浏览 5
提问于2022-09-29
得票数 0
1
回答
如何使用动态数据启用页面索引?
、
、
、
此外,动态url页面包含指向永久url的链接(我希望Google或任何
爬虫
进行索引)。Google
爬虫
控件(网站管理员工具)不能从页面中读取urls,但不能对它们进行索引。解决办法?爬行策略
系统
架构
。
浏览 3
提问于2010-04-26
得票数 3
1
回答
我应该使用Akka.io,Apache Spark,Mesos还是Storm作为网络抓取引擎?
、
、
、
、
我已经用纯Java和selenium构建了一个多线程的web爬行和提取引擎。API中的每个作业都在自己的线程中执行,并将其状态提交回API。每个作业还可以包含提取信息(XPth、正则表达式、CSS选择器)、连接信息(代理凭据)和爬行引擎的挂钩。例如,在保存结果之前单击一个按钮。这个引擎工作得很好,但现在我想在多台机器上并行运行它。我可以用当前的版本做到这一点(有通道支持),但我正在寻找改进和技术,让整个事情变得更好,并学习一些新的东西。 我找到了Akka.io,Apache Spark,Apache Mesos和Apache Storm,并问自己其中一个框架是否可以成为一种技术,我应该花更多的
浏览 0
提问于2015-06-17
得票数 0
2
回答
更新AWS Glue/Athena上的分区表模式
、
我有一个从火喉到S3的事件流,然后由Glue爬行,定期创建新的分区,并更新要在雅典娜中查询的表的
架构
。显而易见的尝试是将表模式从struct<...,field:int,...>编辑为struct<...,field:bigint,...
浏览 23
提问于2020-01-22
得票数 1
1
回答
适用于分层Avro文件的AWS Glue & Crawler
、
、
我知道对于扁平化文件,我们可以使用Crawler读取元数据并从中创建一个
架构
,但是我想知道crawler是否可以从分层文件中读取
架构
并刷新Glue ETL作业。请分享你对此的看法。 谢谢!!
浏览 13
提问于2020-06-07
得票数 1
1
回答
Apache Nutch工作实例的最大数量
、
一个主节点可以同时运行的Apache Nutch crawler实例的最大数量是多少?
浏览 0
提问于2015-12-17
得票数 7
1
回答
S3上连续到达数据的AWS增量爬行
、
、
、
、
我正在寻找一种为S3数据设置增量Glue
爬虫
的方法,其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是,如果我在一天内运行这个
爬虫
,它的分区将被创建,并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新),在逐步运行
爬虫
时进行爬行,而不将资源浪费在历史数据上?
浏览 3
提问于2021-06-07
得票数 0
回答已采纳
1
回答
AWS Glue中的ETL作业--可以覆盖数据吗?
、
、
我正在尝试编写一个AWS Glue ETL作业,它根据最新的模式版本更新模式。还是可以删除源路径中的数据,然后将其重写到相同的目的地?
浏览 2
提问于2018-02-16
得票数 0
2
回答
AWS Glue Catalog无法检测到拼花文件,而是将根路径创建为单个表
、
、
、
我还没有尝试过对
爬虫
参数进行任何定制。 请帮帮忙。
浏览 3
提问于2019-08-19
得票数 2
1
回答
AWS Glue Crawler查询
、
、
、
我有几个AWS胶水
爬虫
安装爬行在S3中的CSV,以填充我的表在雅典娜。我的场景和问题:我每天用更新的版本替换S3中的S3文件。我是否必须再次运行现有的
爬虫
程序,也许是按照一个时间表来用最新的内容更新雅典娜上的表格?或者,如果模式更改(例如添加了其他列),是否只要求
爬虫
运行?
浏览 4
提问于2020-05-10
得票数 0
回答已采纳
1
回答
ASP.NET站点递归HTTP-请求自己的URL
、
、
这可以使用某种类型的
爬虫
来完成,该
爬虫
定期运行于URL列表中。 我的问题:让网站本身向自己的URL发布HttpWebRequests是个好主意吗?另一种
架构
是在外部应用程序(如Windows )中使用
爬虫
。不过,这将是一个复杂得多的
架构
。在这个问题中,我不想探索这个选项,因为我试图用一个更简单的
架构
来解决问题。
浏览 1
提问于2013-01-27
得票数 0
1
回答
缓存和使AWS Lambda响应无效
、
、
、
、
我试图在AWS上实现一个解决方案,如下所示:可能的解决方案 API网关DynamoDB:爬行后将数据存储在DynamoDB中,然后由缓存的After提供服务。
浏览 1
提问于2017-07-23
得票数 0
1
回答
用Java在分布式体系结构上实现Web
爬虫
、
、
、
朋友们,我用Java实现了一个多线程的网络
爬虫
。为了使它更高效,我想将其转换为分布式
架构
,即在3台机器上。据我所知,主从
架构
是最好的。
浏览 0
提问于2013-02-26
得票数 0
1
回答
爬虫
如何比直接连接到数据库和提取数据要好得多?
、
、
所以,,我的问题是:与直接连接数据库和检索数据相比,
爬虫
如何更好?
浏览 9
提问于2020-08-26
得票数 1
2
回答
有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)
、
、
、
我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift,为R.D.S添加了连接,并运行了一个
爬虫
程序将我的R.D.S
架构
创建到Amazon GLUE中。现在我有很多表,如何传输此
架构
或Red-shift中的所有表 我遵循了一个教程,但他在Red-shift中已经有了一个表,所以他使用第二个
爬虫
来获取模式,然后在源和目标上执行E.T.L作业。
浏览 0
提问于2019-12-11
得票数 1
1
回答
AWS胶自定义分类器
、
我已经定义/设置了一个
爬虫
来读取和编录S3桶中的avro文件。但是爬行器/分类器无法读取字段的" doc“属性,因此它在目录中创建一个模式,其中包含字段名和相应的数据类型,但没有doc字段值。
浏览 1
提问于2019-06-10
得票数 0
1
回答
AWS glue中包含哪些数据类别?
、
、
以及它使用的数据库类型,如nosql、rds如果目录表只包含数据模式,如果我的数据源被修改,我如何保持它对数据的更新?
浏览 17
提问于2019-07-25
得票数 1
回答已采纳
2
回答
在VPC中访问红移的AWS
、
、
、
爬虫
成功地从Redshift获取
架构
信息到数据目录。但是,当我运行ETL作业时,它无法获取数据并说“资源不可用”。
爬虫
如何能够在没有NAT的情况下从Redshift读取模式信息?
浏览 4
提问于2017-08-23
得票数 1
1
回答
我应该在单个产品页面上提供相关产品的结构化数据吗?
、
、
在单个产品页面中,是否也应该为相关产品提供Schema.org结构化数据? 例如,这是我电子商务的一页。如您所见,页面中有5个Product项。一个用于产品,4个用于相关产品。我应该移除(或改变)它们吗?
浏览 0
提问于2018-11-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫架构师/数据采集总监
系统如何识别爬虫代理?
系统架构设计师:系统架构设计基础知识--软件架构的定义
【mysql】mysql系统架构
信息系统架构
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
腾讯会议
活动推荐
运营活动
广告
关闭
领券