首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何对大数据进行抓取

在企业级大数据平台的建设中,从传统关系型数据库(如Oracle)向Hadoop平台汇聚数据是一个重要的课题。目前主流的工具有Sqoop、DataX、Oracle GoldenGate for Big Data等几种。

Sqoop使用sql语句获取关系型数据库中的数据后,通过hadoop的MapReduce把数据从关系型数据库中导入数据到HDFS,其通过指定递增列或者根据时间戳达到增量导入的目的,从原理上来说是一种离线批量导入技术;DataX 直接在运行DataX的机器上进行数据的抽取及加载,其主要原理为:通过Reader插件读取源数据,Writer插件写入数据到目标 ,使用Job来控制同步作业,也是一种离线批量导入技术;Oracle Goldengate for Big Data抽取在线日志中的数据变化,转换为GGS自定义的数据格式存放在本地队列或远端队列中,并利用TCP/IP传输数据变化,集成数据压缩,提供理论可达到9:1压缩比的数据压缩特性,它简化了向常用大数据解决方案的实时数据交付,可以在不影响源系统性能的情况下将交易数据实时传入大数据系统。

对比以上工具及方法,结合数据处理的准确性及实时性要求,我们评估Oracle Goldengate for Big Data基本可以满足当前大数据平台数据抽取的需求。

大数据这个词,不管在什么工作,都获得了重视,鉴于在未来很长一段时间,大数据都将会在各行各业影响到我们。不但是企业,同时是个体也会特别依赖大数据的力量。

如今,很多人每天的工作必须与网络打交道。网络爬虫便是很多工作者每日做的任务,网络爬虫是用程序获取目标网站的数据,获得数据后能够 开展分析,来完善自己的网站。不过,鉴于每个网站反扒策略不一样,因此需要实际问题具体分析。不过有一些基本的操作还是要加强的,如下几点:

1、设置好header信息,不仅仅是UserAgent、Referer这两个,也有很多其它的header值

2、处理好Cookie

3、使用爬虫代理加强版代理IP

4、倘若通过header和cookie还不能爬到数据,那么能够 考虑模拟浏览器采集,常见的技术是PhantomJS

5、使用了爬虫代理加强版采集数据返回200不过没返回数据,表明爬虫被反爬了,加强爬虫优化策略。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230110A015KJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券