滴滴处理海量数据的秘诀是什么?
大数据系统的主要特点是数据是实时的,数据采集可以捕获90%以上的数据。 我们共有三种类型的数据源,一种是Binlog数据,所有的数据通过Binlog实时采集到数据库中; 另外还有publiclog,所有的服务器日志也做了实时采集;
由于我们所有的数据基本都是实时采集,所以客户级的处理流程被广泛应用于实时技术。 用三个产品实时存储,一个是ES,主要是做
这次我们在drop应用场景和实践中共享实时计算。
实时计算实时计算平台主任梁力在“网易实践日:大数据与人工智能技术研讨会”上发表题为“海量数据滴漏实时计算实践”的演讲。
嘉宾演讲视频回放:t.cn/RQXAmrK
滴滴大数据体系
日志检索和实时分析;另一个是Druid,用于实时报告和实时监控; HBase是做查询和数据扫描的。
离线这部分目前使用Hive和Spark。 Hive主要负责ETL的工作,Spark对查询进行数据分析和分析。我们使用Spark Streaming和Flink Streaming进行流量计算。
在规模上,我们的实时存储和离线规模已达到国内领先水平。
实时计算场景
实时计算有四个主要场景,即ETL,实时报告,实时监控和实时业务。
由于我们90%的数据是通过实时采集收集的,收购之后的第一步是进行ETL,所以ETL的规模是目前最大的。实时报告可用于报告和演示操作和客户服务。
实时监控的规模仅次于ETL,有两类内部监控需求,一个是机器级别,另一个是技术解决方案;剩下的就是商务舱的实时监控,比如日常订单,余额率等数据,都使用了实时计算系统。
实时业务是我们今年重大突破的一部分,我们要在流程计算结束的时候做一些突破。
实时ETL
为了方便使用ETL,我们把它做了平台化,用户只需要在web上配置就可以实现数据清洗。现在的清洗量可以达到每秒350万左右的数据量,每天大约会清洗几个P的数据量。这完全是基于Spark Streaming的云计算来实现的。
实时报表
实时报表主要用的实时技术有Spark Streaming和Druid。Spark Streaming还是做数据清洗。Druid可以实时消费Kafka数据,但对数据是有要求的,所以要先经过一轮清洗并转化。
实
报道的现场也比较多,有客服大屏幕,异常统计市场和订单温谱图。
客户服务是一个大屏幕可以显示客户服务接听电话费率,投诉热点和屏幕排队等信息。
异常统计市场包括端到端的服务器发起的请求监控,请求失败率的成功率,请求的数量可以通过这种方式进行监控。
订购温度记录图可以看到订货量,乘客量,司机的量,通过地图显示的区域。
我们选择了Druid,因为它具有一些功能,比如查询灵活性。
实时监控
为了提升以后的监控效率,我们构建了一站式自助监控平台,进行了全链路的平台建设。
基于这个平台,我们滴滴内部接入的数据源大概有两百个,指标监控大概有四五百个。
实时业务
Flink Streaming是今年刚推出的引擎,我们希望为实时业务问题提供更好的解决方案,如极高的延迟,数据丢失和数据重复。
面对挑战
降低实时计算开发成本:与Hive等相比,实时计算的发展还比较困难,我们也在探索更简单的开发。
实时业务发展和挑战:我们在实时ETL,实时报告和实时监控技术方面做得很好,基本涵盖了液滴内的所有业务场景。 实时业务对延迟,容错要求非常高,这是我们现在面临的一个重要挑战。
峰谷资源合理配置:我们现在需要做的是如何合理分配资源,使资源更加合理使用,为公司节约成本。
我今天的分享就到这里,谢谢大家!
领取专属 10元无门槛券
私享最新 技术干货