首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    OPPO 大数据诊断平台“罗盘”正式开源

    OPPO 大数据平台目前有 20+个服务组件,数据量超 1EB,离线任务数近百万,实时任务数千,数据开发分析师超千人。这也带来了系统复杂度的问题,一方面是用户经常对自己的任务运行状况“摸不着头脑”,不管是性能问题,还是参数配置问题,甚至是一些常见的权限报错问题,都需要咨询平台给出具体的解决方案;另一方面是平台面对各类繁杂任务,运维人员经常需要对任务故障定位和排除,由于任务链路长,组件日志多,运维压力大。因此急需对任务进行实时监控和诊断,不仅要能够帮助用户快速定位异常问题,还需给出具体的建议和优化方案,同时还能治理各类“僵尸”和不合理任务,从而达到降本增效的目的。据调研,目前业界尚无成熟的开源任务诊断平台。为此我们开发了大数据诊断平台,通过诊断平台周优化任务实例数超2 万,取得了良好的效果。

    02

    Spark Streaming的背压机制(类比Storm雪崩)

    默认情况下,SparkStremaing根据Receiver以生产者生产数据的速度来接收数据,但是在工作状态下, 实际计算一个批次数据的时间一般要大于Streaming应用设置的批处理间隔。这就意味着Spark Streaming处理数据的速度要小于数据接收的速度, 数据处理能力低,导致数据全部堆积在内存中,进一步导致Receiver所在的Executor会发生内存溢出的问题。        同为优秀的大数据实时处理框架,这个问题和类比于Storm的雪崩问题,Storm中若是Spout,或者是其他上游的Bolt发送数据的速度过快,而下游Bolt因为并行度,或者是业务逻辑较为复杂, 就会导致数据堆积到内存中,进而引发雪崩的问题。Storm解决这个问题,有两种思路。第一种,控制上游发送数据的速度topology.max.spout.pending,比如说内存中未处理的Tuple(Storm中的数据处理单位,类似于kafka中的message)达到10000条的时候,堵塞发送线程,停止发送,直到内存中的数据小于我们设置的阈值;第二种思路,就是提高下游处理数据的速度, 提高并行度, 设置下excutor的数目。其实还有第三种思路,即当内存中的数据达到一定阈值后,将其写入Disk中。        Spark Streaming的解决思路和Storm的解决思路是一样的,但是比Storm更为灵活。因为Storm设置上游发送数据的Tuple数目,当消费者消费数据能力很大的时候,会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力,Spark Streaming可以动态控制数据接收速率来适配集群数据处理能力。        Spark Streaming Backpressure: 根据JobScheduler反馈作业的执行信息来动态调整Receiver数据接收率。通过属性“spark.streaming.backpressure.enabled”来控制是否启用backpressure机制,默认值false,即不启用。

    01
    领券