问题导读 1.腾讯如何使用Spark 技术的?带来了哪些好处? 2.Spark 技术最适用于哪些应用场景? 3.企业在应用Spark 技术时,需要做哪些改变吗? 4.企业如果想快速应用Spark 应该如何去做? 转自csdn,问题都很犀利,希望对想了解spark的同学,有所帮助
王联辉
腾讯高级工程师
目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。从2009年开始从事Hadoop和大数据生态系统相关的工作,经历过Hadoop集群大规模的演变和扩张,对Hadoop、Hive、HBase、Yarn、Spark等开源项目有丰富的实践经验。2013年开始从事Spark平台的研究和使用运营实践,多年以来一直专注于分布式存储和计算等领域。
以下为CSDN针对王联辉的会前采访实录:
CSDN:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。
王联辉:目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。
CSDN:您所在的企业是如何使用Spark 技术的?带来了哪些好处?
王联辉:我们的Spark平台是部署在Gaia(基于YARN进行了大量的优化)资源管理系统之上。在我们的实际应用案例中,发现Spark在性能上比传统的MapReduce计算有较大的提升,特别是迭代计算和DAG的计算任务。
CSDN:您认为Spark 技术最适用于哪些应用场景?
王联辉:具有迭代计算的数据挖掘和图计算应用,以及具有DAG的ETL/SQL计算应用。
CSDN:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做?
王联辉:企业需要有了解Spark的工程师,如果想做一些Spark任务的调优工作,还需要对Spark内核有一定了解的工程师。如果想快速应用Spark,企业一方面需要培养或者招聘懂Spark的工程师,另一方面需要在实际应用中去使用和实践Spark。
CSDN:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的?
王联辉:前期我们的业务工程师在Spark的使用和调优上遇到了一些困难,以及Scala的学习上花了一些时间。我们通过实际应用实例给业务工程师指导编写Spark计算任务,使得业务工程师通过一个应用实例学会使用Spark,后续他们可以独立地完成编写Spark业务计算任务的工作。
CSDN:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进?
王联辉:目前Core部分相对来说已经较稳定和成熟,但是其上面的几个组件如MLlib、SparkSQL、GraphX、Streaming在稳定性或性能上还有优化和改进的空间。另外Spark方面的参考资料比较少以及熟练使用Scala语言的程序员也比较少。
CSDN:您在本次演讲中将分享哪些话题?
王联辉:我会介绍TDW-Spark平台的实践情况,以及平台上部分典型的Spark应用案例及其效果,然后分享我们在Spark大规模实践应用过程中遇到的一些问题,以及我们是如何解决和优化这些问题。
CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?
王联辉:想要大规模实践和应用Spark的人,这些话题一方面帮助大家了解目前我们Spark平台上的部分典型应用案例,另一方面帮助大家了解我们在Spark大规模实践应用过程中遇到的一些问题及其解决和优化方法。