前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >王联辉:Spark在腾讯应用及对企业spark使用指导

王联辉:Spark在腾讯应用及对企业spark使用指导

作者头像
用户1410343
发布2018-03-27 14:19:01
1.2K0
发布2018-03-27 14:19:01
举报
文章被收录于专栏:about云

问题导读 1.腾讯如何使用Spark 技术的?带来了哪些好处? 2.Spark 技术最适用于哪些应用场景? 3.企业在应用Spark 技术时,需要做哪些改变吗? 4.企业如果想快速应用Spark 应该如何去做? 转自csdn,问题都很犀利,希望对想了解spark的同学,有所帮助

王联辉

腾讯高级工程师

目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。从2009年开始从事Hadoop和大数据生态系统相关的工作,经历过Hadoop集群大规模的演变和扩张,对Hadoop、Hive、HBase、Yarn、Spark等开源项目有丰富的实践经验。2013年开始从事Spark平台的研究和使用运营实践,多年以来一直专注于分布式存储和计算等领域。

以下为CSDN针对王联辉的会前采访实录:

CSDN:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。

王联辉:目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。

CSDN:您所在的企业是如何使用Spark 技术的?带来了哪些好处?

王联辉:我们的Spark平台是部署在Gaia(基于YARN进行了大量的优化)资源管理系统之上。在我们的实际应用案例中,发现Spark在性能上比传统的MapReduce计算有较大的提升,特别是迭代计算和DAG的计算任务。

CSDN:您认为Spark 技术最适用于哪些应用场景?

王联辉:具有迭代计算的数据挖掘和图计算应用,以及具有DAG的ETL/SQL计算应用。

CSDN:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做?

王联辉:企业需要有了解Spark的工程师,如果想做一些Spark任务的调优工作,还需要对Spark内核有一定了解的工程师。如果想快速应用Spark,企业一方面需要培养或者招聘懂Spark的工程师,另一方面需要在实际应用中去使用和实践Spark。

CSDN:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的?

王联辉:前期我们的业务工程师在Spark的使用和调优上遇到了一些困难,以及Scala的学习上花了一些时间。我们通过实际应用实例给业务工程师指导编写Spark计算任务,使得业务工程师通过一个应用实例学会使用Spark,后续他们可以独立地完成编写Spark业务计算任务的工作。

CSDN:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进?

王联辉:目前Core部分相对来说已经较稳定和成熟,但是其上面的几个组件如MLlib、SparkSQL、GraphX、Streaming在稳定性或性能上还有优化和改进的空间。另外Spark方面的参考资料比较少以及熟练使用Scala语言的程序员也比较少。

CSDN:您在本次演讲中将分享哪些话题?

王联辉:我会介绍TDW-Spark平台的实践情况,以及平台上部分典型的Spark应用案例及其效果,然后分享我们在Spark大规模实践应用过程中遇到的一些问题,以及我们是如何解决和优化这些问题。

CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

王联辉:想要大规模实践和应用Spark的人,这些话题一方面帮助大家了解目前我们Spark平台上的部分典型应用案例,另一方面帮助大家了解我们在Spark大规模实践应用过程中遇到的一些问题及其解决和优化方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 about云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档