首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Facebook的开源Native大数据引擎Velox能成为我说的又好又快的Native引擎吗?

Facebook的开源Native大数据引擎Velox能成为我说的又好又快的Native引擎吗?

作者头像
用户1564362
发布于 2022-08-29 04:10:16
发布于 2022-08-29 04:10:16
1.1K0
举报
文章被收录于专栏:飞总聊IT飞总聊IT

新粉请关注我的公众号

昨天公众号的文章:这个大数据开源项目多半要黄,但我希望它能成。。。写了以后,后台留言最多的就是问我怎么看Facebook的Velox这个开源native引擎。

其中,有该团队的人说,Gluten也和他们合作,现在已经基本上能够替换Facebook内部的Presto了,Spark的替换还在开发中。

这个问题的答案,说实话,我也不知道。我没研究过它的代码。所以我也没有什么发言权。相比较而言,ClickHouse我还真的看过一些源代码,懂得多一点。所以多少能扯上几句。

但是我如果就这样回答了,你们估计也不满意,所以我们拉长时间看一看Facebook过往在大数据开源项目的时候都发生了一些什么。

以史为鉴,如果Velux有Facebook的基因,秉承了Facebook的文化,那大概率我们也可以从过去去预知未来。

Cassandra是一个Facebook开源的项目,模仿Amazon DynamoDB而作。Facebook后来在Messenger的技术选型中决定选择HBase,也就很快亲手的停止了对自己亲儿子的支持。

如果不是因为后面Datastax选择了支持Cassandra,并作为其创业项目的话,Cassandra估计现在已经坟头长草有些日子了。

HIVE也是Facebook早年的贡献。自从Facebook内部的Presto团队战胜了HIVE团队以后,Facebook对开源HIVE怎么发展也就约等于任其坟头长草了。

当然题外话,最牛逼的还是那个Hortonworks。一群写Pig的人开始肆意的魔改HIVE,为了引进TEZ的支持,把HIVE代码硬是搞成比一坨屎还要一坨屎。这也算是开源界的奇葩了。当然这是题外话。

Presto开源的时候,一开始大家期望很高,而且Presto也是Facebook最成功的开源大数据项目。但是没过多久,社区的人就对这个项目有意见了,主要是大家觉得Facebook对Presto社区的发展不上心,只以自己内部需求重心,忽略了项目的长期发展和社区广大群众的需求。 

后面Presto的几个创始人跳出来,和Facebook撕逼,有了PrestoDB和PrestoSQL两个分支。Facebook又通过法律手段表明自己才拥有Presto的品牌,对方最后改名Trino。

当时发生事情的时候,几个创始人跳出来还给大家道歉,说我们过去总是以Facebook自己的需求为中心,忽略了社区广大群众的需要,这是我们做的不对。我们现在从Facebook辞职了,我们肯定会吸取教训改正等等。最后这些人都去了StarBurst,拿着这个项目分支创业去了。

这是大数据开源项目上的一件大事。当时我司准备上Presto的时候,正好赶上了大撕逼的时代,我司也很困惑到底要选择哪个阵营。这事情我全程参与了整个决策过程。

我司领导Presto团队的,是一个前Facebook的manager。对方当然一开始就倾向于站队Facebook。但是大跌眼镜的是,后面我司的几轮和两边的沟通之后,所有人一致,包括前Facebook的领导,都选择了另外一边。

为什么沟通之后大家都抛弃了Facebook?我摊开来和大家讲,就是Facebook对于Presto这个产品的未来规划,包括比较重要的一些feature等等,都是为了Facebook自己内部的需求服务,并不是为了这个产品的整体发展服务。简单总结,就是急功近利,不可持续发展。

我本人没有在Facebook工作过,所以我也不知道Facebook到底是什么样的企业文化,内部码农又是怎么样做事情的。

但是从我直接和间接的接触来看,在大数据开源项目领域,这个公司的文化表现在急功近利,不可持续发展方面是有历史的。很多的时候都喜欢通过短平快的方式走捷径达到目的,而走捷径是要付出代价的。

Facebook对大数据开源项目始终都不是以开源项目社区的长久发展作为第一优先级,而是工具应该服务Facebook的内部问题,最好的是,开源社区的人来一起帮助Facebook服务其内部需求为第一优先级。

总而言之,Facebook过往对大数据开源社区,不能说没有做出贡献,甚至说很多事情,一开始还是挺伟大的,应该挺有影响力的。但是由于Facebook做事情的方式,以服务自己公司最高优先级,对社区发展上,不上心没大局观,而且写代码爱走捷径,急功近利,这些都是有历史的。

我并不是说Facebook以前有过一二三次这种表现,就意味着Velox也会走这条路。但是我除了历史,也没有其他的东西可以参考。

所以你要问我Facebook的开源native大数据引擎Velox,能不能成为我昨天说的又好又快的native引擎,我只能说,我根据以外的历史,会比较谨慎的看待,多给些时间给对方成长。一定要我给个结论的话,我暂时不够乐观。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
初识大数据
最近几年IT技术的发展真的是日新月异,什么云计算、大数据、机器学习、AI等等名词层出不穷。多数程序员内心其实是恐慌的,我也时常会感到危机感。每每看到“xx培训,大数据就业,钱景好”我嘴上说不要,身体还是很诚实的。
叁金
2018/09/04
4410
初识大数据
惊闻Facebook开源大数据引擎Presto团队正在分裂
这几天忙着出差,跨大洋的飞又在祖国到处飞。受时差和疲倦双重影响,完全不想更新公众号。但是看到Presto团队正在分裂这个大事件,还是顶着疲倦和时差更新一发。
用户1564362
2019/05/06
1.5K0
惊闻Facebook开源大数据引擎Presto团队正在分裂
Facebook的新开源项目Velox,有点命运多舛啊。。。
本文首发微信公众号:飞总聊IT Velox是Facebook(Meta)开源的一个新的大数据项目。今年VLDB的会议上,Velox团队也发了论文。 我每年都有阅读论文的习惯,一般就是看看SIGMOD/VLDB,之前也去开会,疫情以后这方面都懈怠了。 今年的VLDB有几篇挺有意思的文章,所以我打算找时间看一下。 我第一篇看的就是这个大名鼎鼎的Velox。具体Velox是什么的可以看看官方宣传: https://engineering.fb.com/2022/08/31/open-source/velox/
用户1564362
2022/10/09
1.7K0
Facebook的新开源项目Velox,有点命运多舛啊。。。
大数据凉凉了?Apache将一众大数据开源项目束之高阁!
这两天Apache基金会,这个因为大数据而成名的开源基金会连续不断的宣布将一系列的项目束之高阁报废,也就是所谓的进入Apache Attic。这些项目的PMC委员会会解散。
用户1564362
2021/04/21
9970
想从事大数据、海量数据处理相关的工作,如何自学打基础?
想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。 现在有一个高大上的职业叫数据科学家,有人说数据科学家就是一个比程序员更懂统计的统计学家,一个比统计学家更会编程的程序员。觉得说得很形象。
用户2292346
2018/07/02
5320
大数据那些事(30):Presto之坑和萝卜傻子和骗子的故事
在interactive的旗帜下的不仅仅有Google的Dremel或者是打着Dremel的开源项目的Drill,以及曾经打着Dremel的开源项目现在说自己是MPP的没有毕业的Impala。2013年初的时候,Facebook放了一炮,开源了一个叫做Presto的东西,号称是内部的开源的interactive query。 我必须说Presto我只是玩过,和Drill的使用经验差不多。有关这个东西的体系架构有很多东西分析了,基本上是一个分布式内存计算引擎,主要支持的是hash的实现。我就不展开说了。只是其
用户1564362
2018/04/08
1.2K0
大数据平台技术栈
Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。
物流IT圈
2019/07/16
2.3K0
大数据平台技术栈
这个才200个人的公司,竟然有4个CTO!!!
2022年过得真快,12月了,我还有几个技术相关的话题一直想写却没写。今天本来是写其中一个技术话题的,结果,查资料发现,还是先写写八卦吧。
用户1564362
2023/01/10
5130
数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展
<数据猿导读> 刘德寰教授在接受数据猿采访时说到,公共卫生跟人的生命密切关联,未来,大数据一定会在公共卫生领域有巨大的应用前景跟爆发式发展;但同时也很担忧,现在很多投资人都是一帮年龄不大的孩子在看项目,对大数据的认识也深入不到哪去;从业者也都急功近利只看眼前能赚大钱的项目不利于行业的长远发展。 来源:数据猿 记者:张艳飞 数据猿报道,在友盟+ 2016 UBDC全域大数据峰会上。数据猿作为现场独家图文直播与大数据专访媒体,有幸采访到了莅临会议现场的多位重量级嘉宾。 以下是数据猿记者
数据猿
2018/04/19
5110
数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展
Spark为什么能成为大数据分析主流工具?
一.Spark是什么 Spark是伯克利大学2009年开始研发的一个项目,它是大数据时代下的一个快速处理数据分析工作的框架。spark发展十分迅速,2014年,Hadoop的四大商业机构均宣称全力支持Spark,今后将全面接收基于Spark编写的数据挖掘与分析算法,多家世界顶级的数据企业例如Google,Facebook等现已纷纷转向Spark框架。 近两年,Spark在中国的发展达到了一个前所未有的状态和高度。其中阿里巴巴的搜索和广告业务,最初使用Mahout和MapReduce来解决复杂的机器学习问题
CDA数据分析师
2018/02/13
3K0
Spark为什么能成为大数据分析主流工具?
大数据面试:面试官要求我了解过Presto——Presto到底是个什么东西
城市匹配 技能匹配 福利匹配 还是一家游戏公司 (典型的钱多离家近,事估计少不了了 ) 三配下来我不得不认真研究该公司的职位要求:
Maynor
2021/08/10
1.1K0
大数据开发:分布式OLAP查询引擎Presto入门
在之前的《大数据开发:OLAP开源数据分析引擎简介》一文当中,我们对主流的一些开源数据分析查询引擎做了大致的介绍,今天的大数据开发分享,我们具体来讲解其中的Presto查询引擎,是什么,为什么会出现,又能够解决什么样的数据处理需求。
成都加米谷大数据
2021/01/19
1.4K0
大数据开发:分布式OLAP查询引擎Presto入门
PRESTO-分布式大数据SQL查询引擎
http://prestodb-china.com/ PRESTO是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 它可以做什么? Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。 一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。 Presto以分析师的需求作为目标,
Albert陈凯
2018/04/04
1.7K0
硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践
Twitter是最早一批推进数字化运营的硅谷企业之一,其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。
IT阅读排行榜
2021/06/01
8550
硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践
大数据的起源和错失大数据市场的鼻祖Google
大家好,我是飞总。目前就职与全球领先的大数据可视化公司Tableau。应该有很多人以前就读过我的大数据系列的公众号文章,我今天的这个讲座和以往的嘉宾都有一些不同。讲的不是现在流行的大数据工具和使用大数据来解决业务的具体问题。主要的原因有两个,一个是我主要做系统的研究和开发,而且讲的不是现在流行的大数据工具和使用大数据来解决业务的具体问题。做的都不是开源的系统。开发和使用来说差别比较大。所以我并没有使用系统解决实际问题的经验。二是我本身的背景很多出自学术圈,读论文讲八卦为主,所以大家可以听得轻松一点。 今
用户1564362
2018/04/08
1.9K0
大数据的起源和错失大数据市场的鼻祖Google
Facebook背后的开源力量
尽管Google极其推崇开源,并推出大量的开源项目,但是从根本上来看,Google的开源力度、开放程度远远比不上Facebook。这也是为什么Facebook能够在短短的几年间,一跃成为全球最大的社交网站的原因之一。
阳光岛主
2019/02/19
9770
【学习】开源大数据查询分析引擎现状
文|叶蓬 【按:此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品,转载于此。这些基础性的研究和测试对比分析,对于我们的BDSA技术路线选定大有帮助。】 引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon D
小莹莹
2018/04/23
3.3K0
【学习】开源大数据查询分析引擎现状
盘点大数据生态圈,那些繁花似锦的开源项目
随着互联网和移动互联网的发展,时下我们正处在一个大数据的时代。在数据金山的诱惑下,各个机构纷纷开始探索从数据中提取洞见并指导实践的可能。而在这个需求的刺激下,在过去数年,大数据开源生态圈得到了长足的发展——在数据的整个生命周期中,从收集到处理,一直到数据可视化和储存,各种开源技术框架林立。 以这些开源技术为基石,业内涌现出一系列令人敬佩的大数据架构实践,而《程序员》电子刊9月B大数据实战与技术专题则摘录了电商、金融、游戏等行业的大数据应用,并覆盖了当下热门的大数据开源技术实践与技术细节,如Hadoop、Sp
CSDN技术头条
2018/02/09
8490
盘点大数据生态圈,那些繁花似锦的开源项目
比Hive快500倍!大数据实时分析领域的黑马
大数据实时分析领域的黑马是ClickHouse一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。
程序员小强
2019/09/20
1.4K0
比Hive快500倍!大数据实时分析领域的黑马
大数据组件图谱
      HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
爱撸猫的杰
2020/03/25
3.8K0
大数据组件图谱
推荐阅读
相关推荐
初识大数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档