11 月 17 日,金山办公登陆科创版,圆了小米集团创始人、金山软件董事长雷军和金山所有员工的“英雄梦”。算下来,从 1999 年以金山办公为业务主体准备上市算起到今天,雷军足足等了 20 年。
WPS 上市之际,除了引起了人们关于办公软件市场和前景的热烈讨论之外,还牵扯出人们对另一个更加深刻的问题——国产化软件及其安全可靠性的思考。受益于国产化趋势,WPS 的 PE 估值升至 35 倍,维持“买入”评级。正如天云数据 CEO 雷涛所说,这背后的深层次原因,核心实际上在于国内要“去 office”的趋势,所以,这个沉寂了多年,几乎被边缘化的办公软件产品才得以抖落尘埃,涅槃重生。
至于这款国产办公软件的水平,在虎扑论坛上大多数网友表示比较满意,有人认为与微软 office 相比,WPS 具有体积更小,比微软办公软件更安全的优势,甚至发出了“华人之光”的感慨。从中可以看到,只要功能、安全性等有保障,国人似乎非常乐于支持国产化。
“国产化”、”去 IOE”,国产浪潮来袭
在 IT 国产化浪潮下的影响下,“去 IOE”这个概念逐渐流行起来。这一概念最早由阿里巴巴提出,其本意是,在阿里巴巴的 IT 架构中,去掉 IBM 的小型机、Oracle 数据库、EMC 存储设备,代之以自己在开源软件基础上开发的系统。去 IOE 意味着接下来政府必须将数据安全牢牢掌握在国内企业手中,以防止数据丢失造成的一系列严重后果。
具体来说,去 IOE 还有以下两个解释:
第一个是指 IT 架构的更新换代,具体说就是以 IBM 为代表的主机、以 ORACLE 为代表的关系型数据库,以及以 EMC 为代表的高端存储设备,被新型的云计算技术所替换,也就是我们常说的“云化”。其中,主机被X86设备所取代,传统数据库被开源数据库产品替换,而SAN结构的高端存储也受到云化的存储产品和体系的冲击。这三方面中任何一项工作,都可以被冠以“去IOE”的具体表现。
第二个是指针对外国 IT 设备,特别是美国产品的“严打”,减少甚至不再购买 IBM、ORACLE、EMC 等企业的产品。
2008 年阿里提出去 IOE 时不少人觉得是痴人说梦,但经过多年运营,阿里云已经彻底完成了去 IOE 工作,即阿里云的硬件投入彻底抛弃了这三家传统企业,经历几次双十一的挑战之后该技术也趋于成熟。
HTAP概念横空出世
值得注意的是,这“去 IOE”中的“O”,乃是真正实现国内 IT 技术独立的关键所在,即去除对以 Oracle 为代表的关系型数据库的依赖,如 Oracle、SQLServer、Sybase、Informix、Access、DB2、MySQL 等。
由于关系型数据库具有保持数据的一致性(事务处理),以标准协议为前提,数据更新的开销很小,可以进行Join等复杂查询等特点,一直是数据库领域的关键一环。
多年以来,国内企业多使用这些国外数据公司主导的数据库产品,很少有一款产品能够与之抗衡。
直到2005 年,Gartner提出了 HTAP(Hybrid transactional/analytical processing,在线事务处理/在线分析处理数据库)这一概念,并迅速成为引起一些企业的关注,被很多人视为未来数据库领域发展趋势之一。
2014 年,Gartner 对 HTAP 数据库给出了明确的定义,HTAP 数据库需要同时支持 OLTP 和OLAP 场景。基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去了费时的 ETL 过程。
与传统 IT 架构有一些事务处理需要联机分析和分开处理不同,HTAP 数据库能够在一份数据上同时支撑业务系统运行并做 OLAP 场景,这样就避免在传统架构中,在线与离线数据库之间大量的数据交互。
它会代替 Oracle 吗?
既然 HTAP 有这样的优势,它能够替代 Oracle 吗?
数据资源发生变化的当今时代,生产数据发生了哪些变化?数据消费者随之发生了什么改变?数据架构、计算、信息发生了哪些改变?带着这些疑问,CSDN 采访了天云数据 CEO 雷涛,请他来谈一谈关于 HTAP 和大数据技术的那些事。
记者:在从 IT 向 DT 时代的转换过程中,产品和技术得以飞速发展,行业需求或痛点发生了哪些变化?
雷涛:回到刚才 WPS 的故事。我们看到,WPS 上市代表一种国产化的趋势,WPS 替代了Windows Office,但事实上真是 WPS 做端到端的复制替代 Windows 吗?从我作为一个消费者的体验上来看,我个人会在手机上和 pad 上使用像印象笔记这样的软件,不再使用编辑软件了,我不再关注到底用粗体还是斜体来排版,我关注的是,拿起任何一个设备,它都是同步的,能够保持信息的一致性。所以真正替代 OA 的升级,并不是找到一个完整的 Word 的替代品——WPS,而是找到了下一代产品大的迭代需求。
而这个大的迭代需求,就是我们针对“去O”这个问题,我们做了一两个大型商业银行的 Oracle 替代,但很快发现,它的真实市场并不是点对点替代,而是在整个需求发生升级迭代的过程里出现一个新的消费市场,即 Oracle 在做的是几百万条交易规格的强一致性,不仅是性能,更重要的是数据的移动性、计算框架的变化,比如我们的联机事务同时要做大规模并行计算。以前大数据挖掘的机器学习也要跑到这个数据平台,对计算场景的通用性、即时性和全量数据的这些要求都是传统架构无法适应的。我们现在看到的更多的是,不是替代 Oracle,而是如何升级 Oracle 的市场需求,即我们所说的混布数据库。
记者:“去IOE”开始,有关数据库国产化的话题就一直是市场关注的焦点,您认为国产数据库的安全可靠如何量化,据了解很多银行、政府的关键业务还在用外企的产品,国产数据库的破局点在哪?
雷涛:之前,从运营商到银行核心系统,大的架构都垄断在西方的 IOE(IBM、Oracle、EMC)这三座大山里,而“去 IOE”,最难的是去“O”。
记者:为什么要提 HTAP?天云数据的 HTAP 产品 Hubble 会直接替代 Oracle 吗?
雷涛:不是不可能。数字中心的核心交易系统,我们已经在银行实施,实现了 Oracle 最贵的一体机的替代。
记者:有没有实际落地、应用的行业案例可以分享?
雷涛:用一个案例的数据可以说明。我们的切入点是以金融为核心的系统。现在,混布数据库处理其中超过两千的核心表,400 多亿条交易数据,56 个在线服务交易,满足了 500 个用户并发,500 毫秒的交易响应,每天的在线交易额,包括柜台、手机银行、网银,两百多万,占整个 A 类银行核心系统交易种类的10%。现在,国内少数几家商业银行都换成分布式系统了,但还都是在 MySQL 开源体系中,我们是唯一一个在分布式的 New SQL 下面去做的。这个是“去 IOE” 最根本和彻底的。
记者:替换成本银行承担得起吗?
雷涛:就是谁愿意先尝试创新,这个系统已经在银行上线了三年,但是银行很低调。很多人以为银行的信息化比互联网慢,但其实不是这样。我们原来做互联网和运营商,每天新增交易规模1700 亿记录,就觉得已经是包打天下了,到银行,一个交易跨一千多张表的复杂度、关联度,动辄四千多行 SQL 语句一个交易,而且交易规则是非常复杂的,所以,银行不仅数据规模量大,而且银行体系还面临着银监会的监督,不容出错,对于交易系统的投资大太多了。
记者:OLAP(On-Line Analytical Processing,联机分析技术)和 OLTP(on-line transaction processing,联机事务处理)真的是资源矛盾的需求么?
雷涛:现在国内外有企业在做新型的 HTAP 产品,事实上是在解决联机事务和密集计算,以前TP、AP 是分开场景来算, 必须做选择,鱼和熊掌不可兼得。
AP 的操作和 TP 操作的矛盾在存储里早就有表达,存储的SPC性能设计只能满足其一,AP 就像我选一个大巴来接人,来一支球队,我派一辆大巴全接走了,而 TP 就像是一辆随叫随走的礼宾车,每来一个人,派一辆高档的礼宾车把人接走,它对随机访问能够即时服务和响应,讲究服务质量和高并发,但是不讲究吞吐和带宽。所以,AP 是体量的计算的复杂度问题,它可以容忍服务的下降,而 TP 是强调高并发服务的低延迟响应,以及强一致性的事务保证。似乎在存储上也是这样,它的底层也是Random IO和sequence IO,这两个随机的和持续的连续 IO,完全是两套矛盾的服务,为什么最后出现了像 EMC、cymatrics、HDS 的 HP 的 XP 高端旗舰级存储,它就是把这个问题拆解,可配置量化,一个高端存储可以进行内部位图设计的定制化,还可以互相调整和Balance,做复制时可以基于位图的元数据控制,而不用动真实的数据,所以旗舰级存储轻量、快速,能满足多种目标。所以融合型产品最终体现在企业高端上可控和可被颗粒化。
HTAP 提的这个方案就是这样,纵观 Google 的技术发展历程,从最早的 Big Table 就是基于HDFS 这种模式,它特别适合 AP,即有大规模数据吞吐,但它是批处理操作,到后来的F1 Spanner架构,基于 Paxos 协议,密集同步,强一致性保护,它开始逐渐地拆解得非常细,也就是在 HTAP 场景下,我们会把控制的颗粒度,如整个交易的IO流程和交易流程拆到不同的层级,从如何做存储,每一张表对应 AP 和 TP 场景的问题和存储,到调度层等逐渐分解。Impala 的 AP 做得很好,但是为什么不能解决并发?因为它是进程级的,没有拆解到线程,线程就可以控制到很微小的颗粒度,可以解决并发和很多资源调度问题。然后再往上的逻辑层,基于MVCC机制和像 Raft 这样的协同机制,可以在交易逻辑层来完成更细颗粒度的表达。这很像十年前,旗舰级存储出现时能适应不同的场景,满足不同的需求。
记者:如何满足不同的场景需求,move code or move data?
雷涛:满足的目的是什么呢?不要去动数据,而是动代码,这是我们提出的一个概念:move code,还是 move data。为什么 HTAP 现在这么关键?因为我们现在在大型的银行,现在有一些迫切的刚需出现了,move code 还是 move data 这个问题源于现在的数据发生了变化,数据资源发生变化了,现在我们谈的 4 个 变化,核心就是从交易转向行为和机器生产,大量IOT、物联网的数据产生,数据密集度高、体量大,产生速度又快,这让计算框架结构产生根本变化。这是第一个变化因素。
第二个 Driver 是数据消费者变化,原来的数据消费者是少量的报表、仪表盘,BI 和数据仓作为消费者。对于 TP,其实没有数据消费,TP 是流程,数据是产生的副产品,挖掘数据的价值会随着交易流程的结束而结束。一般都会复制到数仓,甚至复制到 SAS。数据挖掘,就是机器学习这块消费数据,以前AP很少量的数据消费,比如一个仪表盘,就是一两个数仓的管理员在看,但现在,我们碰到大量的需求是什么呢?原来上大屏的数据可视化的那些项目,全部推送到了了移动端,就是个性化数仓/个性化价值仓提高单兵服务能力。比如一个营业厅应用有六万多人,同时在线需要至少五百个并发/秒,理财经理要在某一时刻看到大客户的结息、净值等一系列的数据服务,且都是个性化的。所以,这意味着,以前的 AP 需要提供高并发服务,因为数据消费者一下子增多,从以前的几个老板,看 BI 的东西,变成了很多一线员工要进行数据消费,这对并发的要求把 AP 推到 TP 场景里。
记者:因为移动化了?
雷涛:因为数仓消费化,所以,一下子把大量数据计算内容推到了 TP 场景里。同样,现在 TP 越来越复杂,大量交易都带着权益,且要求交易要即时服务,比如权益类业务,很多现在都是Online,所以使得 TP 场景越来越重,核心系统的交易部分要做得计算的跨越的表越来越多。如此大量的 TP AP 化,AP TP 化,这是场景问题。
这提出了一个问题:我们如何合并这个过程呢?即我们要处理好两个核心要素,一个是计算,一个是数据,这两个角色开始发生变化,原来是以计算为核心,现在要以数据为核心。但说的容易,这其中涉及到架构的变化,即 move data 还是 move code 的问题。
互联网来临时,PC、desktop 时代和互联网时代两者之间比较的是 file和page,FTP 和 HTML,一对比就知道,以前是把文件搬来搬去,code 不动,应用服务器就在 FTP Server 上,代码不动,动数据。但是在互联网时代,我们发现页面不动,访问请求在不断地链接,所以我们在 move code,这是发生在信息层面本身的。
第二次革命发生在计算框架本身,就是 MapReduce 和 IOE 的区别,MapReduce 是Google Big table 这套体系,data 被切碎放在所有的磁盘上,每一个数据的计算都是 CPU 在计算,所以代码被切碎了送进去,数据不动,就是 move data。而现在是把 code 送进去,在存储上计算 data,代码切碎了送进去,而不是把数据拿出来,在一个大型或小型机上算好。MapReduce、Big table 这次的迁移实际上是计算框架的变化。
而这一次,HTAP 事实上是数据中心架构的变化。
原来有一个 Oracle 做交易,完成了整个流程性应用的内容,自动化写的代码,数据是它交易的副产品,交易结束了,数据的生命周期也结束。要想把数据价值做二次表达,我们要每天做ETL,跑批作业,存到数据仓库中,然后在数据仓库中建模、挖掘、数据集市、ODS,一层一层地构建起数据仓库报表。如果还回答不出更细节、隐含的问题,比如非线性问题,还要把数据复制到SAS中做机器学习,再做统计的指标体系,去做进一步的挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。现在,数据中心也开始要做一个融合性的计算框架。比如,现在AI要做online训练,淘宝推荐引擎,滴滴打车的路径动态规划都在做即时数据,数据闭环是数据基础设施的一个很大的要求。BI和AI操作都要Online化,也就是AP操作要变成TP场景。
回到我刚才说的需求,现在的AP都是高并发的数据服务,都是要TP的应用场景出现了,但是这是一个体量巨大的密集计算,以前我们认为是AP的东西,现在要求,并发和即时,以前的机器学习,比如快速做逻辑回归,贝叶斯、规划、动态规划算法等都需要online做,这些都要求底层有一个融合的数据平台,这是第一个需求,即不能再搬家了,这是融合性数据库的根本性需求。
这种需求不是让你在AP和TP之间做选择,新的架构要解决TP AP化和AP TP化的问题。HTAP会成为未来的一个主导性趋势,而不是一个边缘的补充,因为以数据驱动业务为核心的,会越来越落回生产事件。
记者:这是一个真正具有业务场景需求的功能。
雷涛:而且未来三五年它是主导趋势型的,它不会再区分出一个小TP加上一个重的离线的批处理 AP了,未来,要想让你的前端和企业有弹性、灵活,现在的数据中台服务底层都应该是混布的。
记者:未来,HTAP 还会有更多待开发的场景,您认为它将会向哪个方向发展?
雷涛:我们大量的机器学习也是要跑HTAP的,因为现在很多算法都是即时的,我们能够替代SAS的机器学习的服务,不是靠算法的优势来替代,深度学习真正在流程替代里不多,通用机器学习是最多的,而通用机器算法几十年前就存在,今天要获得其最大的价值,要把数据的价值挖掘出来。
真正做AI的人都会特别依赖HTAP,数据供上来,算法就没有价值了。我们做数据驱动分为几个阶段:
第一阶段是发生了什么?我们做报表、监测、统计等;第二个阶段是为什么会发生?我们做数仓,能够回答一些多视角的问题;第三阶段是做预测,做机器学习,预测将来会发生什么。
记者:HTAP 的需求如此强烈,未来的独角兽会出现在哪里呢?
雷涛:现在大家首先会看到几个场景的需求,第一个爆发出来的需求是数据库的国产化,这一波是由政策推动的一个巨大的市场红利,尤其是在资本市场已经显示出来了潜力,比如 WPS这个边缘的办公应用组件都能有如此巨大的市值,大家的预期很高。我们是要找一个上世界的替代品呢,还是用发展的眼光去看,找到新世界的需求?因为这个世界总是在变化的。
就像在早期,互联网发展大多基于LAMP(Linux、Apache、MySQL、PHP)架构,是向企业级架构学习,对照着企业级的“婴儿版”、“幼儿版”产品,做出对应的便宜、开源、轻量、廉价的互联网,比如Facebook最早的Lamp架构。但很快,Facebook LAMP架构就推倒重来了,因为它扛不住。互联网带来的不是廉价,而是更迅猛的数据资源爆发。交易数据是最早的数据属性,数据是流通的副产品,但是互联网驱动的是行为数据,行为数据要远大于交易数据,行为数据带来的系统架构绝对不是靠廉价,而是靠高并发、高扩展、更松耦合的高服务能力来完成的。我们很少看到Google宕机,它不是靠高可用性来保证,而是靠整个服务的容错。在行为数据中诞生了新的架构,不是LAMP抄了一个企业级的版本,而是生成了一个新的分布式架构。同样地,今天我们看Oracle替代这个问题,我们不是找了一个像WPS替代Office的版本,而是要找到Oracle下面的分布式,能够碾压一体机,能够适应万亿记录规则场景的方法。这是一个新的营销的市场,一个新的蓝海。
更多技术干货现场听!
关于数据库和 HTAP 涉及到的话题和问题,远远不止于雷涛在此次采访中所谈,比如很多企业和技术人员都在思考的数据库转型问题。
随着 5G 技术迅速发展,数据增长越来越快,对分布式数据库、实时数据库、图数据库的需求也越来越多。在今年中国大数据技术大会(BDTC 2019)的新一代数据库转型论坛上,雷涛带来题为《大数据体系下HTAP数据库》的演讲,对 HTAP 数据库和天云数据的 HTAP 数据库产品 Hubble 进行全方位的解读,让企业和技术人员更加了解这项将对大数据领域产生重大影响的技术,洞悉 HTAP 未来发展的趋势。
本论坛主要讨论了分布式数据库特性,包括Key/Value,Schema-less等数据库(OLTP、OLAP、HTAP等),重点介绍列存储数据库、行存储数据库,文档型数据库以及图数据库,并具体介绍MySQL、OceanBase、Greenplum、TiDB、Neo4J、ThinkerPop等,并且会深度分析他们在各种行业的应用实践。
雷涛个人简介:
雷涛现任天云融创数据科技(北京)有限公司(简称天云数据)首席执行官。雷涛拥有 20 余年北美信息科技公司从业经验,2005 年入席 SNIA 存储工业协会中国区技术委员会联合主席;2013 年首批 CCF 中国计算机学会大数据专委会委员;长江商学院特聘导师,博士后工作站企业导师。2019年第九届“吴文俊人工智能科学技术奖”获得者。