Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >蒋鸿翔:网易数据基础平台建设

蒋鸿翔:网易数据基础平台建设

原创
作者头像
DataFunTalk
发布于 2022-06-14 06:26:51
发布于 2022-06-14 06:26:51
7230
举报
文章被收录于专栏:DataFunTalkDataFunTalk

导读:首先简单介绍一下网易杭州研究院情况简介,如下图所示:

我们公司主要从事平台技术开发和建设方面,工作的重点方向主要在解决用户在数据治理中的各种问题,让用户能更高效地管理自己的数据,进而产生更大的价值,比如如何整合现有功能流程,节省用户使用成本;增加新平台不断调研,丰富平台功能;新平台功能、性能改造,从而满足用户大规模使用需求;根据业务实际需求,输出相应的解决方案等。今天分享的内容主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年的大数据建设经验。

--

01 数据库技术

数据技术主要有InnoSQL和NTSDB,NTSDB是最近研发的新产品,预计明年将向外推荐此产品,InnoSQL属于MySQL分支方面的研究大概从2011年开始的,InnoSQL的主要目标是提供更好的性能以及高可用性,同时便于DBA的运维以及监控管理。

RocksDB是以树的形式组织数据的产品,MySQL有一个MyRocks产品,我们内部将其集成到InnoSQL分支上。这样做的原因是公司有很多业务,很多都是利用缓存保持其延迟,其规模会越来越大,这样就导致缓存、内存成本很高;其业务对延迟要求不是特别高,但要保持延迟稳定(小于50毫秒)。

RocksDB能够很好地将缓存控制的很好,随着缓存越来越大,有的公司会将其放到HBase上,但是其延迟有时波动会很大,如小米HBase很强,但还是做了一个基于K-V模式的缓存处理,主要解决延迟波动问题。我们主要是基于开源产品来解决,如将RocksDB集成起来解决公司业务对延迟稳定的一些需求。

InnoRocks由于是基于LSM,因此对写入支持非常好,后续有内部测试数据可以展示。还有就是LSM压缩比很高,网易一种是替换缓存,一种是普通数据库存储,目前还是用InnoDB存储,如果用InnoRocks存储会节省很多存储空间;还有一个就是结合DB做扩展,将其集成到公司内部。

上图是写入对比,是一个普通的写入测试,其主介质是递增型的,对于两个都是一个顺序读写过程;如果要完全对比还要测试RFID写入测试,这样能够明显反应RocksDB和InnoDB的差距。图中RocksDB写入性能比InnoDB要好,读取性能InnoDB性能比RocksDB。300GB原始数据,分别导入到Inno DB(未压缩)和Inno Rocks后的存储容量对比,Inno DB为315GB左右,Inno Rocks为50 ~ 60GB,存储容量是Inno DB的20%到30%。

InnoRock一般场景是替换InnoDB写入,因为其写入性能、压缩性能更好、成本也更低。另一方面能够解决InnoDB延迟不稳定,替换大量的缓存应用,只要其对相应时间没有特殊要求。

(1)大量数据写入场景,比如日志、订单等;

(2)需要高压缩以便存储更多的数据,Inno DB --> Inno Rocks;

(3)对写入延迟波动比较敏感,HBase --> Inno Rocks;

(4)相对较低的延迟要求(10 ~ 50ms)下替换缓存场景(延迟<5ms),节省内存成本, Redis --> Inno Rocks。

InnoSQL是MySQL一个分支,同时还做了一个时序数据库。其不依赖第三方存储,重新做了一套。其架构也是列式存储,支持倒排索引等不同索引组织形式。对大型数据公司时序数据库集中在访问时通过什么去访问,我们提供SQL层给外部应用去访问,应用简单。

NTSDB特点有聚合运算相关算法,时序数据库相对于关系型数据库没有特别复杂的查询,最常见的使用类型是宽表使用,在此基础上做一些聚合算法、插值查询。

NTSDB应用场景很多,很多应用都可以基于时序数据库来做,最常见的就是监控系统,有一些外部应用也会对接监控系统。外部应用中,现在RIT比较火,时序是其中比较重要的一环,很多设备目前都需要联网,数据的产生都是以时间的形式产生,有的通过规则引擎处理存储在时序数据库中。

--

02 大数据技术

我们大数据平台整合了一些开源社区的一些组件,内部进行一些产品化的改造和bug修复。最顶层是大数据接入层,作为大数据平台,业务平台很多数据来源于数据库,也有很大一部分来源于日志。通过NDC做全量数据导入,如有些数据在Oracle中,通过NDC导入,后续可以通过数据变更来进行同步,还有一个通过dataStream将日志数据录入大数据平台。数据存储层大都差不多,都用HDFS 存储,搭载一些HBase分布式存储;数据计算大都是离线计算平台,内存计算是基于Spark;数据加工和一般大数据平台都差不多,我们加入了自助分析、任务运维,后续会详细介绍。接下来介绍自助分析里面应用的一个插件Impala,以及分布式存储系统中的Kudu平台。

应用Impala目标是解决大数据量下的ad-hoc查询问题,ad-hoc是介于OITP和OIAP中间的一层,OITP是响应层很快,毫秒级;OIAP查询有时会耗时很久。ad-hoc定位与1分钟到几分钟,现在很多业务需要ad-hoc提供,如公司报表,有时需要实时计算,响应在5秒-1分钟延迟。

Impala架构特点就是每一个节点都是无状态节点,节点查询地位一样,查询无论发送到哪一个节点都可以生成查询计划、产生结果。查询打到哪一个节点就能生成执行计划,将对应的节点分配给对应的处理节点,将所有节点返回后做一个规则,然后做一个返回。基本所有的MPP架构都是类似。

选择Impala而不选择其他工具的原因:首先它有元数据缓存,好处是节点缓存元数据做查询时不用再去获取元数据,缺点就是元数据爆炸问题;再者就是Impala兼容Hive,元数据可以和Hive共享;同时还支持很多算子下推。Impala最好使用方式是通过Impala自己insert然后通过其自己去查,实际过程是通过Hive和Spark写入大数据平台,通过Impala来做查询。这种方式有些限制就是写入时Impala无法感知写入,还有在Hive更改元数据,Impala能读取数据但是无法动态感知,为了解决这个问题官方提供手动刷新操作。

Impala缺陷就是所有节点都是MPP结构,没有统一的Master入口,负载均衡不易控制。底层数据权限粒度控制不够,HDFS转HBase是以同级HBase身份访问,Impala访问底层需要以Impala身份访问。这种问题尤其在同一平台下分有很多业务时,用Hive写数据时,访问权限就会有问题,因此我们在内部权限访问方面做了改造。每个coordinator节点都能接收SQL,没有集中统一的SQL管理,如果挂掉所有历史信息都无法追踪。

我们基于Impala问题做了相应整改:

(1)首先是基于Zookeeper的Load Balance机制;

(2)管理服务解决SQL无法持续化问题,管理服务器保存最近几天的SQL和执行过程,便于后续SQL审计,超时SQL自动kill;

(3)管理权限将底层权限分得很细;

(4)元数据缓存问题,增加与Hive的元数据同步功能,Hive记录元数据变更,Impala拉取变更自动同步,这种只能缓解元数据爆炸问题。

遗留的问题就是元数据容量,过滤智能解决部分问题;还有一个就是底层IO问题,因为离线写入和Impala查询是同一份数据,如果写入吃掉很多IO,查询就会出现问题。离线本身对IO敏感很低。除此之外我们还引入了ES技术,公司ES业务也有很多,碰到问题就是ES在SQL支持方面不是很好,目前我们的Impala支持一些ES的查询。

Kudu用于解决离线数据实时性问题,HDFS存K-v数据,类似IOAP访问,Hive是来做离线分析的,Kudu就是想同时做这两件事情的背景下产生的。行为数据是在离线平台上,用户数据是实时在数据库中,如快递行业经常需要追踪快递的位置,离线平台就要经常做自助分析,需要将数据库中的状态实时同步到离线平台上去。目前做法就是数据库批量写入Hive表中,同时你的批量不能太小,容易产生很多小文件,这样可能造成数据实时性很差,一般是半小时到一小时的延迟。大部分业务可接受,但是对于对延迟敏感的业务可能不支持,Kudu就是解决半小时到一小时的数据实时性。

Kudu是一个存储平台,不依赖于任何第三方存储系统,目前更类似于数据库形式,Impala既能访问Hive中的数据,也能访问Kudu中的数据,这样的好处是两边的数据可以进行联合查询。Kudu现在也支持Spark,也可以直接通过API访问。上图是Kudu的结构划分到内部数据组织形式,Kudu支持Tablelet操作而HDFS不支持。前面的结构和HBase挺像,不同的是数据组织形式是不一样的,Kudu可以做一些分析性的业务查询。最主要的区别是数据存储格式不一样,Kudu是Column Family级别列存,先整个切一块然后再做列组形式。

Kudu跟HDFS相比性能还是有差距,Kudu由于需要支持update,在内存 & 磁盘上数据的存储采用Base + delta形式,Base记录基本的数据,delta记录修改的数据,所以数据读取时需要同时读取Base + delta两部分数据。

Kudu优化主要是:

(1)支持Kudu tablet的split;

(2)支持指定列的TTL功能;

(3)支持Kudu数据Runtime Filter功能;

(4)支持Kudu创建Bitmap索引。

我们主要是按照HBase进行优化,在有需要情况下优化,HBase有而Kudu没有就对照的做。

Impala里面对HDFS有一个Runtime Filter功能,Kudu表上没有,我们先分析下它到底有什么作用,是不是有性能上的改进,将其移植过来。Runtime Filter主要是用在大表和小表做关联时使用,在关联时做成hash表,绑定到所有大表节点上去,在大表扫数据时利用hash表做过滤,因此在底层扫描就已经过滤掉很多数据,就可以省略很多不必要的计算。上图是Kudu的是否有Runtime Filter的结果对比,可以看出减少了很多计算量,原先需要几秒,现在只需秒级显示结果。结果对比有了很大的改进,虽然还是有差距,目前也在改进,目标是和Impala相差不是很大。

还有一个场景就是在Kudu上做Bitmap索引,主要面向的业务是宽表的多维过滤,有些表的查询会依据后面的实例去确定查询,这种用Bitmap做比一个个找出来查询性能要优越很多。另一个好处就是group by,因为其要将相同类型合并到一列,主要是做hash或者排序,这种查询会很快,而不用做全局排序。Bitmap应用的限制就是数据离散性不能太好,dinstct count的值不能太多,向数据库中主键不适合做Bitmap,像省份等值比较少的适合做Bitmap。

应用后用TPC-H中的一张表测试,Bitmap主要应用多维场景过滤,从一列过滤、两列过滤、到五维过滤整个表现很好,性能提升有十几倍提升。如果数据从数据库导入大数据平台离线分析其实时性比较慢,主要局限小文件以及导入批量大小问题,利用Kudu就不用考虑,可以直接通过Kudu实现数据变更导入大数据支持实时联查。而且可以实时同步Oracle和MySQL数据到Kudu中,进行联查就可以了,如果没有就需要同步查询可能需要半小时才能返回结果。


今天的分享就到这里,谢谢大家。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Apache Hudi在医疗大数据中的应用
本篇文章主要介绍Apache Hudi在医疗大数据中的应用,主要分为5个部分进行介绍:1. 建设背景,2. 为什么选择Hudi,3. Hudi数据同步,4. 存储类型选择及查询优化,5. 未来发展与思考。
ApacheHudi
2021/04/13
1.1K0
一文看懂大数据生态圈完整知识体系
👆点击“博文视点Broadview”,获取更多书讯 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。 目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。 图1 1 数据采集技术框架 数据采集也被称为数据同步。 随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些
博文视点Broadview
2022/08/26
6190
一文看懂大数据生态圈完整知识体系
网易基于 HBase 的最佳实践
本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。
大数据技术架构
2020/03/11
1.6K0
Kylin 最佳实践|爱奇艺如何处理千亿级数据
爱奇艺发展的大体时间线,2015 年前以离线分析为主,技术上是经典的 Hive + MySQL 方案,但缺点是报表查询比较慢,而且数据时效性差;2016 - 2018 年致力于将查询耗时提升至交互式级别,分为两大类:Kylin 针对固定报表,在维度比较有限的情况下,通过一个预处理,TB 级别数据延时能在秒级,而 Impala 则针对 Ad-hoc 类场景,可以查询任意明细数据;2018 年以后从离线往实时去发力,其中 Kudu 支持实时插入和更新,Druid 支持事件流场景。
Spark学习技巧
2021/03/05
5660
Kylin 最佳实践|爱奇艺如何处理千亿级数据
大数据生态圈常用组件(二):概括介绍、功能特性、适用场景
点赞之后,上一篇传送门: https://blog.csdn.net/weixin_39032019/article/details/89340739
不吃西红柿
2022/09/26
1.6K0
Apache Kudu 对频繁更新数据场景下的大数据实时分析最佳用例
由于最近两次在大数据项目中使用Apache Kudu,写一篇文章谈谈对Kudu的一些看法和使用心得。
用户4977942
2019/03/29
5.2K0
Impala在网易大数据的优化和实践
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。
Spark学习技巧
2021/03/05
1.4K0
Impala在网易大数据的优化和实践
趣味解析,斗鱼直播大数据的玩法儿
作者 | 吴瑞诚 文章来源GitChat,CSDN独家合作发布,查看交流实录:http://gitbook.cn/books/58f8d1b07624530e1545fb7a/index.html 斗鱼是时下国内最大的游戏直播平台,日活用户达2000万,主播日活达40,000人,ALEXA全球排名约200名、国内约20名(高于优酷、Bilibili等站)。本文作者吴瑞诚,目前负责斗鱼数据平台部,本文中他将分享斗鱼大数据这块的玩法儿,包括斗鱼大数据平台的整体架构、斗鱼数据仓库、斗鱼个性推荐系统以及斗鱼风
CSDN技术头条
2018/02/08
2.6K0
趣味解析,斗鱼直播大数据的玩法儿
客快物流大数据项目(三):项目解决方案
干线运输指的是运输的主干线, 在主干线上有最大的运力,一般快件的运行都是由支线去向主干线去汇集, 由主干线运输过去
Lansonli
2021/12/27
9010
客快物流大数据项目(三):项目解决方案
Hbase、Kudu和ClickHouse全视角对比
Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。
王知无-import_bigdata
2020/12/09
10.1K0
Hbase、Kudu和ClickHouse全视角对比
大数据平台技术栈
Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。
物流IT圈
2019/07/16
2.2K0
大数据平台技术栈
Kudu设计要点面面观
Kudu在大数据技术栈中是个相对年轻的角色,它原本是Cloudera的内部存储项目,用C++开发,其1.0版本在2016年9月发布,最新版本则是1.9。Kudu本质上是个列式存储引擎,主打“fast analytics on fast data”。由于Kudu非常适合我们的日历数据分析业务的场景,所以我们在一年多前就开始研究它,建设了Kudu集群承载相关业务,并运行至今。
王知无-import_bigdata
2019/07/18
2.2K0
Kudu设计要点面面观
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。
大数据技术架构
2022/12/01
7420
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
实时离线一体化技术架构(万字,15张图)
基于TB级的在线数据,支持缴费帐单明细在线查询。大家都知道,像银行帐单流水一样,查几年的流水是常有的事。
大数据老哥
2021/10/22
1.8K0
大数据平台应用 17 个知识点汇总
在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。
张哥编程
2024/12/19
2110
CDP PVC基础版的新功能
如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。
大数据杂货铺
2021/01/08
9350
CDP PVC基础版的新功能
大数据方面核心技术有哪些?新人必读
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
一起学习大数据
2019/05/01
1.8K0
数据仓库Hive 基础知识(Hadoop)
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策
小莹莹
2018/04/23
2.4K0
数据仓库Hive 基础知识(Hadoop)
大数据物流项目:Kudu 入门使用(五)
KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:
Maynor
2022/11/30
1.2K0
大数据物流项目:Kudu 入门使用(五)
CDH迁移 | CDH/HDP迁移之路
Cloudera(Cloudera 和Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能。
云上计算
2022/04/04
2.6K0
CDH迁移 | CDH/HDP迁移之路
相关推荐
Apache Hudi在医疗大数据中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档