【编者 Peter Ye 按】
今天这篇文章《运营商在VMware vSAN上运行大数据应用的案例》可以视为对上一篇文章的回应。VMware不仅支持,而且还有几个国内的案例。
一、提问和答案
例如:Hadoop默认的3副本是否可以在vSAN场景中降到2,以提高容量呢? 我简单查了一下资料,并咨询了一位Hadoop领域的技术大拿。问答如下:
问:Hadoop的HDFS可以通过修改dfs.replication将默认值3,改为2或者1,或者其它值,对吗?
答:可以的,这个是修改全局的,也可以创建文件的时候指定。
问:实际使用中,有没有改成2或者1的? 什么场景改成1,或改成2?
答:这个看用户需求,如果是一些日志型数据不太重要的,可以设成1或者2,如果是存企业里一些历史数据的,默认都用3。
新的HDFS版本,有纠错码技术,可以明显降低空间的浪费
https://www.edureka.co/blog/hadoop-3/#ErasureEncoding
---
我个人觉得,如果用户为了标准化购买和方便运维和管理,将HDFS运行在vSAN上。由于当前vSAN版本尚未支持vmdk和Hadoop的虚机锁定在同一物理服务器的前提下,为了提高存储利用率,也可以考虑将HDFS的默认副本数3减小。但这个需要用户仔细评估和平衡,因为这可能会影响性能。
二、大数据应用运行在VMwarevSAN上的案例
且不论国外,在国内也已经有些用户了。
1)有一个控股集团,将其电商大数据平台,以及某行业平台的数据分析,运行在Hadoop on vSAN上;
2)有一个电信运营商,将某信令检测系统,运行在Hadoop on vSAN上;
3)还有一些政府用户,正在规划将某些应用运行在Hadoop on vSAN上;
……
4)本文正文要分享的是另一个电信运营商的案例。
需要再次提醒的是,Hadoop不是大数据的全部。当我们考虑大数据应用是否适合运行在vSAN上的时候,应该知道除了Hadoop之外,还有其他许多应用也被归在大数据项目里;即使是Hadoop,除了HDFS之外,还有MapReduce等其他组件,他们运行在vSAN上,也是不错的。即使是HDFS,虽然利用率和性能都会有所减损,但仍有少量用户希望做到:标准化购买和运维,并利用虚拟化资源池实现弹性伸缩,所以将HDFS也运行在vSAN上。
详细分析,仍然是参见上一篇文章《vSAN支持大数据应用吗?》
下面分享我的同事---程恒在电信行业做得很漂亮的一个案例,可以视为Hadoop on vSAN上的很好的实践。
---Begin---
图一:采用超融合vSAN资源池后:
1、存储资源和服务交付更快更灵活
2、业务存储需求变更更快,实时生效
3、降低IT架构复杂度,实施、配置和管理更加简单
4、存储与计算基础架构融合共享,资源利用率更高
5、存储与计算基础架构融合共享,减少硬件采购成本,节约机房空间、节能减排
图二:用户的业务需求 - 物联网Hadoop虚机
图三:采用裸服务器部署大数据业务,每个物理服务器只能部署一个Hadoop节点,加上业务负载具有波动性,导致物理服务器的资源利用率不高,且节点扩容不够快速灵活,虚拟化之后计算、网络和存储资源整合,单个物理服务器上可以部署更多的Hadoop节点,提高了业务分析速度和物理服务器资源利用率,采用虚拟机方式扩容节点更加快速和灵活。另外虚拟化后可以在资源池里为不同租户不同业务部署Hadoop大数据业务,共享基础架构资源。
图四:资源共享和灵活调度
图五:虚拟化后提高了所有节点的可用性,当物理服务器发生故障宕机后,vSphereHA可以其他物理服务器上快速恢复Hadoop节点,采用容错技术可以为Namenode节点提供7*24小时的无中断保护。
图六:物理服务器配置:HPDL380 G7,CPU:2x X5687 Memory: 72GB or 96GB Disk: 16x SAS 146GB NIC: Broadcom 10GbE
Native:在裸服务器上部署1个Hadoop节点
1VM:Hadoop虚拟化后,每台物理服务器上运行1个Hadoop虚拟机数据节点
2VM:Hadoop虚拟化后,每台物理服务器上运行2个Hadoop虚拟机数据节点
4VM:Hadoop虚拟化后,每台物理服务器上运行4个Hadoop虚拟机数据节点
TeraGen:数据生成耗时,100%写
TeraSort:数据排序耗时,40%读,60%写
TeraValidate:数据校验耗时,100%读
从测试结果来看,即使是将物理服务器虚拟化,在每台物理服务器上部署1个虚拟数据节点,该业务的重要参考指标TeraGen耗时相比裸服务器增加了不到6%,部署2个或4个虚拟数据节点情况下只增加了约4%和2.5%。
图七:所有虚拟机的操作系统盘和非Datanode虚拟机的数据盘都放在vSAN共享存储中,为所有节点提供高可用性保护和差异化的数据存储服务,便于迁移和故障恢复。Datanode的数据盘直接采用服务器的3块6TB本地盘。
在上面这张图七中,其实还分享了Hadoop部署在vSphere上的最佳实践。通过将DataNode的数据盘直接部署在物理服务器的本地物理盘上,较好的规避了《vSAN支持大数据应用吗?》提到的存储利用率仅有六分之一,且IO延迟较长的问题。示意图如下所示:
相关的VMware白皮书是《Virtualized Hadoop Performance with VMware vSphere 6 on High-Performance Servers》,详细地介绍了Hadoop运行在vSphere上最佳实践。感兴趣的朋友可以前去软件定义存储讨论群的QQ群:122295009 下载。
图八:Datanode、NameNode和业务虚机的分布
图九:Hadoop虚机在vSAN集群上扩容方便
图十:管理网络、vSAN网络和业务网络物理上隔离。
管理网络采用标准虚拟交换机,业务和vSAN采用2个独立的分布式虚拟交换机,Hadoop业务与vSAN共享虚拟交换机和一对万兆上行链路,上行链路互为主备,当某条链路发生中断时,另外一条链路会同时承载vSAN流量和Hadoop业务流量。
VLAN划分:
1、1个管理网VLAN
2、1个Hadoop业务VLAN
3、1个vSAN网络VLAN
4、若干个其他业务VLAN
---End---
想要了解更多vSAN,可以打开如下链接:
领取专属 10元无门槛券
私享最新 技术干货