当今的企业需要现代化的产品交付,以满足他们不断增长的业务需求并满足其最终用户的需求。要在不同的竞争平台之间构建大数据系统,用户更喜欢功能强大、用户友好和持久采用的平台。许多组织都面临着大数据分析方面的挑战,如何在保持高性能和可用性的同时实现动态增长和灵活性。现实情况是,这些关键组件中的一个往往会为了另一个做出牺牲。在Dell PowerFlex上运行VMware Greenplum为企业提供了包含所有这些组件组合的一个更好的业务智能和分析平台:Greenplum提供专门的大数据分析数据库,VMware提供自我管理和自动化,PowerFlex提供灵活性、弹性和高性能。
Dell PowerFlex解决方案团队为您提供了在PowerFlex上运行VMware Greenplum的解决方案指南,在单个统一的 PowerFlex软件定义基础架构上完成Greenplum数据库工作负载(OLTP、OLAP和ETL),提供卓越的性能且没有存储瓶颈。
解决方案指南中有什么内容,它将如何帮助大规模并行处理 (MPP) 数据库?本文提供了答案。
基础架构的灵活性:PowerFlex
PowerFlex是一个功能强大的软件定义的基础架构平台,旨在显著降低运营和基础架构的复杂性,通过大规模提供灵活性、弹性和简单性以及可预测的性能和恢复能力,使组织能够更快地行动。最新的基于PowerEdge 15G的PowerFlex节点采用英特尔®至强®Platinum处理器,性能更高的CPU,更多的内存,带来极高的性能。
PowerFlex系列为将计算和高性能存储资源整合到一个托管的统一结构中奠定了基础。PowerFlex具有灵活的部署选项——集成机架、设备或就绪节点——支持两层(计算和服务器SAN)、单层(HCI)和仅存储体系架构。PowerFlex非常适合高性能应用程序和数据库、构建敏捷的私有云或在异构环境中整合资源。
VMware Greenplum产品概述
构建大数据系统需要大量关注,因为每个部件和组件都必须进行工程设计。构建这样一个系统是昂贵的,并且要承担在供应商拥有专有和封闭源代码的情况下开发一个功能不足的平台的风险。
VMware Greenplum是开源的,基于PostgreSQL开源核心。Greenplum受益于开源,它基于对核心数据库引擎二十年开源PostgreSQL开发的信任。VMware Greenplum是一款大规模并行处理(MPP)数据库服务器,通过自动分区数据和运行并行查询来支持下一代数据仓库和大规模分析处理,它允许服务器集群作为单个数据库超级计算机运行,其性能比传统数据库快数十或数百倍。它支持SQL、MapReduce并行处理,数据量从数百GB到数百TB不等。
解决方案架构
VMware Greenplum和Dell PowerFlex的组合提供了灵活的一体化解决方案,可以满足业务智能和大数据分析的需求。这种组合还具有成本效益、易于构建且易于管理。
由于部署是基于开源PostgreSQL构建的,针对MPP数据库(如 Greenplum)的需求进行了优化。PowerFlex可以通过其仅计算节点提供支持海量数据IO所需的计算性能。PowerFlex基础架构还可以支持在仅计算节点或结合了计算和存储的节点(混合节点)上运行的工作负载。通过利用PowerFlex的易变特性,数据中心不需要额外的孤岛,它甚至可以帮助移除现有的孤岛。
解决方案指南中使用的架构由12个仅计算节点和10个仅存储节点构成。仅计算节点上安装了VMware ESXi,上面部署了Greenplum实例。为Greenplum环境部署了10个segments和一个director。第 12 个仅计算节点用于冗余。
存储层使用10个仅存储节点提供12个由SSD支持的卷。此配置创建了Greenplum所需的高速、高度冗余的存储系统。此外,两个保护域用于为Greenplum实例提供 primary存储和mirror存储。Greenplum镜像这些保护域之间的卷,为环境添加额外级别的保护,如下图所示:
通过使用这种易变且可组合的架构,组件可以彼此独立扩展,从而允许独立或与计算一起增加存储。管理员可以使用此配置来优化使用情况并根据需要提供适当的资源,而不会在环境中创建孤岛。
使用Greenplum进行测试和验证:
我们为您提供保障
解决方案指南不仅描述了如何构建Greenplum环境,还介绍了测试,许多管理员希望在完成构建之前执行测试。该指南涵盖了使用 FIO和gpcheckperf执行基本验证。用最简单的话来说,这些工具确保IO、内存和网络性能是可以接受的。为指南运行的FIO测试表明HBA已完全饱和,从而最大限度地提高了读取和写入操作。gpcheckperf测试显示写入工作负载的性能为14,283.62MB/秒。
如果使用真实的数据集测试Greenplum环境,您会不会感觉更好?戴尔数字团队(戴尔内部IT)开发了一个运行静态基准数据的内部测试套件。该测试套件在戴尔科技集团内部的新Greenplum 环境中被用作新部署的黄金标准。
在这个测试设计中,所有的数据集和查询都是静态的。该场景允许从一次运行到下一次运行对环境进行一致的测量。它还提供了一个环境基线,可以随着时间的推移使用该基线来查看其性能是如何变化的——例如,在软件更新之后,环境是加快了还是变慢了。
01
真实数据的巨大性能
这个解决方案在真实世界里表现如何?当同时运行182个并行复杂查询以对系统施加压力时,测试运行仅用了不到12分钟。当时,环境的读取带宽为40GB/s,写入带宽为10GB/s。这些结果使用来自Dell Digital团队工作负载的基于实际生产的查询。这些结果接近使环境的网络带宽饱和,这表明不存在存储瓶颈。
本解决方案指南中涵盖的设计不仅仅是验证环境是否可以处理工作负载;它还展示了配置如何在持续操作期间保持性能。
02
使用快照保持性能
我们测试的关键领域之一是快照对性能的影响。快照是数据中心的常见操作,用于创建数据的测试副本以及备份源。因此,在查看环境时,请考虑快照对MPP数据库的影响,而不仅仅是数据库在首次部署时的执行速度。
在我们的测试中,我们使用PowerFlex的原生快照功能来衡量快照对性能的影响。使用PowerFlex快照可为数据中心通常执行的数据保护和克隆操作提供显著的灵活性。
我们发现,当拍摄数据库卷的第一个存储一致性快照时,完成测试比初始测试多花费了45秒。此结果是因为它是卷的第一个快照。测试期间的后续快照对环境的影响最小。这种最小的影响对于性能很重要的MPP数据库来说意义重大。(当然,性能可能因每个部署而异。)
我们希望这些发现可以帮助正在构建Greenplum环境的管理员更加放心。您不仅可以在构建环境时参考解决方案指南,而且可以确信它是在一流的基础架构上构建的,并使用通用测试工具和实际查询进行了验证。
总结
如果您想使用VMware Greenplum构建一个业务智能和分析平台,请务必阅读解决方案指南。如果您需要有关在PowerFlex上构建Greenplum环境的更多指导,请务必联系您的戴尔代表。
关于Dell PowerFlex和VMware Greenplum的更多信息,请参阅Dell PowerFlex和VMware Greenplum。