著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:热心网友
链接:hadoop,spark在虚拟机集群里跑还有性能上的优势吗_百度知道
来源:百度知道
首先,hadoop和spark的出现主要是为了解决大数据情况下的数据存储和数据处理问题。它们能够利用整个服务器集群的存储和计算能力,通过将任务分解成map和reduce操作,分配给各个服务器节点来执行操作,从而获得并行处理的能力,这样就能比传统的方式更为高效。且很多情况下,传统的单机系统并不能存储和处理超过其能力的数据。hadoop和spark本身的另外一个巨大的优势是,它们可以运行在廉价的服务器上,它们本身的设计就考虑到了廉价服务器的不稳定性,考虑到了计算和数据的冗余。所以即使在廉价的服务器上,仍能够确保计算和存储的可靠性。虚拟机集群的话,只要能够保证hadoop、spark各个组件运行所需要的cpu、内存、硬盘的资源,那么就跟普通的服务器没什么区别,hadoop和spark不会去区分是虚拟机还是物理机。但是通常来说通过物理机虚拟出来的虚拟机的性能会比物理机要差一些。
领取专属 10元无门槛券
私享最新 技术干货