Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >分布式存储与数据库选型问答整理分享

分布式存储与数据库选型问答整理分享

作者头像
CSDN技术头条
发布于 2018-02-08 10:17:04
发布于 2018-02-08 10:17:04
1.7K0
举报
文章被收录于专栏:CSDN技术头条CSDN技术头条

近日,有关存储系统选型的问题在微信群里讨论的火热,CSDN在这里稍微将各位专家的问答总结了一下,分享给大家。

文章内容来源大数据基础设施微信群,参与讨论的专家有中国科学院软件研究所工程师,C3核心成员李明宇,国防科学技术大学教授,CCF大数据专家委员会委员李东升,云人科技联合创始人兼CEO吴朱华,Memblaze技术顾问刘爱贵等等。

以下是问答实录:

Q:有一个场景:每天有近百GB数据增加,数据内容有WORD文档和图像等多种类型。用什么存储或文件系统比较合适?

A: HDFSHBaseHive不太适合存文档、图片大小的文件,HDFS适用于存大文件,后两者适用于数据库场景,每天近百GB的文档、图像,那只有用SWIFT了。

Q:SWIFT与Ceph、GlusterFS、MongoDB/GridFS之间的比较呢?

A:SWIFT是专为这种场景设计的,性能可以调节。

Q:如果图像比较大的情况,一张图接近GB时,哪个合适?

A:我仍然推荐用SWIFT,SWIFT官方认为对几个G的支持都没有问题,但是我认为处理几个G的大文件性能上可能会比HDFS差,因为没有条带化。但是考虑到文档、图片类型存储,你会遇到很多几兆、几十兆的,这些文件的存储,HDFS就不如SWIFT了。从适用范围的角度来看,咱们这个场景里还是首选SWIFT。

Q:GlusterFS它的优点在哪里,在文件数量太大时Gluster会出现性能问题正常么?

A:GlusterFS,它的优点在于如果你需要使用POSIX接口,那GlusterFS是一个很好的选择,但是Gluster在文件数量、目录数量太大的情况下会出现性能衰减,这是文件系统本身的特点决定的,不论是哪种POSIX兼容的文件系统,都存在类似的问题。

Q:SWIFT、Ceph、GlusterFS、MongoDB那个更好?

A:关于SWIFT、Ceph、GlusterFS、MongoDB之间的比较,没有孰优孰劣,只有是不是适合。MongoDB是NoSQL数据库,和HBase是同一类,但是和其他几个分布式存储显然不是同一类的,不适合用于此类场景。

Q:Ceph,SWIFT分别适合什么样的情况?

A:如果你只需要用块存储,那当然是Ceph,如果只需要用对象存储,那当然是SWIFT。各自有各自擅长的地方,不过现在因为Ceph也支持对象存储,SWIFT和Ceph又是OpenStack社区非常频繁提到的两种存储形式,所以,有很多人会把SWIFT和Ceph在一起比较。

如果只要用对象存储,就选择SWIFT;如果只要用块存储,那就Ceph;即要用对象存储又要用块存储的场合,是用SWIFT还是Ceph呢?我们一般是这样推荐的:

  1. 如果节点数量很大,推荐用Ceph单独做块,用SWIFT做对象存储,因为在节点数量较大时,Ceph的维护成本比SWIFT要高得多,大多数场景实际应用的时候会发现,大部分数据都可以放到对象存储上(这一点如果有疑问,欢迎随时讨论);
  2. 如果节点数量少,那就用Ceph统一搞定,因为一般认为生产环境中最小的分布式存储应当有五个节点,所以,如果节点数量少于十个或者刚到十来个,那构建两个分布式存储显然是不理想的(考虑到空间划分问题);
  3. 如果团队里有牛人能轻松解决Ceph大规模部署问题,那就果断用Ceph;
  4. 如果希望对象存储能够和OpenStack其他项目无缝结合,如果希望实现多租户,果断用SWIFT来实现对象存储。

Q:对象存储的本质是什么?

A:对象存储本身有两个概念,一种是九几年提出的,针对NAS性能问题提出的一种新的存储架构,其实Gluster也是那种对象存储。另一种是06年亚马逊推出S3以后逐渐被人接受的对象存储,特点是RESTful接口和扁平的数据组织形式。我们说的CEPH和SWIFT提供对象存储,指的是后者,但是CEPH的底层RADOS,又是前一类对象存储。

Q:如果现在有一堆文件要存,如何选择是用对象还是用文件系统呢?

A:所谓文件系统的本质是POSIX接口,“对象”这个名词是做对象存储的人为了把自己做的东西和文件系统区分开而用的术语,把存在对象存储里的文件叫做“对象”,所以选择文件系统还是对象存储,跟你把这堆数据称作对象还是文件并没有直接关系,而是要看你是需要POSIX还是RESTful HTTP接口,是需要目录结构还是适用扁平数据管理结构。

GlusterFS分布式文件系统,给大家参考。http://vdisk.weibo.com/s/HPecIjqX8sc

SWIFT分布式对象存储,给大家参考。http://www.ibm.com/developerworks/cn/cloud/library/1411_limy_openstackSWIFT/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2014-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek开源周 Day05:从3FS盘点分布式文件存储系统
今天是DeepSeek开源周的第五天,官方开源了一种高性能分布式文件系统Fire-Flyer File System,简称3FS,目的是解决人工智能训练和推理工作负载的挑战。
致Great
2025/03/01
8520
DeepSeek开源周 Day05:从3FS盘点分布式文件存储系统
块存储、文件存储、对象存储这三者和分布式文件存储系统的本质区别[通俗易懂]
https://blog.csdn.net/enweitech/article/details/51445087
全栈程序员站长
2022/09/01
10.7K0
分布式存储:alluxio简介
Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的 数据编排技术 。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。
Freedom123
2024/03/29
4190
分布式存储:alluxio简介
大数据概念解析:分布式存储与数据库
大数据技术当中,在海量数据的存储环节,涉及到两个重要的概念,就是分布式数据存储与数据库,稳定高效安全的数据存储,才能为后续的计算分析环节,提供稳固的支持。今天的大数据概念解析,我们来讲讲分布式存储与数据库。
成都加米谷大数据
2020/10/16
2.8K0
大数据概念解析:分布式存储与数据库
云存储硬核技术内幕——(13) 抓手,组合拳与闭环
因此,业界也出现了一系列其他分布式存储系统,最常见的是HDFS、GlusterFS和Openstack Swift。
用户8289326
2022/08/04
4910
Ceph分布式存储文件系统基础学习与实践
[TOC] 0x00 前言简述 CEPH 简介 Q: 什么是CEPH? 答: Ceph是一个统一的分布式存储系统,设计初衷是提供较好的性能、可靠性和可扩展性。 Ceph 项目最早起源于Sage就读博士
全栈工程师修炼指南
2022/09/29
9670
分布式存储-GlusterFS
我们知道NAS是远程通过网络共享目录, SAN是远程通过网络共享块设备。那么分布式存储你可以看作拥有多台存储服务器连接起来的存储输出端。把这多台存储服务器的存储合起来做成一个整体再通过网络进行远程共享,共享的方式有目录(文件存储),块设备(块存储),对象网关或者说一个程序接口(对象存储)。
星哥玩云
2022/09/15
6.3K0
分布式存储-GlusterFS
常见开源分布式文件系统架构对比
文件系统是计算机中一个非常重要的组件,为存储设备提供一致的访问和管理方式。在不同的操作系统中,文件系统会有一些差别,但也有一些共性几十年都没怎么变化:
Juicedata
2021/12/10
1.3K0
常见开源分布式文件系统架构对比
分布式文件存储选型比较[通俗易懂]
在这个数据爆炸的时代,产生的数据量不断地在攀升,从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘,首先要考虑的就是海量数据的存储问题,比如Tb量级的数据。
全栈程序员站长
2022/06/28
7500
分布式文件存储选型比较[通俗易懂]
分布式对象存储设计原理
保存像图片、音视频这类大文件就是对象存储。不仅有很好的大文件读写性能,还可通过水平扩展实现近乎无限容量,并兼顾服务高可用、数据高可靠。
JavaEdge
2023/01/02
1.4K0
分布式对象存储设计原理
GlusterFS分布式存储学习总结
分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源并不直接与本地节点相连,而是分布于计算网络中的一个或者多个节点的计算机上。目前意义上的分布式文件系统大多都是由多个节点计算机构成,结构上是典型的客户机/服务器模式。流行的模式是当客户机需要存储数据时,服务器指引其将数据分散的存储到多个存储节点上,以提供更快的速度,更大的容量及更好的冗余特性。 目前流行的分布式文件系统有许多,如MooseFS、FastDFS、GlusterFS、Ceph、Mogile
洗尽了浮华
2018/04/17
2.9K0
GlusterFS分布式存储学习总结
数据分布式存储:在海量数据面前,我们如何站稳脚跟?
大家好!我是Echo_Wish,今天我们来聊一聊一个大数据领域至关重要但又往往被忽视的主题——数据分布式存储。在大数据的时代,数据量的爆炸性增长迫使我们从存储架构的根本上进行思考。分布式存储的概念听起来有些复杂,但其实它并不神秘,只要我们理清它的基础逻辑和实践应用,便能够在海量数据面前立于不败之地。
Echo_Wish
2025/03/02
1360
数据分布式存储:在海量数据面前,我们如何站稳脚跟?
分布式存储Ceph(一)
Ceph使用C++语言开发,Sage Weil(Ceph论文发表者)于2011年创立了以Inktank公司主导Ceph的开发和社区维护。2014年Redhat收购inktank公司,并发布Inktank Ceph企业版(ICE)软件,业务场景聚焦云、备份和归档,支持对象存储和块存储以及文件系统存储应用。出现Ceph开源社区版本和Redhat企业版。
用户8639654
2021/08/18
1.2K0
Ceph分布式存储初步认识(一)
Ceph 是一个去中心化的分布式存储系统, 提供较好的性能、可靠性和可扩展性。 Ceph 项目最早起源于Sage就读博士期间的工作(最早的成果于 2004 年发表),并随后贡献给开源社区, 遵循 LGPL 协议 (LESSER GENERAL PUBLIC LICENSE 的简写,中文译为 “ 较宽松公共许可证 ” )。在经过了数年的发展之后,目前已得到众多云计算厂商(OpenStack 、 CloudStack 、 OpenNebula 、 Hadoop )的支持并被广泛应用。
Lansonli
2022/04/11
1.3K1
Ceph分布式存储初步认识(一)
分布式存储和分布式计算,这么好懂!
Google的文件系统GFS是一个典型的分布式文件系统,也是一个分布式存储的具体实现方式。日常的工作和生活中使用的网盘也是一个典型的分布式文件系统。
博文视点Broadview
2023/09/29
1.4K0
分布式存储和分布式计算,这么好懂!
云原生存储工具的选型和应用探讨
随着云原生概念在业界的推广,传统应用部署的方式被容器化部署所取代。基于云原生的容器化部署和运维,给开发和运维人员带来DevOps快速部署和自动化运维等诸多便利的同时,对于基础架构服务也提出了更高的要求,其中存算分离就是保障云原生应用故障快速转移、算力负载均衡的基石。因此云原生存储的概念也在云原生的基础上应运而生,接下来本文将会逐步梳理云原生存储的概念、工具的选型,最后会选择一个代表性的云原生存储工具来演示如何使用。
边缘计算
2022/12/18
8790
云原生存储工具的选型和应用探讨
深入浅出分布式存储的设计与优化之道
面对信息化程度不断提高带来的PB级海量数据存储需求,传统的存储系统在容量和性能的扩展上存在瓶颈。云存储以其扩展性强、性价比高、容错性好等优势得到了业界的广泛认同。分布式文件系统和分布式块存储作为云存储中重要的技术,成为奠定云存储发展的重要基石。
冬瓜哥
2019/06/10
1.5K0
深入浅出分布式存储的设计与优化之道
Ceph 分布式存储使用指南
*注意:本文大部分参考官方文档https://docs.ceph.com/docs/octopus/,因为网络原因,部署命令和官网有些许出入,更符合现在条件一些,且官方已经抛弃ceph-deploy 部署工具改用cephadm,不要傻傻看使用ceph-deploy的老古董啦。
jwangkun
2021/12/23
2.6K0
Ceph 分布式存储使用指南
【重识云原生】第三章云存储第一节——分布式云存储总述
在了解什么是分布式存储之前,我们先来简单了解一下存储几十年来的大概历程。
江中散人_Jun
2022/04/11
2.4K0
【重识云原生】第三章云存储第一节——分布式云存储总述
聊一聊分布式对象存储解决方案
OSS(Object Storage Service)俗称对象存储,主要提供图片、文档、音频、视频等二进制文件的海量存储功能。目前除了公有云提供对象存储服务外,一般私有云比较关心一些开源的分布式对象存储解决方案,本文列举了一些常见的技术方案供参考。
大数据技术架构
2019/08/16
7K0
聊一聊分布式对象存储解决方案
推荐阅读
相关推荐
DeepSeek开源周 Day05:从3FS盘点分布式文件存储系统
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档