我们正处于“ZB时代”,我们不愿意删除任何数据。
“数据就是新石油”,这句话似乎已是陈词滥调,但至少证明它所陈述的是一种事实。尽管数据不会像石油一样燃烧,却总是可以从中挖掘出巨大的价值。
从21世纪初的“数据池”,到2010年变成了“数据湖”,再到2015年成长为“数据海洋”。直至今日,其已演变成庞大的、数百万PB的“数据宇宙”。
每天新增的数据量已经多到无法估量,但可以肯定的是,在未来,这种态势仍将持续,且没有终点。
当被问及,“您所在企业的数据必须保留多长时间?从90天、1年、5年、10年、50年,甚至是无限期?” 负责管理大型(50 PB-500 PB)数据的管理者的答案都超乎寻常地一致——“不确定,但肯定越久越好”。
特别是科学、企业、政府公共记录和媒体/娱乐存储基础设施,其100%的数据都需要保留,其中原始存档数据都已经有20年以上的历史,并且还在不断地增长。负责企业数据的高管们都有同样的担忧——多年甚至几十年地保存数据的成本将无休止地上扬。
企业合法合规地删除“老化数据”(如年代久远的电子邮件)似乎成为一种可能,但是无法获得任何可靠的承诺,因为没有人能够准确预测,在5年或者10年之后,这些老旧的数据是否还有价值。
我们正在创建越来越多的数据,删除越来越少的数据...…
根据访问频率,可以将企业数据细分为热(纳秒到毫秒)、温(毫秒到秒)、凉(几分钟到24小时)、冷(几天到几周)和冻(几周到几年甚至更长时间)。
所有类型的数据量都在持续地扩大,但所占百分比也在发生变化。2020年-2030年,预计热数据和温数据将从年总量的25%左右(8%热,17%温)降低至约20%(7%热,13%温);同时,凉数据与冷数据将稳定地保持在年总量的20%和25%;而冻数据则将从年总量的30%扩展至35%。
据预测,用于管理冷/冻数据(访问频率从几天到几年不等)的企业存储容量的新出货量将在2023年接近1ZB,并在2030年扩展到约6.8ZB。
数据的不变性(原始数据的所有方面都必须保持不变)是一个越来越重要的问题。
磁盘和SSD通常用于100%在线的工作领域,具有有限的加密和不变性属性,其部署时间很少超过五年,通常只有三年。而随着时间的推移,磁盘和SSD都极易出现不可避免的失败。因此提供有限或“离线”的保护,以防止数据被篡改或数据丢失显得非常必要。
磁带则提供了“离线”的数据安全性,并保证了一次写入多次读取的不变性,以及长达50年保质期。与SSD或磁盘相比,磁带每GB的初始购置成本要低得多。
SSD、磁盘和磁带成本之间最显著的区别是功耗,这主要是因为绝大多数盒式磁带不会安装于磁带驱动器中,而是离线放置,消耗最少或根本不消耗电能。此外,磁带系统几乎不会存在散热问题,因此也不会产生高额的冷却降温费用。
与数据安全性和不变性一样,数据可持续性成本随着时间的推移越来越成为企业关注的焦点。对于数年、数十年甚至数百年的数据保留,不仅每GB的初始成本是一个关键问题,能耗、空间和技术更新的需求将在未来数据中心的战略规划中发挥更为决定性的作用。
但很明显,磁盘和SSD正在以极高的成本管理着大量的冷/冻数据,同时消耗过多的能源。从逻辑上讲,磁带更为适合冷/冻数据的存储。
正如一位大型数据中心管理者所言,“如果你管理着几十TB的数据,那么你看磁带可能是个傻瓜。如果你管理的是几百TB数据,那么你需要深入考虑磁带。如果你管理着几PB,甚至几十、几百PB或EB级的数据,那么你别无选择,只能利用现代磁带。”
本文作者John Monroe已经在存储行业工作了40多年。
*本文编译自John Monroe的文章《Storage Management in an Age of Minimal Data Deletion》,有删节。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。