ARM冷热互备 VS 传统备份
ARM冷热互备方案与传统的光盘备案、磁带/虚拟磁带机备案方案相比,在数据恢复、业务恢复、备份数据恢复时间、备份数据在线访问、线性扩展等方面具有一定的优势,具体如下:
ARM冷热互备解决方案实现原理
数据冷热分级存储是指将热数据(最近一段时间经常使用的数据)存储在x86服务器上,冷数据(历史不常时间的数据)存储在ARM服务器上。
置冷是数据生命周期管理的组成部分,指将数据从热盘(x86服务器硬盘)迁移到冷盘(ARM服务器硬盘)。置冷分为两个步骤:1)设置存储策略;2)迁移文件块。可以理解为先后执行了hdfs storagepolicies和hdfs mover命令。
数据置冷针对的是按天分区的表,即partition by后面定义有day字段的表。超过置冷周期的数据将会从热盘迁移至冷盘。配置的制冷规则由定时器每天通过HTTP请求发送给后台,从而进行数据置冷。
HDFS的数据move功能是ARM冷热互备方案能够得以实现的基础。mover工具用于归档数据,在数据移动方面与Balancer类似。mover定期扫描HDFS文件,检查文件的存放是否符合它自身的存储策略。如果数据不符合自己的策略,它会把数据移动到该去的地方。
HDFS支持的存储策略为:
当有足够空间的时候,HDFS会复制使用上表中Block Placement 列所列出的存储类型。如果Block Placement 列的空间不够,则考虑用Fallback storages for creation列(创建时)或者Fallback storages for replication列(复制时)的存储类型。
通过上述HDFS的move机制,可将热数据存储于基于x86的HDFS集群,将冷数据自动归档至基于ARM服务器的HDFS集群。冷热数据位于同一个HDFS的命名空间内,可方便的进行数据查询、导入、导出等。上层业务对冷热数据的物理分布无感知。
冷热互备操作示例
示例环境采用x86与ARM机器混合搭建hadoop集群,其中ARM64机器4台,作为datanode节点;x86机器3台,2台作为namenode,剩余1台作为datanode节点;置冷触发采用OceanMind平台中的老化管理功能。
测试数据导入
1) 登录;
2) 创建以day为分区的测试表:create table part_ymd(x int)partitioned by (day String);
3) 插入数据:insert into part_t partition (day='20180610') values (199);
4) 循环第三步操作,插入足够多的数据,执行select查询验证。
创建老化管理规则
登录OceanMind平台页面,进入【流程管理】---【老化管理】,点击新增按钮,按照下图示例建立规则,表数据中的时间距离当前时间的天数超出设置的置冷天数时触发置冷动作。
设置以上规则会将default.part_ymd表30天之前的分区和对应数据老化,将6天之前的数据置冷。
结语
本期要说的这款OceanMind海睿思大数据平台采用基于ARM服务器的HDFS冷热互备解决方案,其配备的低功耗ARM存储服务器为中新赛克自主研发,具有功耗低、存储密度高、性价比高等特点。同时OceanMind大数据平台中的老化管理功能,将超出置冷天数的数据由x86服务器的磁盘目录迁移至ARM服务器磁盘目录,达到节约客户成本并且有效保护客户数据的目的。
领取专属 10元无门槛券
私享最新 技术干货