首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从失败的Ceph群集恢复-非活动PG (Down)

Ceph是一个开源的分布式存储系统,它提供了高可靠性、高性能和可扩展性的存储解决方案。Ceph集群由多个存储节点组成,每个节点都可以存储和访问数据。PG(Placement Group)是Ceph中数据的分片单位,用于实现数据的分布和冗余。

当Ceph集群中的PG处于非活动状态(Down)时,意味着该PG所在的存储节点无法正常工作或与集群失去连接。这可能是由于硬件故障、网络问题或其他原因导致的。

要从失败的Ceph群集恢复非活动PG,可以采取以下步骤:

  1. 检查网络连接:首先,确保存储节点与Ceph集群的网络连接正常。可以通过ping命令或其他网络工具来测试节点之间的连通性。
  2. 检查存储节点状态:使用Ceph命令行工具(如ceph status)检查存储节点的状态。如果节点处于非活动状态,可能需要修复或替换故障硬件。
  3. 检查Ceph集群状态:使用Ceph命令行工具检查整个集群的状态。如果集群中有其他节点也处于非活动状态,可能需要进行全面的故障排除和修复。
  4. 重新启动服务:尝试重新启动Ceph集群中相关的服务,如Ceph OSD(Object Storage Daemon)和Ceph Monitor。这可以通过执行适当的系统命令或使用Ceph管理工具来完成。
  5. 数据恢复:一旦存储节点和集群恢复正常,Ceph将自动开始数据的恢复过程。这包括重新平衡PG、恢复丢失的数据和修复冗余。

对于Ceph集群的非活动PG恢复,腾讯云提供了一系列相关产品和服务:

  1. 腾讯云COS(对象存储):腾讯云COS是一种高可靠、高扩展的对象存储服务,适用于存储和访问任意类型的数据。它可以作为Ceph的替代方案,提供类似的功能和性能。
  2. 腾讯云CVM(云服务器):腾讯云CVM提供了可靠的虚拟服务器实例,可以用作Ceph集群的存储节点。它具有高性能、高可用性和可扩展性。
  3. 腾讯云VPC(虚拟私有云):腾讯云VPC提供了安全、隔离的网络环境,可以用于构建Ceph集群的网络基础设施。
  4. 腾讯云云监控:腾讯云云监控可以帮助监测和管理Ceph集群的状态和性能。它提供了实时监控、告警和自动化运维等功能。

更多关于腾讯云产品的详细信息和介绍,请访问腾讯云官方网站:https://cloud.tencent.com/

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

ceph分布式存储-常见 PG 故障处理

3.2 卡住 PGs 有失败发生后,PG 会进入“degraded”(降级)或“peering”(连接建立中)状态,这种情况时有发生。通常这些状态意味着正常失败恢复正在进行。...然而,如果一个 PG 长时间处于这些状态中某个,就意味着有更大问题。因此 monitor 在 PG 卡 ( stuck ) 在最优状态时会告警。...3.3 PG 挂了 —— 互联失败 在某些情况下, ceph-osd 互联进程会遇到问题,阻值 PG 达到活跃、可用状态。...例如,集群里一个 ceph-osd 停止且被剔出集群,然后集群完全恢复了;后来一系列失败导致了未找到对象,它也不会觉得早已死亡 ceph-osd 上仍可能包含这些对象。...如果所有可能位置都查询过了但仍有对象丢失,那就得放弃丢失对象了。这仍可能是罕见失败组合导致,集群在写操作恢复后,未能得知写入是否已执行。

3.4K30

分布式存储CephPG状态详解

PG活动集任何一个改变,数据发生活动集到新活动迁移。...在迁移期间还是用老活动集中主OSD处理客户端请求,一旦迁移完成新活动集中主OSD开始处理 Repair PG在执行Scrub过程中,如果发现存在不一致对象,并且能够修复,则自动进行修复状态 Scrubbing...PG不能处理读写请求 Unclean 干净态。PG不能从上一个失败恢复 Stale 未刷新态。...,想要修复不一致数据文件,只需要执行ceph pg repair修复指令,ceph就会其他副本中将丢失文件拷贝过来就行修复数据。...OSD 向 osd.34 进行数据恢复,使其数据为最新,而这个恢复过程中,PG状态会inconsistent ->recover -> clean,最终恢复正常。

3.2K40
  • Ceph组件状态

    常见问题 1.硬盘失败。可以通过系统日志或SMART活动确认。有些有缺陷硬盘因为密集有时限错误修复活动很慢。 2.网络连接问题。可以使用ping、iperf等普通网络工具进行调试。...PG 长时间卡在一些状态 遇到失败PG进入如 “degraded” 或 “peering”状态是正常。通常这些状态指示失败恢复处理过程中正常继续。...2.unclean : PG太长时间不在clean态,例如PG不能完成从上一个失败恢复,通常是unfound objects导致。...例如有3个副本校验和,有1个不同,很容易猜出应该修复错误副本(其他副本恢复),但是当有3个不同校验和或者一些比特错误,我们不能武断说哪个是好。这不是一个端到端数据修正检查。...osd ssh {osd-node} systemctl restart ceph-osd@{osd-number} peering 和 down PG 找到受影响pg ceph health detail

    1.3K20

    osd监控埋点指标

    pg数量 ceph.osd.numpg_primary 主pg数量 ceph.osd.numpg_replica 副本pg数量 ceph.osd.numpg_stray 删除pg数量 ceph.osd.heartbeat_to_peers...刷新失败 ceph.osd.tier_try_flush 尝试刷新 ceph.osd.tier_try_flush_fail 尝试刷新失败 ceph.osd.tier_evict 逐出 ceph.osd.tier_whiteout...回填恢复状态延迟 平均数 ceph.recoverystate_perf.notbackfilling_latency.sum 回填恢复状态延迟 总数 ceph.recoverystate_perf.notbackfilling_latency.avgtime...不完全恢复状态延迟 平均时间 ceph.recoverystate_perf.down_latency.avgcount 挂掉恢复状态延迟 平均数 ceph.recoverystate_perf.down_latency.sum...挂掉恢复状态延迟 总数 ceph.recoverystate_perf.down_latency.avgtime 挂掉恢复状态延迟 平均时间 ceph.recoverystate_perf.getmissing_latency.avgcount

    1.5K30

    Ceph用户邮件列表Vol45-Issue1

    (原文) Hi, I have a production cluster on which 1 OSD on a failing disk was slowing the whole cluster down...When I try to do “ceph pg PGID query” on this PG it also blocks....,作者贴出了pg dump,ceph -s,ceph osd dump相关信息,当出现异常时候,需要人协助时候,应该提供这些信息方便其他人定位问题,最后这个问题作者自己给出了自己解决办法,出现时候影响是当时流量只有正常情况下...or directory 这个时候查询集群状态可以看到,集群已经正常恢复了,不会因为一个对象丢失造成集群PG状态卡在待迁移状态 可以看到请求是失败但是不会像之前一样卡死状态,卡死是比失败更严重一种状态...,一般来说,底层磁盘故障,写下去对象当时记录着有,正好写入完成又准备写副本时候,磁盘坏了,这个就有比较高概率出现,所以出现了坏盘要尽早更换 本系列是只会对列表的当天re进行一个汇总,这样保持了一个问题追踪都在一篇里面

    59920

    ceph运维操作

    ceph mds rm 0 # 删除一个不活跃mds # 启动mds后,则恢复正常 3、关闭mds集群 ceph mds cluster_down 4、开启mds集群 ceph mds cluster_up...cephx仅用于Ceph集群中各组件,而不能用于Ceph组件。它并不解决数据传输加密问题,但也可以提高访问控制安全性问题。 二:认证授权流程如下 1、客户端向Monitor请求创建用户。...pg ,可以根据需要过滤状态 ceph pg ls-by-primary osd.3 clean 13、恢复一个丢失pg 如果集群丢了一个或多个对象,而且必须放弃搜索这些数据,你就要把未找到对象标记为丢失...如果osd daemon正常运行,downosd会很快自恢复正常,所以需要先关闭守护进程 ssh root@osd01 systemctl stop ceph-osd@0 ceph osd down...shutdown -h now # 4、开始维护 当你对失败域中OSD维护时,其中PG将会变为degraded状态。

    3.3K11

    ceph分布式存储学习指南 实战

    degraded :一旦有OSD 处于down 状态. Ceph 将分配到该OSD 上所有PG 状态 变为degraded 状态。...如果OSD 持续处于down 状态超过300s 后, 它状态将变为out ,此时Ceph 将会副本中恢复所有处于degraded 状态PG 以维持复制数。...在这种情况 下, Ceph 将该PG 状态标记为degraded 并试图其副本中恢复PG recovering :当一个OSD 处于down 状态后,其PG 内容将会落后于放置在其他 OSD...这样一旦OSD 恢复up 状态, Ceph 会针对这些PG 启动 恢复操作,使得它们数据与其他OSD 上PG 副本保持一致。...remapped : 每当PG actmg 集合有变化,就会触发数据迁移,数据acting 集舍OSD 向新acting 集合OSD 转移。

    72240

    ceph-mimic版

    group)是一个放置策略组,它是对象集合,该集合里所有对象都具有相同放置策略,简单点说就是相同PG对象都会放到相同硬盘上,PGceph逻辑概念,服务端数据均衡和恢复最小粒度就是PG...主要功能是存储数据、复制数据、平衡数据、恢复数据,以及与其它OSD间进行心跳检查,负责响应客户端请求返回具体数据进程等; Pool、PG和OSD关系: 一个Pool里有很多PG; 一个...这样可以方便地监视Ceph群集状态,并在发生故障时发送通知。 安装前准备 最少三台Centos7系统虚拟机用于部署Ceph集群。...down reporters = 13 #默认值1#向monitor报告down最小OSD数 mon osd down out interval =...但是Luminous开始,Ceph 提供了原生Dashboard功能,通过Dashboard可以获取Ceph集群各种基本状态信息。

    90820

    Cephpg算法

    Ceph集群中PG总数: PG总数 = (OSD总数 * 100) / 最大副本数 结果必须舍入到最接近2N次方幂值。...Ceph集群中每个pool中PG总数: 存储池PG总数 = (OSD总数 * 100 / 最大副本数) / 池数 平衡每个存储池中PG数和每个OSD中PG数对于降低OSD方差、避免速度缓慢恢复再平衡进程是相当重要...当任意poolPG数增加时,PG依然保持和源OSD映射。直至目前,Ceph还未开始再平衡。此时,增加pgp_num值,PG才开始源OSD迁移至其他OSD,正式开始再平衡。...(2, int(log(pg_num,2) + 0.5)) num_down = pow(2, int(log(pg_num,2))) if abs(pg_num - num_up) <= abs(pg_num...- num_down): pg_num = num_up else: pg_num = num_down pgp_num = pg_num 修改存储池PG和PGP ceph osd

    2.8K20

    ceph分布式存储-常见MON故障处理

    peon 角色( leader 角色)。...这条规则会拒绝所有尝试连接该主机客户端(除了 ssh )。如果你 monitor 主机设置了这条防火墙 REJECT 规则,客户端其他节点连接过来时就会超时失败。...并且在启动后,新加入成员会和其他健康伙伴进行同步,一旦同步完成,它就可以为客户端提供服务了。 通过 OSDs 恢复 但是万一所有的 monitors 都同时失败了该怎么办?...已知限制 下面这些信息无法通过上述步骤恢复: 一些新增 keyring : 通过 ceph auth add 命令增加所有 OSD keyrings 都可以恢复。...pg 设置:通过 ceph pg set_full_ratio 和 ceph pg set_nearfull_ratio 命令设置 full ratio 和 nearfull ratio 值会丢失。

    2.4K20

    Ceph架构概览

    ceph 客户端ceph monitor获取cluster map,然后执行在pool中pg执行IO操作。cursh ruleset和pg数量是决定数据对象放在哪里核心因素。...比如10个数据块,6个校验块,一共16个块分布式16个osd中,原始10个数据块可以6个osd中进行恢复。即使6个osd宕机,ceph集群也不会都是数据。...ObjectStore写入一个事务要么成功要么失败,这是体现了原子性。数据对象存在ceph集群有一个唯一编号、数据、元数据,因此ObjectStore根据这些信息来保证数据对象一致性。...4.K/V Store:ceph内部实现key/value数据库 BlueStore介绍 针对ssd或者易失内存、NVME,采用FileStore实现对象存储有太多限制。...当osd加入到集群,osd会上报自身状态给montior,一般osd会有up和down状态来反应osd是否是运行正常和客户端是否可以从这个osd请求数据。

    1.4K20

    Ceph:关于 Ceph 存储架构一些笔记

    OSD (Object Storage Daemon): 对象存储设备,守护进程,存储数据并处理数据复制、恢复和重新平衡, MGR (Managers,ceph-mgr): 管理器(必须),守护进程,...文件系统客户端首先向 MDS 发出请求,这会提供必要信息以便正确 OSD 获取文件内容 查看 Ceph 集群 MDS(Metadata Server)服务信息 ceph mds dump:显示所有的...: PG 状态,表示 PG 在当前时间点内活动情况和健康状况。...MISPLACED: 在预期 OSD 上对象数量。 UNFOUND: 未找到对象数量。 BYTES: PG 中对象总字节数。 OMAP_BYTES: PG 中对象元数据总字节数。...REPORTED: 汇报 PG 状态 OSD 编号。 UP: 处于活动状态 OSD 编号列表。 UP_PRIMARY: 作为主 OSD 进行同步 OSD 编号。

    1.1K10

    ceph分布式存储-常见OSD故障处理.md

    stop ceph-osd id={num} 注意:在定位某故障域内问题时,停机 OSD 内 PG 状态会变为 degraded 。 维护结束后,重启 OSD 。...网络问题 Ceph 是一个分布式存储系统,所以它依赖于网络来互联 OSD 们、复制对象、错误中恢复和检查心跳。...如果有其它进程共享驱动器,顺序读写吞吐量会成为瓶颈,包括日志、操作系统、monitor 、其它 OSD 和 Ceph 进程。...恢复限流 根据你配置, Ceph 可以降低恢复速度来维持性能,否则它会加快恢复速度而影响 OSD 性能。检查下 OSD 是否正在恢复。 内核版本 检查下你在用内核版本。...(查看 dmesg 输出) 内核文件系统缺陷(查看 dmesg 输出) 集群过载(检查系统负载、 iostat 等等) ceph-osd 守护进程 bug 可能解决方法: Ceph 主机分离 VM

    4K20

    《 大话 Ceph 》 之 PG 那点事儿

    ,现在就来分析下每种病症原因: 这里再次回忆下集群配置:size = 3, min_size = 2 1、Degraded 降级:由上文可以得知,每个PG有三个副本,分别保存在不同OSD中,在故障情况下...3、Remapped Ceph 强大自我恢复能力,是我们选择它一个重要原因,在上面的试验中,我们关闭了两个 OSD,但是至少还有一个 PG 0.44存活在 osd.0 上,如果那两个盘真的坏了,Ceph...还是可以将这份仅存数据恢复到别的OSD上。...想要修复丢失文件呢,只需要执行 ceph pg repair 0.44,ceph就会别的副本中将丢失文件拷贝过来,这也是ceph自愈一个情形。...,Ceph 就发现,osd.4char文件是陈旧,就通过别的 OSD 向 osd.4 进行数据恢复,使其数据为最新,而这个恢复过程中,PG就会被标记为 recover。

    9.3K83

    万字长文细讲分布式存储系统 Ceph 实战操作

    # 查看ceph集群状态,交互式 cephadm shell ceph status # 或者 cephadm shell ceph -s 您可以安装 ceph-common 包,其中包含所有 Ceph...168-182-130 如果主机处于脱机状态且无法恢复,仍可以通过以下方法将其群集中移除: # ceph orch host rm --offline --force ceph orch...ceph orch apply osd --all-available-devices --dry-run 3、移除 OSD 集群中删除 OSD 涉及两个步骤: 集群中撤出所有归置组 (PG)...集群中删除无 PG OSD 以下命令执行这两个步骤: # ceph orch osd rm [--replace] [--force] ceph orch osd rm...1、查看 pg映射信息 ceph pg dump # 或者 # ceph pg ls 2、查看一个 PG map ceph pg map 7.1a 3、查看 PG 状态 ceph pg stat

    3K10
    领券