前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生产事故:年终奖杀手虽迟但到!

生产事故:年终奖杀手虽迟但到!

作者头像
故里
发布2020-12-23 14:28:20
4090
发布2020-12-23 14:28:20
举报
文章被收录于专栏:故里学Java

事故描述:

上周客户的大促活动中,客户反馈,存在部分已发货的订单退款成功,造成了惨重的损失,直接影响在客户信任感。事后我们对这次事故进行了专项复盘。

造成影响:

涉及问题订单100余单,累计金额近万元。

什么原因造成的?

WMS发货完成后,回传OMS物流信息,调用订单发货接口失败,订单发货接口未做特殊异常处理,导致订单状态未能及时同步给平台。正确的业务逻辑应该是买家发起退款申请,在客服人员手动点击发货重新同步平台状态之前,进行退款申请,OMS系统自动拦截WMS发货,此时因为WMS已发货成功,所以拦截失败,但是平台订单状态未更新,所以退款申请默认同意。核心问题是订单服务的其中一个实例加载mq配置文件失败,导致这个实例不能发送mq消息,缺乏消息重试机制。

为什么没有及时发现问题?

项目是客户私服部署,由客户的运维进行发布维护,监控系统被替换成客户自己搞的监控系统。

对于异常的报警机制不完善。

发现异常时做了哪些事情?

  1. 通过分析日志,定位到问题
  2. 联系客户运维人员剔除出问题的订单服务实例
  3. 技术手段排查出问题订单交由客户业务人员进行问题订单拦截。

以后如何避免?

通过对这次事故的复盘,针对这次的事故的解决方案如下:

  1. 接口异常及时抛出,供调用方进行对应业务逻辑处理
  2. 消息发送服务提供自动重试机制,如果发送失败,系统自动重试3次,对异常进行落库处理
  3. 对重要节点的异常提供短信和钉钉消息提醒,技术及时处理
  4. 完善监控系统,监控每个实例状态,及时处理问题容器。

事故总结:

正视每一次事故,刨析事故原因,有针对性的解决事故原因,对于事故的预防工作该如何优化,避免下一次更严重的事故。希望技术人敬畏每一行代码!

- END -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 故里学Java 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 造成影响:
  • 什么原因造成的?
  • 为什么没有及时发现问题?
  • 发现异常时做了哪些事情?
  • 以后如何避免?
  • 事故总结:
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档