概要
2024 年 12 月 16 日 1:16 至 4:44 UTC,部分 Tymeshift 和劳动力管理客户遇到了错误和访问问题。
时间线
UTC 时间 | 2024 年 12 月 16 日上午 05:25 2024 年 12 月 15 日下午 09:25(太平洋时间)
我们很高兴地报告,Tymeshift 和劳动力管理访问问题现已解决。感谢您耐心等待我们今天处理此问题。
UTC 时间 | 2024 年 12 月 16 日上午 04:51 2024 年 12 月 15 日下午 08:51(太平洋时间)
我们已确定影响 Tymeshift/劳动力管理问题的潜在原因,并部署了修复程序。我们目前正在监测系统的恢复情况。如果您收到我们支持团队的工单,请回复并报告您所看到的任何改进。
UTC 时间 | 2024 年 12 月 16 日上午 03:44 2024 年 12 月 15 日下午 07:44(太平洋时间)
我们继续调查影响 Tymeshift 和劳动力管理多个 Pod 的访问错误。如有新信息可分享,我们将适时提供相关最新信息。感谢您耐心等待我们处理此问题。
UTC 时间 | 2024 年 12 月 16 日上午 03:01 2024 年 12 月 15 日下午 7:01(太平洋时间)
我们收到了关于 Tymeshift 和劳动力管理中错误和访问问题的报告。我们团队正在优先处理此问题。即将提供更多信息。
事后分析
根本原因分析
经确认,此事件的根本原因是未能在内部服务中正确关闭或取消分配准备好的语句。在特定情况下(目前仍在调查中),准备好的语句会累积到数据库达到其限制,导致数据库停止响应。
解决方案
为解决此事务,该团队实施了一个临时解决方法,即计划每天重新部署受影响的服务,以防止此问题再次发生,直到部署永久性修复程序为止。这种方法可以在彻底调查根本原因的同时,恢复系统功能。
修复项目
- 调查准备好的语句:进行详细调查,以确定准备好的语句未正确关闭或取消分配的原因并实施修复。
- 实施监测和警报:开发并实施监测功能及警报,以便在准备好的语句数量接近限制时进行检测。
- 审阅错误监测程序阈值:审查并调整错误监测阈值,确保今后及时检测到类似问题。
- 防止重复发生:计划每天重新部署服务,直到实施永久性修复,以避免问题再次发生。
- 增加资源分配:增加 US1 Tymeapp TymeShift 生产实例的 CPU 和内存分配,以处理更高的负载。
预防措施
为避免今后发生类似事件,我们将:
- 加强代码审阅,以确保对准备好的语句进行适当管理。
- 实施强大的监测系统,以检测潜在问题,并在潜在问题导致服务中断之前向团队发出警报。
- 定期审核数据库性能和资源利用率。
如需更多信息
有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事件有其他疑问,请 联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。
0 条评论