概要
2024 年 8 月 9 日 15:46 至 15:57 UTC,Pod 17 的 Support 客户遇到了各种问题,例如错误代码、加载时间缓慢以及无法在产品 UI 中打开工单或查看消息。
时间线
UTC 时间 | 2024 年 8 月 9 日下午 4:13 2024 年 8 月 9 日上午 09:13(太平洋时间)
关于用户无法查看 Pod 17 上的 Support 工单的报告,我们正在调查中,现已恢复正常。当我们确认完全稳定后,我们将在 30 分钟或更短的时间内提供更多更新。
UTC 时间 | 2024 年 8 月 9 日下午 4:32 2024 年 8 月 9 日上午 09:32(太平洋时间)
15:46 到 15:57 UTC 之间,Pod 17 的 Support 客户在加载工单时遇到了问题。性能已稳定,我们将继续监测性能。下次更新将在一小时后,或当我们有新信息时。
UTC 时间 | 2024 年 8 月 9 日下午 04:51 2024 年 8 月 9 日上午 09:51(太平洋时间)
Pod 17 从 15:46 UTC 到 15:57 UTC 期间发生的 Support 性能问题现已完全解决。由此带来的不便我们深表歉意,感谢您的耐心等待。
事后分析
根本原因分析
发生此事件是因为系统意外重启,该系统通过将信息缓存在内存中来加快数据检索速度。由于对此故障响应不充分,专员图表组件持续等待长达 60 秒钟的响应,导致超时错误,并导致 503 服务错误。造成此问题的因素包括系统未及时切换到替代数据源,以及现有的监测功能未触发警报,因为问题在达到阈值之前已解决。
解决方案
为了解决这个问题,当内存缓存系统重新回到在线状态时,系统会自动恢复。我们确定是因为该系统的重新启动导致了延迟,并确认了此问题可以自行解决,无需立即手动干预即可恢复服务。
修复项目
- 减少用户缓存检索的超时。
- 考虑进行混乱测试,在受控环境中模拟此类故障。
- 审阅并调整警报阈值,以确保加快检测和响应时间。
- 联系 AWS 对内存缓存系统意外重启进行调查,以避免今后发生类似情况。
如需更多信息
如需了解您 Zendesk 当前的系统状态信息,请查看我们的 系统状态页面。我们的事后调查概要通常会在事件结束几天后发布在这里。如果您对此事件有其他疑问,请 联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。
0 条评论