概要
2024 年 7 月 2 日 18:20 至 18:44 UTC(协调世界时),由于流量意外增加,我们的 Sunshine Conversations 服务出现了高延迟。这导致了我们系统的运行速度和消息处理延迟。
时间线
UTC 时间 | 2024 年 7 月 2 日晚上 10:12 2024 年 7 月 2 日下午 03:12(太平洋时间)
影响 Pod 13 上 Answer Bot 性能的问题现已完全解决。如果继续出现问题,请与我们联系。
UTC 时间 | 2024 年 7 月 2 日下午 9:07 2024 年 7 月 2 日下午 02:07(太平洋时间)
我们发现 Pod 13 上的 Answer Bot 性能有所改进,并将继续监测性能。解决此事务后,将提供最终更新。
UTC 时间 | 2024 年 7 月 2 日下午 8:13 2024 年 7 月 2 日下午 01:13(太平洋时间)
我们的工程师正在调查导致 Pod 13 上 Answer Bot 降级的问题。有新信息可分享时,我们将另行通知。
UTC 时间 | 2024 年 7 月 2 日下午 7:47 2024 年 7 月 2 日下午 12:47(太平洋时间)
我们正在调查关于 Pod 13 上 Answer Bot 降级的报告。当我们获得更多信息时,我们将提供更新。
事后分析
此事件是由流量大幅增加触发的。这导致我们的系统速度变慢,从而导致服务延迟和暂时中断。我们立即采取措施应对增加的工单量,恢复正常运营。
根本原因分析
主要原因是流量突然激增,使我们的平时流量增加了一倍,并使我们的数据库饱和,从而导致了延迟。此外,我们的 AnswerBot 服务无法处理增加的负载,导致进一步的中断。
解决方案
为缓解此问题,我们扩容了数据库和 AnswerBot 服务,增加了其应对激增的能力。这样我们就可以恢复正常运营并处理积压的消息。
修复项目
1.启用 Auto-Scaling:为关键服务实施自动扩展,应对突然的流量峰值。
2.介绍断路器:必要时暂时减少流量,避免服务过载。
3.改进监测:增强我们的监测系统,更快地检测并响应类似问题。
如需更多信息
如需了解您 Zendesk 当前的系统状态信息,请查看我们的 系统状态页面。我们的事后调查概要通常会在事件结束几天后发布在这里。如果您对此事件有其他疑问,请 联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。