概要
2025 年 1 月 16 日 9:40 UTC 至 10:47 UTC 之间,Pod 19 上的一些 Chat 客户在查看最近的在线交谈、接收在线交谈导出电邮以及从在线交谈创建工单时遇到问题。
时间线
UTC 时间 | 2025 年 1 月 16 日上午 11:26 2025 年 1 月 16 日上午 03:26(太平洋时间)
我们很高兴地通知您,影响为客户提供在线交谈服务的问题现已解决。衷心感谢您的耐心和理解。
UTC 时间 | 2025 年 1 月 16 日上午 11:00 2025 年 1 月 16 日上午 03:00(太平洋时间)
我们在恢复功能方面取得了重大进展,包括查看最近的在线交谈、接收在线交谈导出电邮以及创建工单的功能。我们将继续密切关注事态发展,并努力提升您的体验。感谢您的耐心等待和理解!
UTC 时间 | 2025 年 1 月 16 日上午 10:39 2025 年 1 月 16 日上午 02:39(太平洋时间)
我们的 Pod 19 上的在线交谈服务目前遇到了问题,您可能无法查看最近的在线交谈、接收在线交谈导出电邮,以及创建工单。我们的团队正在积极努力,以尽快解决这些问题。感谢您的耐心等待!
事后分析
根本原因分析
造成此事件的原因是在线交谈服务已达到内存限制,并导致不断重启。每次重新启动都会在内存数据库中生成额外的元数据,导致内存溢出,最终导致系统内存不足,影响共享同一数据库实例的其他服务。
解决方案
为了解决此问题,团队从数据库中删除了不必要的元数据和未确认的密钥,以释放内存。此外,我们增加了实例类型以适应工作量,至此服务部署已成功完成。
修复项目
- 添加警报:在 Chat 服务中实施内存不足 (OOM) 情况的警报。
- 调整内存限制:降低了内存限制的阈值,以便在达到关键水平之前进行早期干预。
- Runbook 的改进:改进了处理在线交谈服务和数据库密钥管理的文档和操作手册。
- 数据库集群:已计划将不同服务的数据库实例分开,以避免将来出现共享内存问题。
如需更多信息
有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事件有其他疑问, 请联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。
0 条评论