概要
2025 年 2 月 6 日 18:00 UTC 至 2 月 7 日 10:25 UTC 之间,部分美国 Explore 客户在使用 Explore 面板数据时遇到了延迟。
时间线
UTC 时间 | 2025 年 2 月 7 日上午 11:12 2025 年 2 月 7 日上午 03:12(太平洋时间)
我们很高兴地通知您,自 UTC 时间 10:25 起,Explore 面板的问题已解决。感谢您的耐心等待和理解!
UTC 时间 | 2025 年 2 月 7 日上午 10:54 2025 年 2 月 7 日上午 02:54(太平洋时间)
自昨天 20:00 UTC 以来,我们目前遇到了 Explore 面板的延迟。我们的工程团队已识别此问题并进行了修复。我们正在积极监测事态发展,确保您为您提供流畅的体验。感谢您的耐心等待!
事后分析
根本原因分析
此事件是由使用新版数据导出工具服务导出大量数据触发的处理集群容量不足所致。查询执行时间过长,需要多次重试,从而导致同一有问题的查询并发执行三个。即使在启动它们的服务已停止后,这些查询仍继续运行,从而导致了 CPU 使用量峰值。
解决
为解决此问题,该团队手动重新启动了处理集群,这样可以终止卡住的查询,并使集群恢复正常运行容量。此操作已恢复群集有效处理其他查询的功能。
修复项目
- 实施查询时间限制:为导出查询设置时间限制,避免执行时间过长影响系统性能。
- 改进监测:增强监测系统,在 CPU 使用率高的情况下触发警报,更加显着、更加敏感,确保更快响应潜在问题。
- 审阅并优化查询:审阅所有与数据导出器关联的查询,以识别并优化那些使用带有 OR 条件的 JOIN 子句对性能产生问题的查询。
如需更多信息
有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事件有其他疑问, 请联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。
0 条评论