概要
2024 年 8 月 7 日 17:00 UTC 到 2024 年 8 月 8 日 16:45 UTC 之间,一些 Pod 17、18、28、29 的客户在尝试使用 Explore 功能创建新报告时遇到了错误。这影响了他们生成见解和访问关键数据报告的能力。
时间线
UTC 时间 | 2024 年 8 月 8 日下午 03:35 2024 年 8 月 8 日上午 08:35(太平洋时间)
关于数据集大量的 Explore 客户报告无法创建新报告和数据集,我们正在调查中。解决方法是复制现有报告并编辑该报告,但仍无法创建新数据集。下次更新将于 30 分钟后或当我们有新信息时。
UTC 时间 | 2024 年 8 月 8 日下午 04:00 2024 年 8 月 8 日上午 09:00(太平洋时间)
我们的工程师正在继续调查一个影响创建新 Explore 报告和数据集的问题。我们已将影响范围缩小到 Pod 17、18、28、29 和 31。下次更新为一小时后,或当我们有新信息可分享时。
UTC 时间 | 2024 年 8 月 8 日下午 4:54 2024 年 8 月 8 日上午 09:54(太平洋时间)
我们的工程师将继续致力于解决影响创建新 Explore 报告和数据集的问题。我们将在 2 小时内或有新信息可分享时提供下一次更新。
UTC 时间 | 2024 年 8 月 8 日下午 05:21 2024 年 8 月 8 日上午 10:21(太平洋时间)
我们的工程师已推出修复程序,并确认您现在可以创建新的报告和数据集。此问题现已完全解决。如果继续出现问题,请与我们联系。
事后分析
根本原因分析
引发此事件的原因是,在我们的合作伙伴对数据库基础设施进行升级后,性能下降了。此次升级移除了我们系统以前所依赖的查询缓存,导致某些对 Explore 功能至关重要的查询速度明显降低。
解决方案
为了解决这个问题,我们分析了有问题的查询,并实施了有效的索引策略。这项需要立即执行的操作将查询性能恢复到了预期水平,从而解决了客户遇到的错误。
修复项目
- 通过围绕 SQL 查询延迟的特定警报改进监测系统,以便及早发现性能问题。
- 已将停用查询缓存的消息传达给其他团队,确保他们了解潜在影响并可采取预防措施。
- 通过将“not in”语句替换为布尔值来研究优化查询,以便与新的数据库版本保持一致。
- 针对重复的查询结果,研究使用弹性缓存或 Proxy SQL 实施缓存解决方案,避免今后出现类似问题。
- 确保所有更改、改进和流程都完整记录在 Confluence 中,以便共享知识,为未来类似活动做好准备。
如需更多信息
如需了解您 Zendesk 当前的系统状态信息,请查看我们的 系统状态页面。我们的事后调查概要通常会在事件结束几天后发布在这里。如果您对此事件有其他疑问,请 联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。