概要
2025 年 3 月 11 日 14:33 UTC 至 17:02 UTC 之间,所有 Pod 中的一些专员在 Guide 中创建和更新文章时遇到了问题。Guide 管理员不受影响。
时间线
UTC 时间 | 2025 年 3 月 11 日下午 5:10 2025 年 3 月 11 日上午 10:10(太平洋时间)
我们已发现 Guide 文章发布的问题,并已成功回滚有问题的部署。如果继续出现任何问题,请与我们联系。
UTC 时间 | 2025 年 3 月 11 日下午 05:03 2025 年 3 月 11 日上午 10:03(太平洋时间)
我们发现在多个 Pod 中在 Guide 中创建和更新文章时出现了问题。我们将很快提供更多信息。
事后分析
根本原因分析
此事件是由 Guide 文章服务中的配置错误引起的,其中用户区段服务查询所需的 HTTP 标头未正确命名,从而导致请求失败,并阻止专员创建或更新文章。
解决方案
为了解决此问题,该团队已恢复有缺陷的更改,即恢复之前可与用户区段服务正常通信的配置。在未来的更改中,我们将应用正确的标头,以避免类似问题。
修复项目
-
在部署之前实施冒烟测试以捕获配置错误。
-
改进现有监测工具,确保警报可操作而且不会被忽略。
-
创建其他警报,专门监测请求中的关键标头配置。
-
对特定应用程序设置连接限制,防止过载,确保高流量期间的稳定性。
这种结构化方法有助于确保今后不再发生类似事件,并确保为所有客户提供可靠的服务。
如需更多信息
有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事件有其他疑问, 请联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。