概要
2024 年 7 月 2 日 08:10 UTC 至 16:30 UTC 之间,Pod 17 和 18 的客户遇到了“接受在线交谈”按钮无响应的问题。此问题随后传播开来,导致多个其他 Pod 中的客户在尝试开启工单时遇到 “无法连接服务器” 错误。这严重影响了他们在专员工作区中有效沟通和管理任务的能力。
时间线
UTC 时间 | 2024 年 7 月 2 日下午 12:12 2024 年 7 月 2 日上午 05:12(太平洋时间)
我们目前正在调查一些客户的在线交谈接受按钮在 Pod 17 和 18 上无法正常工作的情况。我们如有更多最新信息,将及时提供。
UTC 时间 | 2024 年 7 月 2 日下午 02:01 2024 年 7 月 2 日上午 07:01(太平洋时间)
我们目前正在处理不同的在线交谈/消息传送/专员工作区问题,并将继续调查所有问题。感谢您的耐心等待!
UTC 时间 | 2024 年 7 月 2 日下午 02:51 2024 年 7 月 2 日上午 07:51(太平洋时间)
我们继续为 Pod 17 和 18 的客户解决专员工作区中接受在线交谈和消息传送的问题,他们面临的接受在线交谈按钮不起作用的问题。我们正在研究修复方法并测试各种方案,以完全解决此问题。
UTC 时间 | 2024 年 7 月 2 日下午 03:28 2024 年 7 月 2 日上午 08:28(太平洋时间)
对于 Pod 17 和 18 的客户,他们无法在专员工作区中接受在线交谈和消息传送,无法使用“接受在线交谈”按钮,我们仍在调查根本原因。我们将在一小时内发布更多信息,或当我们有新信息可分享时。
UTC 时间 | 2024 年 7 月 2 日下午 4:28 2024 年 7 月 2 日上午 09:28(太平洋时间)
我们的团队正在继续调查导致 Pod 17 和 18 上的客户无法在专员工作区中接受在线交谈和消息传送的问题,他们无法使用“接受在线交谈”按钮。当我们有新信息可分享时,我们将在一小时内提供进一步的更新。
UTC 时间 | 2024 年 7 月 2 日下午 05:48 2024 年 7 月 2 日上午 10:48(太平洋时间)
我们已提高 Pod 17 和 18 中消息传送服务的工作量,并正在监测是否有任何其他影响。我们的团队将确保在接受在线交谈时不再出现其他问题,并在确认恢复后提供其他更新。如果您在接受在线交谈时继续遇到任何问题,请与我们联系。
UTC 时间 | 2024 年 7 月 3 日上午 05:05 2024 年 7 月 2 日下午 10:05(太平洋时间)
经过进一步监测,我们确认影响在线交谈和消息传送接受度的问题已解决。非常感谢您的耐心等待。
事后分析
根本原因分析
在升级到已更新的存储系统期间,我们遇到了不可预见的性能挑战,即无法及时提供更新。造成这些问题的主要原因是在处理连接和订阅生命周期的查询时出现问题,导致存储系统堵塞和交易停止。这些问题影响了我们负责管理数据和用户界面实时更新的系统组件的性能。当我们尝试通过仅关注更新的存储系统来简化流程时,处理能力使用量的意外激增进一步导致了我们的资源紧张。
解决方案
为解决此问题,我们采取了多管齐下的方法。我们增加了所有 Pod 中的数据库集群的大小,发现数据库锁定和被阻止的事务是性能问题的根源。为此,我们应用了快速修复程序来消除这些锁定,尽管这可能导致形成孤儿数据库对象。最后,我们进行了逐步回滚,最终使订阅服务趋于稳定。
修复项目
- 移除数据库锁定和清除孤儿订阅已完成。
- 进一步的措施包括为连接创建和订阅创建端点添加服务级别目标 (SLO)。这是为了监测并确保未来系统性能可靠。
- 讨论了 Canary pod 之后在第一个生产 pod 中的停留时间,以便更早地捕获类似问题。
- 将采取阶段负载测试和维护实践(涉及清理和重新创建集群),以确保系统以最佳状态运行。
如需更多信息
如需了解您 Zendesk 当前的系统状态信息,请查看我们的 系统状态页面。我们的事后调查概要通常会在事件结束几天后发布在这里。如果您对此事件有其他疑问,请 联系 Zendesk 客户支持。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。
0 条评论