概要

2025 年 10 月 20 日 06:49 至 23:41 UTC 之间,我们收到了 1,308 份客户报告,涉及多个 Zendesk 产品的使用问题。这些服务中断是由于AWS美国东部地区发生严重中断期间应用程序整合失败造成的。

时间线

UTC 时间 | 2025 年 10 月 20 日上午 07:59 2025 年 10 月 20 日上午 12:59(太平洋标准时间)

我们了解到多项 Zendesk 服务都出现了问题。我们的工程团队正在尽力解决此问题。我们将在 30 分钟后提供更新。感谢您的耐心等待。

UTC 时间 | 2025 年 10 月 20 日上午 08:32 2025 年 10 月 20 日上午 01:32(太平洋标准时间)

对于此次服务中断,我们深表歉意。我们的工程师正在积极排除故障。一旦有重要信息需要分享,我们将及时更新。感谢您的理解和耐心等待。

UTC 时间 | 2025 年 10 月 20 日上午 09:49 2025 年 10 月 20 日上午 02:49(太平洋标准时间)

我们的工程师已发现一个来自我们的上游提供商的问题,影响到多个 Zendesk 产品,包括 Chat、 语音、Analytics、SunCo、 Sunshine Platforms、Contact Center 和Support。我们看到了改进,但客户可能会经历一段时间的性能下降。感谢您的耐心等待,我们将及时提供更新。

UTC 时间 | 2025 年 10 月 20 日上午 11:08 2025 年 10 月 20 日上午 04:08(太平洋标准时间)

我们发现,由于我们的上游提供商造成的问题,Zendesk 产品已部分恢复。我们的工程团队将继续努力工作,以恢复所有受影响区域的全面服务。由此带来的不便我们深表歉意,感谢您的耐心等待。更新可用时将予以提供。

UTC 时间 | 2025 年 10 月 20 日下午 2:28 2025 年 10 月 20 日上午 07:28(太平洋标准时间)

根据我们的观察,大多数 Zendesk 产品都实现了显着恢复;但是,美洲和亚太地区的 Explore 客户可能会在实时和历史分析报告中继续遇到过时的数据。此外,通话会话和数据访问方面持续存在问题,与上游提供商问题相关。我们的工程团队正与提供商密切合作以加快修复速度,并积极采取措施在使用高峰期之前完全恢复所有服务。由此造成的任何中断,我们深表歉意。衷心感谢您的耐心等待。如有进一步的更新,我们将及时提供。

UTC 时间 | 2025 年 10 月 20 日下午 03:20 2025 年 10 月 20 日上午 08:20(太平洋标准时间)

我们正在积极处理与云提供商的中断,该中断影响多个 Zendesk 产品和 Pod,主要涉及 Pod 19 和 23。其他影响包括在美国和亚太地区的 Explore,在所有 Pod、人工智能专员和Sunshine Conversations中的 Talk,以及全方位渠道路由和 Chat 中的一些降级。对于之前错过的通知,我们深表歉意。如有新信息,我们将在一小时内或尽快更新。

UTC 时间 | 2025 年 10 月 20 日下午 4:30 2025 年 10 月 20 日上午 09:30(太平洋标准时间)

我们将继续与我们的云提供商合作,解决影响多个 Zendesk 产品的问题。很抱歉,我们没有关于完全恢复的实质性或积极的更新,但我们想让您了解最新信息。感谢您在我们处理此次严重服务中断期间的耐心等待和理解。我们将在有更新可用时发送更新。

UTC 时间 | 2025 年 10 月 20 日晚上 10:05 2025 年 10 月 20 日下午 3:05(太平洋标准时间)

我们的合作伙伴云提供商表示,情况有了显着改善,根据我们的监测和日志记录,Zendesk 产品几乎已完全恢复。虽然我们正从稳定性的角度解决问题,但影响窗口期后仍有大量积压活动尚未处理。Explore 数据和 Talk 通话录音将在接下来的几个小时内逐渐回填,我们将在确认问题已完全解决后进行跟进。感谢您耐心等待我们的调查。

UTC 时间 | 2025 年 10 月 20 日晚上 11:35 2025 年 10 月 20 日下午 4:35(太平洋标准时间)

所有 Zendesk 服务都已恢复,并处于稳定状态。Explore 数据将在未来几个小时内继续更新,因为我们会处理此次事务期间创建的待办工单。客户无需进行任何操作。Explore 报告仍可正常使用,但数据新鲜度可能会延迟,直到待办工单被清除。感谢您耐心等待我们处理此问题。

根本原因分析

此事件的起因是AWS美国东部 (us-east-1) 发生严重中断,导致解析网络地址失败和系统容量不足,从而中断了 Zendesk 的核心基础设施服务。此外,由于AWS可用区的限制,某些 Pod 中出现了资源不平衡的问题。 

解决

为解决此问题,工程团队与AWS Support 协调,实施了各种修复程序,包括资源扩展、手动清除,以及重新启动关键数据流程。在响应的整个过程中,我们一直向客户通报最新情况,并确认已确认完全恢复所有核心服务。

修复项目

  1. 为数据库调用添加超时,以避免延迟,并确保失败的调用不会挂起系统。
  2. 开发用于抓取应用版本和资产的回退方法,以妥善处理数据库中断。
  3. 调查由于缺失数据导致的作业失败,并改进验证以避免此类错误;确保相关指标受到监测,且警报处于活跃状态。
  4. 改进轻松扩展或缩小处理管道以赶上延迟工作的能力。
  5. 实施功能,使系统在发生故障时可以正常降级,而不是显示错误或空白页面。
  6. 为集群添加额外的缓存容量,并根据流量高峰时间调整维护日程计划。
  7. 探索暂时减少非关键服务使用的资源,以优先处理重要的应用程序。
  8. 创建一个处理工作量故障的清单,以防止 Pod 意外关闭或缩小。
  9. 设置托管节点组的最小大小限制,以维持足够的资源。
  10. 研究备份和故障转移选项,以提高服务的可靠性。
  11. 完成帐户迁移,减少区域故障的风险。
  12. 研究减少不必要的 API 调用,尽量减少平台故障期间对用户的影响。
  13. 将事件提取限制在界面可见的范围内,以减少事务期间的数据库负载。
  14. 查看影响范围,了解受影响区域以外的客户会遇到问题的原因。
  15. 确认对第三方服务的依赖关系及其故障转移功能。
  16. 用相关的备份和警报程序更新待命指南。
  17. 确保在所有事务发生期间,随叫随到的指南都可以访问。
  18. 改进部署监测工具并冻结政策,以避免发布错误。
  19. 与云提供商合作,提高警报准确性,减少监测干扰。
  20. 增加关键代理的内存分配以提高稳定性。
  21. 将无数据警报与作业处理系统分开,以避免误报。

如需更多信息

有关 Zendesk 的当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面.请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事务有其他疑问, 联系 Zendesk 客户支持。

翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性

如对翻译准确性有任何疑问,请以文章的英语版本为准。

由 Zendesk 提供技术支持