概要

2025 年 10 月 25 日 02:00 UTC 到 15:40 UTC 之间,Pod 15 和 19 的Zendesk Support (专员工作区)和Sunshine Conversations客户在这些产品中遇到了各种问题,包括消息传送失败、工单创建延迟和其他性能问题。这些症状发生在影响窗口内的不同时间段。

时间线

UTC | 2025 年 10 月 25 日 02:30 2025 年 10 月 24 日 7:30(太平洋时间)

我们已知晓并正在调查Sunshine Conversations中的一个问题(关于 Pod 15)。客户可能会遇到 5xx 错误和消息传送延迟。有更多信息可分享时,我们会第一时间通知您。

UTC | 2025 年 10 月 25 日 03:00 2025 年 10 月 24 日 8:00(太平洋时间)

我们已识别导致 Pod 15 上 SunCo 延迟和 5xx 错误的问题,正在进行修复。当我们有更多信息需要分享时,我们将在 30 分钟内提供更新。

UTC | 2025 年 10 月 25 日 03:00 2025 年 10 月 24 日 8:00(太平洋时间)
我们开始看到影响Sunshine Conversations 的延迟和错误率在 pod 15 中有所恢复。我们将在观察到完全恢复时或一小时后更新。

UTC | 2025 年 10 月 25 日 03:15太平洋时间 2025 年 10 月 24 日 8:15

我们现在可以确认 pod 15 上消息传送的延迟和错误率已恢复正常。对于此中断,我们深表歉意。

| 2025 年 10 月 25 日 03:45 UTC 2025 年 10 月 24 日 8:45(太平洋时间)

尽管消息传送延迟和 Sunshine Conversations 中的 5xx 错误已恢复正常,但我们仍在观察工单创建方面的延迟,并努力解决问题。我们将在 30 分钟内提供更新。

UTC | 2025 年 10 月 25 日 04:00 2025 年 10 月 24 日 9:00(太平洋时间)
很抱歉给您带来困扰,我们注意到 pod 15 个 Sunshine 对话再次出现延迟增加和错误。我们还发现了一个影响 pod 19 的问题,但这会影响工单创建。这些问题相互关联,我们将了解更多信息及时提供更新。

UTC | 2025 年 10 月 25 日 05:00 2025 年 10 月 24 日 10:00(太平洋时间)

pod 15 上的 Sunshine Conversations 消息传送再次保持稳定性。我们正在继续调查导致 Pod 19 上部分客户的工单创建延迟的问题。

UTC | 2025 年 10 月 25 日 07:45 2025 年 10 月 25 日 00:25(太平洋时间)
我们的工程团队仍在努力解决影响 pod 19 工单创建延迟的问题。对于持续造成的中断,我们深表歉意。

UTC 时间 | 2025 年 10 月 25 日2025 年 10 月 25 日 07:25(太平洋时间)
为了恢复 Pod 19 的正常工单创建,我们花了几个小时,但现在开始发现待办工单创建作业出现问题。我们确实仍观察到工单创建方面存在延迟,但希望很快就能得到更新,确认正常的工单创建时间。

UTC 时间 | 2025 年 10 月 25 日2025 年 10 月 25 日 08:15(太平洋时间)
在监测完全恢复的同时,我们继续看到积压的消息和工单创建处理朝着正确的方向发展。我们还希望分享范围更新;工单创建的延迟也会影响工单分配。对于这一额外影响给您带来的困惑和不满,我们深表歉意。我们将在一小时(或更短的时间内)提供更新。

2025 年 10 月 25 日 16:00 UTC | 2025 年 10 月 25 日 09:00 太平洋时间
在消息积压方面,我们继续看到处理取得了积极的成果,并计划在下一次更新中确认 Pod 19 上消息工单创建和分配的完全恢复。部分客户目前可能仍会遇到延迟和消息无法发送给专员的问题。对于长时间的影响,我们深表歉意,感谢您的理解。

2025 年 10 月 25 日 17:00 UTC | 2025 年 10 月 25 日 10:00(太平洋时间)
我们很高兴地报告,经监测,未处理的消息传送工单的积压情况依然清朗。非常感谢您的耐心等待,我们正在努力解决此问题。如果您有任何疑问,请联系我们。

UTC | 2025 年 10 月 28 日 01:52 2025 年 10 月 27 日 18:52(太平洋时间)
我们很高兴地通知您, Sunshine Conversation 的问题已得到解决,包括 Pod 15 上的 SunCo 错误和延迟,以及 Pod 19 上的工单创建延迟。感谢您在整个解决过程中的耐心配合。

根本原因分析

此事件是由消息传送 SDK 流量突然激增引起的。异常高的请求量导致数据库和服务器资源耗竭,从而导致事件处理延迟。跨服务延迟使这一问题雪上加霜,尤其是在Support中。因此,客户在接收和发送消息以及工单创建方面都遇到了服务缓慢、出错、严重延迟的问题。这些延迟还影响到了相关 API 端点,进而可能对利用这些服务的应用和整合产生影响。

解决方案

为了解决这个问题,我们团队通过扩展数据库和处理系统来处理流量并清除消息传送积压,从而提高了基础设施的容量。此外,我们还调整了系统配置,以提高处理速度,增强系统抵御突然出现的流量峰值的能力。

修复项目

  1. 改进系统监测和警报,以缩短检测时间。
  2. 增强基础设施的可扩展性,使我们的系统能够更好地应对需求的突然增长。
  3. 查看并优化速率限制策略,以避免平台过载。
  4. 当系统某个部分受到影响时,加强跨区域协调以降低延迟风险。

如需更多信息

有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事务有其他疑问,请联系 Zendesk 客户支持。

翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性

如对翻译准确性有任何疑问,请以文章的英语版本为准。

由 Zendesk 提供技术支持