概要

2023 年 6 月 27 日 20:17 UTC 到 2023 年 6 月 28 日 17:20 UTC 之间,Pod 19 的客户面临工单 SLA 问题。将SLA政策分配给工单时,或应达到SLA目标时,系统未更新应有的目标标记。这意味着工单会一直测量时间,而无法正确反映是否已达到SLA目标。

时间线

UTC 时间 | 2025 年 6 月 27 日晚上 10:52 2025 年 6 月 27 日下午 03:52(太平洋时间)

我们收到了关于 SLA 未在 Pod 19 上正确应用客户的报告。我们将很快提供进一步的更新。

UTC 时间 | 2025 年 6 月 27 日晚上 11:03 2025 年 6 月 27 日下午 04:03(太平洋时间)

我们已确认 Pod 19 上有一个问题,导致在应用SLA政策或在工单更新后达到目标时, SLA目标和标记不更新。我们正在调查,并将在接下来的 30 分钟内提供更多信息。

UTC 时间 | 2025 年 6 月 27 日晚上 11:22 2025 年 6 月 27 日下午 04:22(太平洋时间)

我们的团队正在继续调查 Pod 19 客户的一个问题,该问题会导致在提交工单更新时, SLA目标和标记无法正常更新。当我们有重大更新需要分享时,我们将提供进一步的信息。

UTC 时间 | 2025 年 6 月 28 日上午 01:28 2025 年 6 月 27 日下午 6:28(太平洋时间)

我们的工程师将继续调查 Pod 19 上的SLA问题。如有任何进展,我们将及时通知您。

UTC 时间 | 2025 年 6 月 28 日上午 03:25 2025 年 6 月 27 日下午 08:25(太平洋时间)

我们已识别并修复了导致SLA目标和标记无法在 Pod 19 上更新的问题。所有更新现已处理,SLA 此时应正确显示。感谢您的耐心等待。

根本原因分析

此事件是由发送到处理工单活动系统的一条损坏的消息引起的,该系统导致所有进程停止工作。用户对象在活动日志的描述字段中编码错误,导致处理工单活动日志的 SLA 失败。

解决

为了解决这个问题,我们调整了分区偏移量以跳过有问题的消息,从而绕过了损坏的消息。然后,我们重新启动了使用方,以恢复正常的事件处理。

修复项目

  1. 在消息传送系统中创建一个计划,以正确管理读取数据时发生的错误。

  2. 改进现有实施工具,以提高抵御损坏消息的能力。

  3. 创建更多监测警报以加强对不健康服务状态的检测。

  4. 对特定应用程序建立适当的连接限制,以避免级联故障。

如需更多信息

有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事务有其他疑问, 请联系 Zendesk 客户支持。

翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性

如对翻译准确性有任何疑问,请以文章的英语版本为准。

由 Zendesk 提供技术支持