概要

2025 年 3 月 11 日 5:50 UTC 到 23:18 UTC 时,所有 Pod 中的 Talk 客户的通话掉线率都很高。

 

时间线

UTC 时间 | 2025 年 3 月 11 日晚上 11:26 2025 年 3 月 11 日下午 04:26(太平洋时间)
我们很高兴地报告,Talk 中的间歇性通话掉线问题现已解决。感谢您的耐心等待,我们已联系提供商处理此问题。

UTC 时间 | 2025 年 3 月 11 日下午 03:22 2025 年 3 月 11 日上午 08:22(太平洋时间)
我们正在与电话合作伙伴监测事态的发展,但很遗憾,我们发现通话断掉断续激增。对您的不便我们深表歉意。请放心,我们将继续监测事态发展,并及时更新了解的情况。

UTC 时间 | 2025 年 3 月 11 日上午 09:23 2025 年 3 月 11 日上午 02:23(太平洋时间)
我们很高兴地通知您,我们的 Talk 合作伙伴已确认,截至 UTC 时间 08:46 时,通话掉线问题已得到完全解决。

UTC 时间 | 2025 年 3 月 11 日上午 07:32 2025 年 3 月 11 日上午 12:32(太平洋时间)
我们的 Talk 合作伙伴现已为客户解决了可能导致通话掉线的问题。我们将继续关注事态发展,并及时为您提供最新进展。

UTC 时间 | 2025 年 3 月 11 日上午 06:59 2025 年 3 月 10 日下午 11:59(太平洋时间)
根据我们的服务提供商报告,Talk 在所有 pod 中的通话掉线率都偏高。他们已实施修复,并正在监测是否完全恢复。有更多进展可分享,我们将及时提供后续更新。

 

事后分析

根本原因分析

此事件是由上游服务中的内存不足问题引起的,并触发了级联故障。最初的短暂超时升级为严重错误,促使我们的 Talk 合作伙伴的工程师进行了调查。

 

解决方案

为解决此问题,我们的 Talk 合作伙伴工程师实施了修复措施,包括替换受影响的主机,以及回滚依赖有问题上游服务的 beta 功能。这些操作有助于恢复正常服务,减轻对客户的影响。

修复项目

  1. 增强监测和警报系统,以更有效地检测上游服务问题。
  2. 提高平台的恢复能力,以避免将来出现级联故障。
  3. 全面审查对上游服务的依赖关系,识别潜在风险。

 

如需更多信息

有关 Zendesk 当前系统状态信息以及对您帐户的具体影响,请访问我们的 系统状态页面。请关注此文章,以便在我们的事后分析报告发布时获得通知。如果您对此事件有其他疑问, 请联系 Zendesk 客户支持。

翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性

如对翻译准确性有任何疑问,请以文章的英语版本为准。

由 Zendesk 提供技术支持