概要

2026 年 1 月 30 日 15:10 UTC 至 16:54 UTC 之间,部分客户在接收某些 Explore 功能的最新更新时遇到了延迟。虽然总体服务仍然可用,但在此期间显示的信息不是最新的。

时间线

UTC 时间 | 2026 年 1 月 30 日下午 4:59:24 2026 年 1 月 30 日上午 08:59:24(太平洋标准时间)
我们的工程师已发现并已发布相应解决方案。该问题导致部分 Explore 数据集无法接收更新数据。在此期间错过的数据将在下次 Explore 数据刷新时显示。感谢您的耐心等待。

UTC 时间 | 2026 年 1 月 30 日下午 3:32:00 2026 年 1 月 30 日上午 07:32:00(太平洋标准时间)
受影响的数据集包括:Guide 生成式搜索、Guide 页面效率分析、Guide 用户会话分析、人工智能建议、智能分类和人工智能自动助手。

UTC 时间 | 2026 年 1 月 30 日下午 3:23:24 2026 年 1 月 30 日上午 07:23:24(太平洋标准时间)

我们正在调查某些 Explore 数据集的所有 Pod 中未收到最近两小时内更新数据的客户。我们将很快提供更多更新。

根本原因分析

造成此事件的原因是最近的一个更新无意中阻止了系统正确清除临时资源。结果,未使用的资源堆积起来,给基础设施带来了额外的压力。这导致一些关键服务反复重启,从而导致无法处理和更新全新数据。

解决

为了解决这个问题,团队已将最近的更新撤消到以前的稳定版本,使系统可以正确清除未使用的资源。他们还提高了某些组件的内存限制,以防止崩溃,并暂时减少了一些支持服务的负载,以帮助恢复。完成这些步骤后,系统稳定下来,受影响的服务已恢复,数据更新也恢复正常。

修复项目

  1. 设置监测和警报,以快速识别阻止系统清除未使用资源的问题。

  2. 添加了警报以检测关键服务中的高内存使用量和崩溃,从而加快响应。

  3. 提高某些服务的内存限制,帮助其更可靠地处理繁忙时间。

  4. 改进系统日志记录,以便更容易发现错误和延迟。

  5. 引入了资源创建和移除流程的基本测试,以便在发布之前发现潜在的问题。

翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性

如对翻译准确性有任何疑问,请以文章的英语版本为准。

由 Zendesk 提供技术支持