RESUMEN

El 20 de octubre de 2025, entre las 06:49 UTC y las 23:41 UTC, recibimos 1308 informes de clientes que tenían problemas en varios productos Zendesk. Estas interrupciones fueron causadas por integraciones de aplicaciones fallidas durante una interrupción significativa de AWS US East.

Cronograma

20 de octubre de 2025 07:59 a.m. UTC | 20 de octubre de 2025 12:59 a.m. PST

Sabemos que tenemos un problema en varios servicios de Zendesk. Nuestro equipo de ingeniería está haciendo todo lo posible por resolver el problema. Proporcionaremos una actualización después de 30 min. Gracias por su paciencia.

20 de octubre de 2025 08:32 a.m. UTC | 20 de octubre de 2025 01:32 a.m. PST

Nos disculpamos sinceramente por la interrupción continua y nuestros ingenieros están resolviendo activamente este incidente. Proporcionaremos una actualización tan pronto como tengamos información significativa para compartir. Gracias por su comprensión y paciencia.

20 de octubre de 2025 09:49 a.m. UTC | 20 de octubre de 2025 02:49 a.m. PST

Nuestros ingenieros han identificado un problema que se origina en nuestro proveedor anterior y que está afectando a varios productos Zendesk, incluidos Chat, Voz, Análisis, SunCo, Sunshine Platforms, Contact Center y soporte. Estamos viendo mejoras, pero los clientes pueden experimentar un periodo de degradación del rendimiento. Agradecemos su paciencia y proporcionaremos actualizaciones a medida que estén disponibles.

20 de octubre de 2025 11:08 a.m. UTC | 20 de octubre de 2025 04:08 a.m. PST

Hemos observado una recuperación parcial en nuestros productos Zendesk después del problema causado por nuestro proveedor anterior. Nuestro equipo de ingeniería continúa trabajando diligentemente para restaurar el servicio completo en todas las áreas afectadas. Nos disculpamos por las molestias que esto pueda causar y agradecemos su paciencia. Las actualizaciones se proporcionarán a medida que estén disponibles.

20 de octubre de 2025 14:28 UTC | 20 de octubre de 2025 07:28 PST

Hemos observado una recuperación significativa en la mayoría de los productos Zendesk; sin embargo, los clientes de AMER y APAC Explore pueden seguir teniendo datos obsoletos en los informes de análisis en vivo e históricos. Además, hay problemas continuos con las sesiones de llamadas y el acceso a los datos vinculados a un problema del proveedor anterior. Nuestro equipo de ingeniería está trabajando de cerca con el proveedor para acelerar la remediación y está tomando medidas proactivas para restaurar completamente todos los servicios antes de los periodos de mayor uso. Nos disculpamos por cualquier interrupción que esto pueda causar y agradecemos sinceramente su paciencia continua. Se proporcionarán más actualizaciones a medida que estén disponibles.

20 de octubre de 2025 15:20 UTC | 20 de octubre de 2025 08:20 PST

Estamos abordando activamente una interrupción con nuestro proveedor de servicios en la nube que afecta a varios productos y pods de Zendesk, principalmente en los pods 19 y 23. Los impactos adicionales incluyen Explore en AMER y APAC, Talk en todos los pods, Agentes IA, Sunshine Conversations y cierta degradación en desvío omnicanal y Chat. Nos disculpamos por las notificaciones anteriores perdidas y proporcionaremos actualizaciones en una hora o tan pronto como surja nueva información.

20 de octubre de 2025 04:30 p.m. UTC | 20 de octubre de 2025 09:30 a.m. PST

Continuamos trabajando con nuestro proveedor de Cloud en los problemas que afectan a varios productos Zendesk. Nos disculpamos porque no tenemos una actualización sustantiva o positiva con respecto a la recuperación completa, pero queremos mantenerlo al día. Le agradecemos su paciencia y comprensión mientras trabajamos en esta severa interrupción del servicio. Enviaremos actualizaciones a medida que estén disponibles.

20 de octubre de 2025 22:05 UTC | 20 de octubre de 2025 15:05 PST

Nuestro proveedor asociado de la nube ha indicado que están experimentando mejoras significativas, y nuestro monitoreo y registro están mostrando una recuperación casi completa en los productos Zendesk. Si bien nos estamos acercando a la resolución desde una perspectiva de estabilidad, hay un considerable volumen de trabajo en proceso desde la perspectiva de impacto. Los datos de Explore y las grabaciones de llamadas de Talk se volverán a llenar gradualmente en las próximas horas, y haremos seguimiento cuando hayamos confirmado que hemos alcanzado la resolución completa. Gracias por su paciencia continua durante nuestra investigación.

20 de octubre de 2025 23:35 UTC | 20 de octubre de 2025 16:35 PST

Todos los servicios de Zendesk han sido restaurados y son estables. Los datos de Explore seguirán actualizándose en las próximas horas a medida que procesemos los tickets en proceso creados durante el incidente. No se requiere ninguna acción del cliente. Los informes de Explore siguen estando disponibles como de costumbre, aunque la actualización de los datos puede tardar hasta que se eliminen los tickets en proceso. Gracias por su paciencia al trabajar en esta cuestión.

Análisis de causa de fondo

Este incidente fue causado por una interrupción significativa en AWS US East (us-east-1), que provocó fallas en la resolución de las direcciones de red y escasez de capacidad del sistema, interrumpiendo los servicios de infraestructura básica de Zendesk. Además, surgieron desequilibrios de recursos en ciertos pods debido a las limitaciones dentro de las zonas de disponibilidad AWS. 

Resolución

Para resolver el problema, el equipo de ingeniería coordinó los esfuerzos con AWS Support e implementó varias correcciones, incluido el escalado de recursos, las autorizaciones manuales y el reinicio de procesos de datos clave. A lo largo de la respuesta, se mantuvo informados a los clientes y se confirmó la recuperación completa de todos los servicios básicos.

Elementos de corrección

  1. Agregue tiempos máximos de inactividad a las llamadas de la base de datos para evitar demoras y asegurarse de que las llamadas fallidas no cuelguen el sistema.
  2. Desarrolle métodos alternativos para obtener versiones de aplicaciones y recursos para manejar las interrupciones de la base de datos con gracia.
  3. Investigue las fallas de trabajo causadas por la falta de datos y mejore la validación para evitar dichos errores; asegúrese de que las métricas relacionadas se monitoreen y las alertas estén activas.
  4. Mejore la capacidad de aumentar o disminuir fácilmente el tamaño de los pipelines de procesamiento para ponerse al día con el trabajo demorado.
  5. Implemente funciones para permitir que el sistema se degrade con gracia en lugar de mostrar errores o páginas en blanco durante los incidentes.
  6. Agregue búferes de capacidad adicional a los grupos y armonice los horarios de mantenimiento con las horas pico de tráfico.
  7. Explore reduce temporalmente los recursos que usan los servicios no críticos para priorizar las aplicaciones esenciales.
  8. Cree una lista de verificación para manejar fallas de capacidad para evitar apagados inesperados de los pods o una reducción de escala.
  9. Establezca límites de tamaño mínimos para los grupos de nodos administrados para mantener suficientes recursos.
  10. Investigue las opciones de copia de seguridad y failover para mejorar la confiabilidad del servicio.
  11. Completar la reubicación de cuentas para reducir la exposición a fallas regionales.
  12. Considere reducir las llamadas API innecesarias para minimizar el impacto de los usuarios durante las fallas de la plataforma.
  13. Limite la ingestión de eventos solo a aquellos visibles en la interfaz para reducir la carga de la base de datos durante los incidentes.
  14. Revise el alcance del impacto para comprender por qué los clientes fuera de las regiones afectadas tuvieron problemas.
  15. Confirme las dependencias de los servicios de terceros y sus capacidades de failover.
  16. Actualice las guías de guardia con procedimientos de alerta y copia de seguridad pertinentes.
  17. Asegúrese de que las guías de guardia estén accesibles durante todos los incidentes.
  18. Mejore las herramientas de monitoreo del despliegue y congele las políticas para evitar versiones incorrectas.
  19. Interactúe con los proveedores de la nube para mejorar la precisión de las alertas y reducir el ruido en el monitoreo.
  20. Aumente la asignación de memoria para proxys críticos para mejorar la estabilidad.
  21. Separe las alertas sin datos de los sistemas de procesamiento de trabajos para evitar falsas alarmas.

SI DESEA MÁS INFORMACIÓN

Si desea información actualizada sobre el estado del sistema de Zendesk y los impactos específicos en su cuenta, visite nuestra página de estado. Puede seguir este artículo para recibir notificaciones cuando se publique nuestro informe post mortem. Si tiene preguntas adicionales sobre este incidente, comuníquese con Atención al cliente de Zendesk.

Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.

Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.

Tecnología de Zendesk