RESUMEN
El 16 de enero de 2025, de 9:40 UTC a 10:47 UTC, algunos clientes de Chat en el pod 19 experimentaron problemas para ver los chats recientes, recibir correos electrónicos de exportación de chat y crear tickets a partir de chats.
CRONOGRAMA
16 de enero de 2025 11:26 a.m. UTC | 16 de enero de 2025 03:26 a.m. PT
Nos complace informarle que los problemas que afectan el servicio de chat para nuestros clientes en POD19 ya han sido resueltos. Agradecemos sinceramente su paciencia y comprensión durante este tiempo.
16 de enero de 2025 11:00 a.m. UTC | 16 de enero de 2025 03:00 a.m. PT
Hemos logrado un progreso significativo en la recuperación de la funcionalidad, incluida la capacidad de ver los chats recientes, recibir correos electrónicos de exportación de chat y crear tickets. Continuaremos monitoreando la situación de cerca y trabajando diligentemente para mejorar su experiencia. Gracias por su paciencia y comprensión durante este tiempo.
16 de enero de 2025 10:39 a.m. UTC | 16 de enero de 2025 02:39 a.m. PT
Actualmente tenemos un problema con nuestros servicios de chat en el pod 19, lo que podría impedirle ver los chats recientes, recibir correos electrónicos de exportación de chats y crear tickets. Nuestro equipo está trabajando activamente para resolver estos problemas lo más rápido posible. Gracias por su paciencia.
POST-MORTEM
Análisis de causa raíz
Este incidente fue causado por un servicio de chat que alcanzó sus límites de memoria, lo que provocó un ciclo de reinicio continuo. Cada reinicio generaba metadatos adicionales en nuestra base de datos en memoria, lo que provocaba un exceso de memoria hasta que el sistema finalmente se quedaba sin memoria, lo que afectaba a otros servicios que compartían la misma instancia de base de datos.
Resolución
Para resolver el problema, el equipo eliminó los metadatos innecesarios y las claves no reconocidas de la base de datos para liberar memoria. Además, se aumentaron los tipos de instancias para acomodar la carga y se completó una implementación exitosa del servicio.
Elementos de corrección
- Agregar alertas: Alertas implementadas para condiciones de memoria insuficiente (OOM) en el servicio de chat.
- Ajustar límites de memoria: Se redujo el umbral de los límites de memoria para permitir una intervención más temprana antes de alcanzar niveles críticos.
- Mejoras en el runbook: Documentación y runbooks mejorados para manejar el servicio de chat y la administración de claves de la base de datos.
- Agrupación de bases de datos: Se planeó separar las instancias de la base de datos para los distintos servicios a fin de evitar problemas de memoria compartida en el futuro.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de Zendesk y los impactos específicos en su cuenta, visite nuestra página de estado del sistema. Puede seguir este artículo para recibir una notificación cuando se publique nuestro informe post-mortem. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios