RESUMEN
El 9 de agosto de 2024, de 15:46 UTC a 15:57 UTC, los clientes de Support del pod 17 experimentaron varios problemas, como códigos de error, tiempos de carga lentos y la imposibilidad de abrir tickets o ver mensajes dentro de la interfaz de usuario del producto.
Cronograma
9 de agosto de 2024 04:13 p.m. UTC | 09 de agosto de 2024 09:13 a.m. PT
Estamos investigando informes de usuarios que no pueden ver los tickets de Support en el pod 17 y ya están viendo una recuperación. Proporcionaremos actualizaciones adicionales en 30 minutos o antes a medida que confirmemos la estabilidad total.
9 de agosto de 2024 04:32 p.m. UTC | 09 de agosto de 2024 09:32 a.m. PT
Desde las 15:46 UTC hasta las 15:57 UTC, los clientes de Support en el pod 17 experimentaron problemas para cargar los tickets. El rendimiento se ha estabilizado y seguiremos monitoreando el rendimiento. Próxima actualización en una hora o cuando tengamos nueva información.
9 de agosto de 2024 04:51 p.m. UTC | 9 de agosto de 2024 09:51 a.m. PT
Los problemas de rendimiento de Support que ocurrieron en el pod 17 entre las 15:46 UTC y las 15:57 UTC ya están completamente resueltos. Nos disculpamos por cualquier inconveniente causado y agradecemos su paciencia.
POST-MORTEM
Análisis de causa raíz
Este incidente fue causado por el reinicio inesperado de un sistema que acelera la recuperación de datos al almacenar información en la memoria caché. Debido a una respuesta inadecuada a esta falla, el componente de gráfico de agente siguió esperando hasta 60 segundos para recibir una respuesta, lo que provocó errores de tiempo de espera y dio como resultado 503 errores de servicio. Los factores que contribuyeron incluyen que el sistema no cambió a una fuente de datos alternativa de manera oportuna, y los monitores en su lugar no activaron alertas porque el problema se resolvió antes de alcanzar los umbrales.
Resolución
Para solucionar este problema, el sistema se recuperó automáticamente a medida que el sistema de almacenamiento en caché se volvía a conectar. Identificamos que el reinicio de este sistema causó las demoras, y se confirmó que el problema se resolvió automáticamente, sin necesidad de intervención manual inmediata para restaurar el servicio.
Elementos de corrección
- Tiempo de espera reducido para la recuperación de la memoria caché del usuario.
- Considere la posibilidad de realizar pruebas de caos para simular tales fallas en un entorno controlado.
- Revise y ajuste los umbrales de alerta para garantizar una detección y un tiempo de respuesta más rápidos.
- Comuníquese con AWS para investigar el reinicio inesperado del sistema de almacenamiento en caché de memoria para evitar que ocurra algo similar en el futuro.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios