RESUMEN
Durante este incidente, algunos clientes de Explore en varios pods y regiones experimentaron demoras y la información estaba desactualizada en el conjunto de datos Tickets en Explore.
Cronología
10:38 UTC | 02:38 PT
Después de la reversión, todos los trabajos de sincronización reprocesados se completaron y las sincronizaciones de datos de Explore volvieron a la normalidad. Como tal, este incidente está resuelto. Gracias por su paciencia durante nuestra investigación.
00:18 UTC | 16:18 PT
Seguimos reprocesando manualmente los trabajos de sincronización para los clientes afectados y proporcionaremos otra actualización cuando tengamos información importante para compartir.
20:58 UTC | 12:58 PT
Hemos completado la reversión de una actualización de Explore que causó el retraso en las actualizaciones del conjunto de datos Tickets. Estamos reprocesando manualmente los trabajos de sincronización. Proporcionaremos otra actualización cuando tengamos nueva información para compartir.
20:11 UTC | 12:11 PT
Hemos encontrado una posible causa raíz de los retrasos y errores de sincronización observados hoy en el conjunto de datos Tickets para algunos clientes de Explore en una actualización lanzada recientemente. Estamos trabajando para revertir esa actualización y estamos monitoreando los resultados. Proporcionaremos más actualizaciones tan pronto como tengamos nuevos hallazgos para compartir.
19:06 UTC | 11:06 PT
Todavía estamos investigando los problemas que causan retrasos y errores de sincronización para el conjunto de datos Ticket en Explore en varios pods y regiones. Nuestros equipos han hecho algunos progresos, pero aún se observan retrasos en algunas cuentas. Continuaremos publicando nueva información a medida que la encontremos.
18:10 UTC | 10:10 PT
Nuestro equipo continúa investigando el problema que causa retrasos y errores de sincronización en el conjunto de datos Tickets para algunos clientes de Explore en varios pods y regiones. Proporcionaremos más actualizaciones a medida que avance la investigación.
17:40 UTC | 09:40 PT
Hemos confirmado un problema que está causando retrasos y errores de sincronización en el conjunto de datos Tickets en Explore en varios pods y regiones. Nuestro equipo está investigando y publicaremos información adicional a medida que obtengamos más información.
17:29 UTC | 09:29 PT
Estamos investigando informes de retrasos en la sincronización de Explore en el conjunto de datos Tickets en varios pods y regiones. Próximamente proporcionaremos más actualizaciones.
POST-MORTEM
Análisis de causa raíz
Antecedentes: Tenemos un sistema (Explore ETL) que recopila datos periódicamente para nuestros clientes. Este sistema maneja el proceso real de recopilación de datos. Los datos recopilados se almacenan y luego se procesan. Ocurrió un problema con la recopilación de datos para una cuenta con una cantidad considerablemente grande de datos por ticket. Esta gran cantidad de información provocaba la saturación de la memoria, lo que provocaba errores y ralentizaba el procesamiento de los datos.
Además, una actualización reciente de mantenimiento del servidor cambió la forma en que se ejecutaba la recolección de elementos no utilizados de la memoria, lo que provocó un aumento en el consumo de memoria, lo que exacerbó el problema.
Resolución
Una vez identificados los problemas, intentamos administrar la sobrecarga priorizando las tareas y reiniciando los servidores. Después de una mayor investigación y la ayuda de otros equipos, identificamos el problema de actualización del servidor como el culpable y revertimos a una versión anterior. El procesamiento de la tarea volvió a la normalidad.
Elementos de corrección
Nuestros próximos pasos son prevenir este tipo de incidentes en el futuro tomando una serie de medidas:
1. Restringir el tamaño de la carga útil para los datos del ticket.
2. Vuelva a evaluar la actualización de mantenimiento del servidor, teniendo en cuenta el aumento del consumo de memoria con la nueva operación de recolección de elementos no utilizados.
3. Mejorar nuestro entorno de prueba para imitar mejor la carga de producción y hacer pruebas precisas para escenarios como este.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, registre un ticket con nosotros a través de la mensajería de ZBot dentro del widget.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios