RESUMEN
El 6 de marzo de 13:33 UTC a 14:15 UTC, los clientes no pudieron cargar Explore y recibieron 502 errores de puerta de enlace incorrecta.
Cronograma
15:02 UTC | 07:02 PT
Como recibimos confirmaciones de que los clientes ya no reciben errores del servidor al intentar acceder a Explore y nuestro backend ya no presenta errores, damos por resuelto este incidente. Gracias por su paciencia mientras solucionamos esta interrupción.
14:24 UTC | 06:24 PT
Estamos viendo mejoras en el número de cargas de página y confirmando que ahora se puede acceder correctamente a Explore y que se carga después de una actualización de página. Le rogamos que vuelva a cargar Explore y nos informe si sigue teniendo problemas. Agradecemos su paciencia y ayuda.
14:15 UTC | 06:15 PT
Los clientes de Explore en los pods 17, 18, 28 y 29 deberían ser los únicos afectados por los problemas en este momento. Seguimos trabajando para restaurar el acceso. Más actualizaciones en 30 minutos o cuando tengamos más detalles.
14:04 UTC | 06:04 PT
Actualmente estamos investigando informes de problemas de que Explore no se carga para los clientes en varios pods. La investigación está en curso.
POST-MORTEM
Análisis de causa raíz
El 6 de marzo de 2024, los usuarios que intentaban acceder a Explore encontraron errores debido a un proceso iniciado para actualizar el sistema en segundo plano. Este proceso causó problemas temporales de "bloqueo" con nuestra base de datos, lo que resultó en errores para nuestros usuarios. El problema comenzó a las 13:22 UTC y se resolvió a las 14:07:00 UTC.
Nuestro equipo de ingeniería estaba trabajando en una nueva función diseñada para proporcionar a los usuarios estadísticas de uso. Para hacer que esta función sea más eficiente, se introdujo un nuevo proceso. Este proceso implicaba actualizar una tabla en nuestra base de datos cada vez que se accedía a un panel, lo que reducía los cálculos repetidos. El problema surgió cuando este proceso comenzó a llenar los registros históricos de los paneles existentes.
El incidente fue causado principalmente por el proceso que se inició para rellenar los registros históricos. Este proceso provocó "bloqueos" prolongados en nuestra base de datos, lo que provocó tiempos de espera y errores.
Resolución
Una vez que se borraron las consultas estancadas y después de reiniciar la aplicación Rails, se reanudaron las operaciones normales de Explore.
Elementos de corrección
- Revisar el proceso de reabastecimiento
- Actualizar el manual de estrategias del proceso de reposición
- Procesar registros de dashboard_views de forma asíncrona
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, registre un ticket con nosotros a través de la mensajería de ZBot dentro del widget.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.