RESUMEN
El 2 de julio de 2024, entre las 18:20 y las 18:44 UTC, nuestro servicio Sunshine Conversations experimentó una latencia alta debido a un aumento inesperado del tráfico. Esto hizo que nuestros sistemas se ralentizaran y provocara retrasos en el procesamiento de los mensajes.
Cronograma
2 de julio de 2024 22:12 UTC | 2 de julio de 2024 03:12 p.m. PT
El problema que afectaba el rendimiento del Answer Bot en el pod 13 ya está completamente resuelto. Háganos saber si sigue teniendo problemas.
2 de julio de 2024 09:07 p.m. UTC | 2 de julio de 2024 02:07 p.m. PT
Estamos viendo mejoras en el rendimiento del Answer Bot en el pod 13 y seguiremos monitoreando el rendimiento. Proporcionará una actualización final una vez que se resuelva el incidente.
2 de julio de 2024 08:13 p.m. UTC | 2 de julio de 2024 01:13 p.m. PT
Nuestros ingenieros están investigando el problema que está causando la degradación del Answer Bot en el pod 13. Proporcionaremos otra actualización cuando tengamos nueva información para compartir.
2 de julio de 2024 07:47 p.m. UTC | 2 de julio de 2024 12:47 p.m. PT
Estamos investigando informes de degradación del Answer Bot en el pod 13. Proporcionaremos otra actualización cuando tengamos más información.
POST-MORTEM
El incidente fue provocado por un aumento significativo en el tráfico. Esto hizo que nuestros sistemas se ralentizaran, lo que se tradujo en retrasos e interrupciones temporales del servicio. Tomamos medidas inmediatas para administrar el aumento de la carga y restaurar las operaciones normales.
Análisis de causa raíz
La causa principal fue un pico repentino de tráfico, que duplicó el tráfico habitual y saturó nuestra base de datos, lo que provocó retrasos. Además, nuestro servicio AnswerBot no pudo manejar el aumento de la carga, lo que provocó más interrupciones.
Resolución
Para mitigar el problema, ampliamos nuestra base de datos y el servicio AnswerBot, aumentando su capacidad para manejar el aumento repentino. Esto nos permitió restaurar las operaciones normales y procesar los mensajes atrasados.
Elementos de corrección
1. Activar ajuste de escala automático: Implemente el escalado automático para los servicios críticos a fin de manejar los picos repentinos de tráfico.
2. Introducir disyuntores: Evite la sobrecarga de los servicios reduciendo temporalmente el tráfico cuando sea necesario.
3. Mejorar el monitoreo: Mejorar nuestros sistemas de monitoreo para detectar y responder a problemas similares más rápidamente.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.