RESUMEN
El 27 de agosto de 2024, de 16:30 UTC a 22:30 UTC, los clientes de Support en los pods 19, 20 y 27 experimentaron retrasos en la activación de los webhooks y los disparadores, lo que afectó las actualizaciones de los tickets y la comunicación con los usuarios finales.
Cronograma
27 de agosto de 2024 08:03 p.m. UTC | 27 de agosto de 2024 01:03 p.m. PT
Estamos investigando informes de disparadores retrasados de Support y disparadores de webhooks. Próxima actualización en 30 minutos o cuando tengamos nueva información para compartir.
27 de agosto de 2024 08:27 p.m. UTC | 27 de agosto de 2024 01:27 p.m. PT
Los retrasos de los webhooks y los disparadores están afectando a los clientes de Support en los pods 19, 20 y 27. Nuestros ingenieros están trabajando e investigando. Próxima actualización en 30 minutos o cuando tengamos nueva información para compartir.
27 de agosto de 2024 08:56 p.m. UTC | 27 de agosto de 2024 01:56 p.m. PT
Nuestros ingenieros continúan investigando el webhook y los retrasos en los disparadores que afectan a los clientes de Support en los pods 19, 20 y 27. Próxima actualización en 1 hora o cuando tengamos nueva información para compartir.
27 de agosto de 2024 09:24 p.m. UTC | 27 de agosto de 2024 02:24 p.m. PT
Estamos viendo mejoras en los retrasos de los webhooks en el pod 19 y seguimos trabajando en el procesamiento de los webhooks en proceso en los pods 20 y 27. Próxima actualización en 1 hora o cuando tengamos nueva información para compartir.
27 de agosto de 2024 22:03 UTC | 27 de agosto de 2024 03:03 p.m. PT
El backlog de webhooks en los pods 19 y 20 se ha procesado por completo y ya no debería haber demoras en esos pods. Todavía estamos procesando el backlog de webhooks en el pod 27 y proporcionaremos una actualización una vez que se elimine el backlog.
27 de agosto de 2024 22:40 UTC | 27 de agosto de 2024 03:40 p.m. PT
El backlog de webhooks en los pods 19, 20 y 27 se ha procesado por completo y ya no debería haber demoras en esos pods. El problema ya está completamente resuelto.
POST-MORTEM
Análisis de causa raíz
El incidente fue causado principalmente por un aumento repentino en el tráfico debido a una importación masiva de usuarios por parte de un cliente importante. Este aumento hizo que el sistema de webhooks alcanzara su límite de rendimiento, lo que provocó retrasos significativos. Además, en el pod 27, el mecanismo de ajuste de escala automático no pudo manejar adecuadamente el aumento del tráfico, lo que exacerbó aún más las demoras.
Resolución
Para solucionar este problema, el despachador de webhooks y la zona de salida no confiable (ZUE) se ampliaron de manera escalable para manejar el aumento de tráfico. Además, se solicitó al cliente específico que redujera la velocidad de sus operaciones. Una vez que se hicieron los ajustes de escala necesarios, el trabajo en proceso comenzó a disminuir y el servicio normal se restauró gradualmente en todos los pods afectados.
Elementos de corrección
- Definir políticas de escalado automático horizontal para los servicios de webhooks. [EN CURSO]
- Investigue cómo mejorar la lógica de limitación de velocidad para dar cuenta de un solo cliente con muchos subdominios. [PROGRAMADO]
- Investigar y corregir el problema de escalado automático del nivel de salida segura en el pod 27. [PROGRAMADO]
- Simplifique el proceso de implementación y cambio de configuración para reducir la fricción durante las resoluciones de emergencia. [EN CURSO]
- Implementar interruptores de interrupción específicos del subdominio para los webhooks. [EN CURSO]
- Agregue alertas de monitoreo para marcar cuando el backlog o la latencia de entrega de los webhooks sea demasiado grande. [PROGRAMADO]
- Documentar públicamente los límites de velocidad de los webhooks para informar a los clientes y administrar el tráfico de manera preventiva. [PROGRAMADO]
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios