Resumen
El 18 de diciembre de 2023 de 22:25 UTC a 23:18 UTC, los clientes de Zendesk Chat y Support (mensajería) en todos los pods podrían haber experimentado varios problemas, incluidos errores de chat y mensajería, desconexiones, problemas de inicio de sesión y la imposibilidad de cambiar el estado del agente.
Cronograma
23:03 UTC | 15:03 PT
Estamos investigando informes de problemas de conectividad de Chat. Proporcionaremos otra actualización en 15 minutos.
23:20 UTC | 15:20 PT
Nuestro equipo continúa investigando problemas en varios pods que afectan a varias funciones de Chat, Chat por redes sociales y Mensajería (espacio de trabajo de agente de Support). Los retrasos en los chats/mensajes, los problemas de inicio de sesión, el desvío de mensajes y chats y otras funciones podrían verse afectados. Próxima actualización en 30 minutos.
23:42 UTC | 15:42 PT
Nuestros ingenieros han reiniciado un servidor de Chat en mal estado y ahora están recuperando. Continuaremos monitoreando el rendimiento y proporcionaremos otra actualización cuando tengamos más información para compartir.
00:49 UTC | 16:49 PT
Chat y Mensajería ahora se han recuperado por completo del problema del servidor de hoy. Nuestros equipos seguirán monitoreando el rendimiento y trabajarán para restaurar los chats históricos recuperables que no se hayan recuperado automáticamente. Enviaremos un mensaje final en las próximas horas cuando se haya completado este trabajo.
01:24 UTC | 17:24 PT
Nuestros equipos han restaurado todos los chats históricos recuperables que no se recuperaron durante la interrupción del servicio de ayer. Muchas gracias por su paciencia y disculpas por las molestias causadas por este problema.
POST-MORTEM
Análisis de causa raíz
Este incidente fue causado por una sola falla del host de chat en vivo en la infraestructura de nuestro proveedor de hosting. Esto provocó una interrupción en el servicio de chat/mensajería para los clientes atendidos por este host de backend en particular.
Resolución
Para solucionar este problema, nuestro equipo reinició el host afectado. La recuperación de los mensajes no entregados afectados por la interrupción se completó después de que se restauró el servicio.
Elementos de corrección
- Mejore el tiempo de recuperación cuando ocurre una falla de la instancia actualizando los runbooks para iniciar los procedimientos de apagado y encendido antes [Programado]
- Actualizar el acceso a las herramientas para los ingenieros de guardia [Programado]
- Introducir alertas adicionales para detectar fallas en las instancias [En curso].
- Escalar la prioridad de las migraciones de cuentas de pod para reducir el radio de impacto [En curso].
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, registre un ticket con nosotros a través de la mensajería de ZBot dentro del widget.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios