RESUMEN
El 1 de agosto de 2024 desde las 12:10 UTC hasta las 12:33 UTC, un pequeño número de clientes de Chat en el pod 23 experimentó chats desconectados y no pudieron iniciar otros nuevos.
Cronograma
1 de agosto de 2024 12:40 p.m. UTC | 1 de agosto de 2024 05:40 a.m. PT
Estamos al tanto de los problemas y errores de Chat en el pod 23 y los estamos investigando. Próximamente más información.
1 de agosto de 2024 12:58 p.m. UTC | 1 de agosto de 2024 05:58 a.m. PT
Hemos reiniciado el servidor que afecta específicamente al servicio de Chat en el pod 23, y estamos viendo mejoras en el backend. Sin embargo, es posible que observe un retraso en el almacenamiento de los datos de los chats en curso durante este periodo. Además, hay una discrepancia temporal entre el estado que se muestra en el selector de estado en el espacio de trabajo de agente y el servidor. Como resultado, un agente podría aparecer CONECTADO en el espacio de trabajo de agente pero estar DESCONECTADO en el servidor, lo que podría afectar el desvío de tickets de chat.
1 de agosto de 2024 13:49 UTC | 1 de agosto de 2024 06:49 a.m. PT
Para reiterar, no debería haber pérdida de datos, pero los chats en curso para las cuentas afectadas durante este problema pueden haberse interrumpido prematuramente. Estos chats se recuperarán y guardarán, aunque con un retraso de tiempo. También consultamos a nuestro socio de infraestructura, quien confirmó que tenía un problema subyacente de su parte. Gracias por su paciencia mientras trabajábamos para resolver este problema por completo.
POST-MORTEM
Análisis de causa raíz
Este incidente fue causado por una falla inesperada en la infraestructura de AWS que afectó una instancia de capacidad de cómputo en particular.
Resolución
Para resolver este problema, reiniciamos la instancia de capacidad de cómputo afectada, que posteriormente migró el servicio a otro host estable de AWS, resolviendo el problema de manera efectiva.
Elementos de corrección
- Garantizar el reinicio automático del servidor de LiveChat si AWS lo apaga, usando el servicio que nos permite ejecutar código sin aprovisionar ni administrar servidores.
- Actualice el sistema de alertas para obtener notificaciones más precisas.
- Acortar el tiempo para el mecanismo de reposición de Chat.
- Realice pruebas de resiliencia de las correcciones en colaboración con el equipo responsable.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios