RESUMEN
El 2 de julio de 2024 desde las 08:10 UTC hasta las 16:30 UTC, los clientes de los pods 17 y 18 tuvieron un problema por el cual el botón "Aceptar chat" no respondía. El problema luego se propagó, lo que provocó que los clientes en varios pods experimentaran el error "No se pudo conectar con el servidor" al intentar abrir tickets. Esto causó una interrupción significativa en su capacidad para comunicarse y administrar las tareas de manera efectiva dentro del Espacio de trabajo de agente.
Cronograma
2 de julio de 2024 12:12 p. m. UTC | 2 de julio de 2024 05:12 a.m. PT
Actualmente estamos investigando informes sobre el botón de aceptación de chat para algunos clientes en los pods 17 y 18 que no funciona. Proporcionaremos otra actualización cuando tengamos más información.
2 de julio de 2024 02:01 p.m. UTC | 2 de julio de 2024 07:01 a.m. PT
Estamos pasando por distintos problemas de Chat/Mensajería/AgentWorkspace en este momento y seguimos investigando todos los problemas. Agradecemos su paciencia.
02 de julio de 2024 02:51 p.m. UTC | 2 de julio de 2024 07:51 a.m. (PT)
Seguimos abordando los problemas que afectan la aceptación de Chat y mensajería en el espacio de trabajo de agente para los clientes de los pods 17 y 18 que ven que el botón Aceptar de Chat no funciona. Estamos explorando soluciones y probando opciones para resolver este problema por completo.
02 de julio de 2024 03:28 p.m. UTC | 2 de julio de 2024 08:28 a.m. PT
Todavía estamos investigando la causa raíz del problema que afecta la aceptación de Chat y mensajería en el espacio de trabajo de agente para los clientes de los pods 17 y 18 que impiden el uso del botón "Aceptar chat". Publicaremos información adicional en una hora o cuando tengamos nueva información para compartir.
2 de julio de 2024 04:28 p.m. UTC | 2 de julio de 2024 09:28 a.m. PT
Nuestro equipo continúa investigando el problema que afecta la aceptación de Chat y mensajería en el espacio de trabajo de agente para los clientes de los pods 17 y 18, lo que impide el uso del botón "Aceptar chat". Proporcionaremos más actualizaciones en una hora o cuando tengamos nueva información para compartir.
2 de julio de 2024 05:48 p.m. UTC | 2 de julio de 2024 10:48 a.m. PT
Hemos aumentado la capacidad en los servicios de mensajería en los pods 17 y 18 y estamos monitoreando cualquier impacto adicional. Nuestro equipo se asegurará de que no haya más problemas al aceptar chats, y proporcionaremos actualizaciones adicionales a medida que confirmemos la recuperación. Háganos saber si sigue teniendo problemas para aceptar chats.
3 de julio de 2024 05:05 a.m. UTC | 2 de julio de 2024 22:05 PT
Después de más monitoreo, tenemos confirmación de que el problema que afecta la aceptación de Chat y Mensajería ha sido resuelto. Muchas gracias por su paciencia mientras llegamos a este punto.
POST-MORTEM
Análisis de causa raíz
Durante una actualización de nuestro sistema de almacenamiento actualizado, nos encontramos con desafíos de rendimiento imprevistos, lo que se tradujo en un retraso en la entrega de actualizaciones oportunas. Las dificultades se debieron principalmente a problemas al procesar las consultas para los ciclos de vida de la conexión y la suscripción, lo que provocó bloqueos en el sistema de almacenamiento y estancamiento de las transacciones. Estas complicaciones afectaron el rendimiento de nuestro componente del sistema responsable de administrar los datos y facilitar las actualizaciones de la interfaz de usuario en tiempo real. Cuando intentamos simplificar nuestro proceso centrándonos únicamente en el sistema de almacenamiento actualizado, un aumento inesperado en el uso de energía de procesamiento agotó aún más nuestros recursos.
Resolución
Para resolver el problema, implementamos un enfoque de varios aspectos. Aumentamos el tamaño de los clústeres de bases de datos en todos los pods e identificamos que los bloqueos de bases de datos y las transacciones bloqueadas eran la raíz de los problemas de rendimiento. En respuesta, aplicamos una solución rápida para eliminar estos bloqueos, a pesar de que podría dar lugar a objetos de base de datos huérfanos. Por último, hicimos una reversión gradual que finalmente condujo a la estabilización del servicio de suscripción.
Elementos de corrección
- Se completó la eliminación de los bloqueos de la base de datos y la limpieza de las suscripciones huérfanas.
- Otras medidas incluyen agregar objetivos de nivel de servicio (SLO) para los extremos de creación de conexiones y creación de suscripciones. Esto es para monitorear y garantizar un rendimiento confiable del sistema en el futuro.
- Discusión sobre el tiempo de absorción en el primer pod de producción después del pod controlado para detectar problemas similares antes.
- Se adoptarían pruebas de carga por etapas y prácticas de mantenimiento que implican la limpieza y la recreación de clústeres para garantizar que el sistema funcione de manera óptima.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios