RESUMEN
El 1 de diciembre de 2024 desde las 4:00 UTC hasta el 3 de diciembre a las 20:00 UTC, los clientes de Sell en varios pods experimentaron problemas con funciones como la visibilidad de datos en las Listas inteligentes, la conversión de leads con la creación de tratos y las llamadas salientes, y estas últimas experimentaron problemas intermitentes. fallas. Una vez que se restableció la funcionalidad, hubo que procesar una acumulación de solicitudes, lo que tardó hasta el 18 de diciembre de 2024 a las 16:22 UTC en completarse.
CRONOGRAMA
18 de diciembre de 2024 04:22 p.m. UTC | 18 de diciembre de 2024 08:22 a.m. PT
Gracias por su paciencia mientras volvíamos a procesar los datos de Sell que no se vieron o se vieron afectados durante el periodo de impacto. En este momento todos los datos deberían ser correctos. Comuníquese con nosotros si sigue teniendo problemas.
13 de diciembre de 2024 23:26 UTC | 13 de diciembre de 2024 03:26 p.m. PT
Nuestro equipo de ingeniería ha hecho progresos significativos en la reposición y el reprocesamiento de los datos de Sell que se perdieron o se vieron afectados durante el periodo de impacto; sin embargo, aún queda un pequeño subconjunto de solicitudes que requieren más intervención manual para el reabastecimiento. Estamos dedicando más tiempo y esfuerzo para asegurarnos de que todos los datos lleguen a la ubicación adecuada, y continuaremos nuestro trabajo la próxima semana para confirmar la recuperación completa. Gracias por su paciencia mientras tanto.
9 de diciembre de 2024 22:16 UTC | 6 de diciembre de 2024 02:16 p.m. PT
Nuestro equipo sigue trabajando para rellenar los datos de Sell afectados durante el periodo de impacto; sin embargo, dado el volumen y nuestro nivel de cuidado y diligencia para garantizar que los datos correctos se incluyan con precisión, esto llevará más tiempo. Nos aseguraremos de proporcionar más actualizaciones a medida que avance el reabastecimiento.
6 de diciembre de 2024 02:06 p.m. UTC | 6 de diciembre de 2024 06:06 a.m. PT
Nos gustaría proporcionar una actualización sobre el incidente que afectó a nuestros clientes de Sell el 3 de diciembre de 2024. Nuestro equipo continúa trabajando con los datos atrasados que se produjeron durante el incidente. Continuaremos proporcionando actualizaciones tan pronto como sea posible.
04 de diciembre de 2024 10:27 a.m. UTC | 04 de diciembre de 2024 02:27 a.m. PT
Nuestro equipo está explorando activamente el enfoque más eficaz para el backlog de acciones resultantes del incidente de ayer que afectó a Sell. Compartiremos actualizaciones adicionales tan pronto como estén disponibles.
3 de diciembre de 2024 23:44 UTC | 3 de diciembre de 2024 03:44 p.m. PT
Nuestro equipo de ingeniería ha estabilizado la funcionalidad de Sell y las nuevas solicitudes se están procesando como se esperaba en este momento. Estamos trabajando en nuestras opciones para procesar las solicitudes que pueden haber vencido durante el periodo de impacto y proporcionaremos más información cuando esta investigación continúe mañana.
3 de diciembre de 2024 09:47 p.m. UTC | 3 de diciembre de 2024 01:47 p.m. PT
Nuestro equipo sigue trabajando para reducir los retrasos y restaurar la funcionalidad esperada de Sell. Estamos trabajando para aumentar la capacidad para acelerar la recuperación, pero aún se esperan algunos retrasos y latencia. Proporcionaremos más actualizaciones cuando tengamos nueva información para compartir.
3 de diciembre de 2024 05:09 p.m. UTC | 3 de diciembre de 2024 09:09 a.m. PT
Estamos comenzando a ver algunas mejoras en los problemas que afectan a Sell; sin embargo, hay una cantidad considerable de casos pendientes que estamos tratando de resolver, y es posible que aún se experimente cierta latencia. Continuaremos monitoreando la situación para garantizar una recuperación completa.
3 de diciembre de 2024 03:35 p.m. UTC | 3 de diciembre de 2024 07:35 a.m. PT
Nuestro equipo continúa trabajando en los problemas que actualmente afectan a Sell. Estos pueden manifestarse como problemas con la visibilidad de los datos en las Listas inteligentes, la conversión de leads con la creación de tratos y fallas intermitentes en las llamadas salientes. Proporcionaremos más actualizaciones a medida que estén disponibles.
3 de diciembre de 2024 02:01 p.m. UTC | 3 de diciembre de 2024 06:01 a.m. PT
Queremos mantenerlo informado sobre el problema actual que afecta ciertas funciones, incluida la visibilidad de los datos en las Listas inteligentes, la conversión de leads con la creación de tratos y las fallas intermitentes en las llamadas salientes. Si bien no tenemos nuevos desarrollos para compartir en este momento, tenga en cuenta que nuestro equipo está trabajando diligentemente para resolver el asunto lo más rápido posible.
3 de diciembre de 2024 12:14 p.m. UTC | 3 de diciembre de 2024 04:14 a.m. PT
Nuestro equipo está abordando activamente la degradación del servicio que afecta a funciones específicas. Actualmente, la visibilidad de los datos en las Listas inteligentes, la conversión de leads con la creación de tratos y las llamadas salientes se ven afectadas, y estas últimas experimentan fallas intermitentes. Si bien la mayoría de los servicios principales siguen funcionando, algunos problemas a menudo se pueden resolver volviendo a cargar o reintentando.
3 de diciembre de 2024 11:23 UTC | 3 de diciembre de 2024 03:23 a.m. PT
Nuestro equipo está abordando activamente la degradación del servicio que afecta funciones específicas, incluida la visibilidad de los datos en las Listas inteligentes y la conversión de leads con la creación de tratos. La mayoría de los servicios principales siguen funcionando, y los problemas con algunas funcionalidades a menudo se pueden resolver volviendo a cargar o reintentando.
3 de diciembre de 2024 10:53 a.m. UTC | 3 de diciembre de 2024 02:53 a.m. PT
Actualmente estamos investigando un problema por el cual pueden aparecer datos obsoletos en nuestros sistemas. Además, los intentos de actualizar los datos durante este tiempo pueden producir errores. Nuestro equipo está trabajando diligentemente para resolver estos problemas como una prioridad.
POST-MORTEM
Análisis de causa raíz
Este incidente fue causado por un aumento repentino en el volumen de solicitudes que provocó un uso elevado de la memoria en toda la infraestructura de Sell. Esto generaba alertas debido a una carga excesiva y hacía que varias colas se llenaran hasta su capacidad máxima. El sistema responsable de administrar estos flujos de solicitudes se reiniciaba con frecuencia y no podía seguir el ritmo de la demanda, lo que provocaba un aumento de los retrasos y evitaba el procesamiento de nuevas solicitudes.
Resolución
Para resolver el problema, primero intentamos ampliar la infraestructura adicional, pero también se llenó rápidamente. Luego configuramos un nuevo clúster con recursos adicionales para administrar el tráfico en vivo de manera eficaz. Esto nos permitió estabilizar las operaciones y restaurar la funcionalidad normal mientras trabajábamos en eliminar las solicitudes atrasadas en la infraestructura anterior.
Elementos de corrección
- Eliminar colas de notificación obsoletas: Decidimos eliminar las colas de notificación innecesarias que no eran necesarias para la comunicación con los clientes. Esto reduce el número de solicitudes procesadas por la infraestructura pertinente.
- Mejorar las herramientas de procesamiento de mensajes: Se hicieron mejoras a las herramientas existentes para aumentar la eficiencia en el manejo de los mensajes, lo que nuevamente proporciona más capacidad para procesar solicitudes.
- Establecer alertas adicionales: Se crearon nuevas alertas de monitoreo para hacer seguimiento del rendimiento del sistema y evitar un uso excesivo de la memoria.
- Establecer límites de conexión: Implementamos límites en el número de conexiones a aplicaciones específicas para evitar la sobrecarga y garantizar una administración del tráfico más fluida.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios