Resumen
El 23 de julio de 2024, de 10:58 UTC a 14:57 UTC, los clientes del pod 29 no pudieron acceder a los productos de Zendesk (incluido el Centro de administración) a través de la bandeja de productos. Aproximadamente el 1 % de las solicitudes de los clientes devolvieron errores 503 al acceder a las funciones autenticadas dentro de Guide, Talk, Chat, Explore y Support, y los clientes no pudieron abrir la bandeja de productos de Zendesk para cambiar de un producto a otro. Se presentaban varios errores en la bandeja de productos, así como en la página principal del navegador web.
Cronograma
23 de julio de 2024 11:48 a.m. UTC | 23 de julio de 2024 04:48 a.m. PT
Estamos al tanto y estamos trabajando para mitigar los problemas de los clientes del pod 29 que no pueden cargar el Centro de administración y reciben el error “La página no funciona”. Otros productos tampoco parecen estar disponibles en la bandeja de productos con el mensaje “No se pueden cargar los productos de Zendesk. Inténtelo de nuevo”. Próxima actualización en 30 minutos, o cuando tengamos más para compartir.
23 de julio de 2024 12:19 p.m. UTC | 23 de julio de 2024 05:19 a.m. PT
Seguimos trabajando para resolver los problemas de acceso relacionados con varios productos para los clientes del pod 29. Agradecemos mucho su paciencia.
23 de julio de 2024 13:22 UTC | 23 de julio de 2024 06:22 a.m. PT
Seguimos trabajando en posibles soluciones para los problemas de acceso que afectan a varios productos para los clientes del pod 29. Gracias por su paciencia con nosotros durante este tiempo.
23 de julio de 2024 13:46 UTC | 23 de julio de 2024 06:46 a.m. PT
Hemos implementado una corrección potencial y estamos notando una disminución en los errores, junto con algunas mejoras al cargar cuentas de prueba en el pod 29. Le rogamos que borre la memoria caché y las cookies, y luego intente cargar Zendesk nuevamente.
23 de julio de 2024 02:06 p.m. UTC | 23 de julio de 2024 07:06 a.m. PT
Aunque hemos recibido algunas confirmaciones positivas de que todo está funcionando, seguimos monitoreando posibles nuevos picos de errores. Agradecemos su paciencia mientras esperamos para marcar este problema como resuelto por completo.
23 de julio de 2024 03:19 p.m. UTC | 23 de julio de 2024 08:19 a.m. PT
Hemos identificado la causa raíz del problema y hemos revertido el cambio para evitar más problemas. Después de un monitoreo adicional, hemos confirmado que no hay más errores y estamos marcando este incidente como resuelto por completo.
POST-MORTEM
Análisis de causa raíz
Este incidente fue causado por la implementación del nuevo permiso de administración de integrantes del equipo. Esta versión permite que los agentes con roles personalizados obtengan permiso para ver y administrar a otros integrantes del equipo y sus asignaciones de roles como un permiso independiente (anuncio). Esta implementación provocó un gran aumento en las solicitudes al servicio de permisos interno subyacente, lo que resultó en la saturación de la capacidad de su clúster de base de datos. Como resultado de este tráfico, el clúster alcanzó su capacidad máxima de ancho de banda de red, lo que provocó una falla de red entre el clúster y los servidores de aplicaciones de nuestro servicio.
Resolución
Para solucionar este problema, nuestro equipo inicialmente aumentó la capacidad de la instancia de la base de datos del servicio de permisos para proporcionar una recuperación a corto plazo. Una vez que se identificó la causa raíz, nuestros ingenieros revirtieron el cambio del código de función de permisos.
Elementos de corrección
- Reducir el tráfico de red de las verificaciones de permisos [En curso]
- Monitores y alertas adicionales para detectar aumentos de tráfico [Programado]
- Investigar la capacidad de la base de datos del servicio de permisos de tamaño correcto [Programado]
Si desea más información
Si desea información sobre el estado actual del sistema de su cuenta de Zendesk, consulte nuestra página de estado del sistema. El resumen de la investigación post-mortem se suele publicar aquí unos días después de que finaliza el incidente. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.