RESUMEN
El 11 de diciembre de 2024 desde las 23:39 UTC hasta las 6:30 UTC del 12 de diciembre, los clientes que usaban las funciones de IA de Zendesk como IA avanzada, Talk, agentes de IA y otras funciones de IA generativa experimentaron interrupciones en la funcionalidad debido a una interrupción del servicio del proveedor de servicios.
CRONOGRAMA
12 de diciembre de 2024 04:05 a.m. UTC | 11 de diciembre de 2024 08:05 p.m. PT
Estamos observando la recuperación de todas las funciones de IA y seguimos monitoreando nuestros sistemas para una recuperación completa. Esperamos proporcionar una actualización final cuando los sistemas estén completamente estables.
12 de diciembre de 2024 01:53 a.m. UTC | 11 de diciembre de 2024 05:53 p.m. PT
Nuestro equipo ha estado trabajando con nuestro proveedor de servicios en un problema que afecta las funciones de IA de Zendesk. El impacto puede ser visible a través de IA avanzada, Talk, agentes de IA y otras funciones de IA generativa. Debido a que los intentos iniciales no lograron resolver el problema, los equipos continúan trabajando con la máxima prioridad para resolver este problema. Enviaremos actualizaciones cuando estén disponibles.
POST-MORTEM
Análisis de causa raíz
La causa raíz del incidente fue una nueva configuración para un servicio de telemetría que inesperadamente generó una carga masiva en la API de un proveedor de servicios en clústeres grandes. Esta carga excesiva abrumó e interrumpió el descubrimiento de servicios basado en DNS, lo que provocó fallas en las solicitudes a los servicios de nuestro proveedor.
Resolución
El incidente se resolvió una vez que el proveedor de servicios identificó el problema e implementó medidas correctivas para aliviar la carga en la API. Zendesk se mantuvo en comunicación con nuestro proveedor de servicios durante todo el incidente para garantizar una respuesta coordinada.
Elementos de corrección
- Acuerdo de nivel de soporte con equipos de servicio de LLM: Trabaje con los clientes internos para comprender sus expectativas de rendimiento y disponibilidad, lo que ayudará a proponer estrategias alternativas y ajustar los umbrales de monitoreo.
- Estrategias alternativas para las funciones de IA generativa : Desarrolle estrategias alternativas para las funciones de GenAI, lo que implicará agregar funciones a los sistemas proxy y colaborar con los propietarios de las funciones para determinar las mejores estrategias para sus respectivos casos.
- Soporte Premium de nuestro proveedor de servicios: Negociar soporte adicional del proveedor de servicios para garantizar una resolución y asistencia más rápidas durante los incidentes.
Medidas preventivas
Para evitar incidentes similares en el futuro, se tomarán las siguientes medidas:
- Mejorar los sistemas de monitoreo y alerta para detectar mejor las cargas anormales en la API.
- Establezca canales de comunicación más claros y acuerdos de soporte con nuestro proveedor de servicios para garantizar una respuesta rápida durante los incidentes.
- Implemente estrategias alternativas para las funciones críticas de IA para mantener la disponibilidad del servicio incluso durante las interrupciones del proveedor.
PARA MÁS INFORMACIÓN
Si desea información sobre el estado actual del sistema de Zendesk y los impactos específicos en su cuenta, visite nuestra página de estado del sistema. Puede seguir este artículo para recibir una notificación cuando se publique nuestro informe post-mortem. Si tiene más preguntas sobre este incidente, comuníquese con Atención al cliente de Zendesk.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.
0 comentarios