Esta es la cuarta parte de la descripción general de la administración de incidentes en Zendesk. Esta guía contiene las siguientes partes:
- 1ra parte: Cómo los problemas de servicio de Zendesk se convierten en incidentes de servicio
- 2da parte: Cómo administra Zendesk los incidentes de servicio
- 3ra parte: Monitorear un incidente de servicio público de Zendesk
- 4ta parte: Análisis e informes de incidentes posteriores a la resolución (este artículo)
En la cuarta parte de este artículo, aprenderá cómoel equipo de respuesta a incidentes realiza una retrospectiva que incluye el análisis de la causa raíz y la corrección de los incidentes de servicio y luego asigna los elementos de corrección a los equipos de ingeniería que tienen la propiedad.
Al realizar estas actividades, el equipo de atención al cliente de Zendesk puede compartir los detalles del incidente y los próximos pasos con los clientes afectados.
Este artículo contiene las siguientes secciones:
- Realizar una retrospectiva de incidentes de servicio
- Asignación de elementos de remediación
- Cerrar un incidente de servicio
Realizar una retrospectiva de incidentes de servicio
Zendesk lleva a cabo un ejercicio de reflexión con todos los miembros del equipo involucrados en el incidente para examinar y documentar las causas del incidente, el impacto del incidente en los clientes y las medidas tomadas para mitigarlo o resolverlo. El equipo revisa las causas raíz identificadas y las acciones de seguimiento que evitarán que el incidente vuelva a ocurrir. Esto se conoce como retrospectiva interna de incidentes de servicio. Las retrospectivas de incidentes se comparten públicamente solo para los incidentes de alta gravedad.
Para garantizar la transparencia y la inclusión de todos los equipos de Zendesk, hay un calendario retrospectivo interno de Zendesk disponible para que puedan asistir a la reunión retrospectiva interna y obtener más información sobre los incidentes de servicio y las causas raíz. Los resultados de los incidentes se comparten con todos los equipos de ingeniería y los resultados significativos de los incidentes se destacan y revisan en la reunión semanal de ingeniería de Zendesk.
Hay cuatro actividades principales que se realizan en una retrospectiva de incidentes de servicio:
- Revise los detalles del incidente contenidos en el documento del incidente para orientar y orientar a los participantes sobre el incidente
- Revisar y validar los hallazgos del análisis de causa raíz contenidos en el documento del incidente
- Identifique y clasifique cualquier trabajo de remediación necesario para que los equipos de ingeniería de Zendesk aborden por completo las causas fundamentales que conducen al incidente de servicio. Todos los elementos de corrección se acuerdan con el consenso de los asistentes retrospectivos
- Asigne el trabajo de remediación a los equipos de ingeniería apropiados con SLA claros y apropiados definidos.
Análisis de incidentes de alta gravedad
Una vez que se resuelve un incidente de gravedad alta, el administrador de incidentes programa una reunión retrospectiva que incluye:
- Todos los integrantes del equipo que participaron en la respuesta al incidente
- Ingenieros de equipos cuyos productos o servicios se vieron afectados por el incidente
- Equipos que tienen la propiedad o un interés invertido como:
- Atención al cliente de Zendesk
- Equipos de productos
- Líderes que son dueños de los productos, servicios y áreas de soporte afectados
Se hace todo lo posible para celebrar la reunión retrospectiva del incidente dentro de las 72 horas posteriores a la resolución del incidente, entendiendo que el momento de la reunión dependerá de la complejidad de la causa raíz y la disponibilidad de los integrantes del equipo en todas las regiones geográficas.
Después de programar la retrospectiva del incidente, el responsable de ingeniería documenta el análisis de la causa raíz y crea el documento del incidente en función de las siguientes categorías:
- Información general del incidente
- Impacto en el cliente
- Descripción técnica
- Información sobre la causa raíz y el servicio
- Detalles y tiempos del incidente
- Remediaciones
El documento del incidente guía la retrospectiva del incidente y captura cualquier trabajo de corrección que se identifique para resolver por completo los problemas subyacentes que causaron el incidente.
Hay una fase de análisis adicional que se lleva a cabo para los incidentes de gravedad 0-3 conocida como análisis de causa raíz. Este análisis le da al equipo de ingeniería la oportunidad de comprender y documentar el incidente y definir el trabajo necesario para solucionar los problemas por completo. Esta información se captura en el documento del incidente.
Proceso de análisis de causa raíz de incidentes de Zendesk
Análisis de incidentes de baja gravedad
Los incidentes de gravedad baja pasan por una fase de causa raíz y de informes más eficiente que los incidentes de gravedad alta. Si bien no se completa una reunión retrospectiva formal de incidentes (a menos que lo solicite el dueño de ingeniería del producto) para los incidentes de gravedad baja, el dueño de ingeniería del producto crea un documento de incidente.
Las causas raíz se identifican, clasifican y comparten con los equipos de ingeniería, y los elementos de remediación se agregan al backlog del equipo de ingeniería de productos con los SLA. Al igual que con los incidentes de mayor gravedad, Zendesk busca aprender y mejorar nuestros procesos de ingeniería como resultado de la investigación exhaustiva de los incidentes de baja gravedad.
Dado que los incidentes de gravedad 3 tienen un impacto menor en los clientes, el estado del problema y las correcciones identificadas se comparten con los clientes afectados que se comunicaron sobre el incidente a través de Atención al cliente de Zendesk a través de un ticket de Zendesk.
Los incidentes de gravedad 4, por definición, no tienen un impacto directo en el cliente. El análisis posterior al incidente no se comunica a los clientes, pero las causas fundamentales se identifican y las soluciones se abordan internamente usando los procesos y procedimientos descritos anteriormente.
Asignación de elementos de remediación
Para asegurarse de que se completen los elementos de remediación, el equipo de ingeniería de productos revisa los elementos de remediación validados en la retrospectiva y realiza las siguientes acciones:
- Clasifique las remediaciones en Preventivas o Generales:
- Los elementos preventivos son aquellos que evitarían activamente que el incidente vuelva a ocurrir
- Los elementos generales no son solo preventivos por sí solos, sino que resolverían una parte fundamental de las circunstancias del incidente
- Priorizar las correcciones para establecer los SLA de respuesta. Este ejercicio incluye las siguientes actividades:
- Identificar los equipos de ingeniería responsables de trabajar en el elemento de remediación
- Vincular el elemento de remediación a la causa raíz identificada que aborda
- Agregar el elemento de corrección al trabajo en proceso del equipo de ingeniería responsable
- Agregue el elemento de remediación al informe de SLA de ingeniería para hacer seguimiento del cumplimiento de SLA
A continuación se muestra un gráfico que los equipos de ingeniería de productos usan para determinar cuándo se prioriza y planifica una remediación para su esfuerzo de trabajo.
SLA de prioridad de elementos de corrección de Zendesk
El equipo de atención al cliente de Zendesk que asiste a la retrospectiva crea las descripciones del incidente, las causas raíz y las soluciones identificadas para los clientes. Esto se publica en el artículo del Centro de ayuda asociado con el incidente.
Ejemplo de incidente de disponibilidad de servicio (continuación)
Así es como se realizó una retrospectiva de este incidente.
4 días hábiles después de ocurrido el incidente, el equipo de respuesta a incidentes y los ingenieros se reunieron para revisar el incidente, colaborar en las causas raíz y crear o actualizar los elementos de remediación. Todos los elementos de corrección se acuerdan por consenso de los asistentes a la reunión.
Cada persona involucrada en el incidente desempeñó un rol en la retrospectiva del incidente:
Los detalles revisados y discutidos en la reunión incluyeron:
Área |
Ejemplo |
Cronograma |
|
Causas raíz |
|
Factores que influyen |
|
Remediaciones |
|
Para que haya un análisis exhaustivo que genere acciones concretas para el equipo de ingeniería, todos los miembros del equipo proporcionaron información para contar el incidente y desarrollar tareas de remediación. Una vez que el equipo de respuesta a incidentes abordó todas las preguntas o los problemas, la retrospectiva del incidente se consideró completa.
Al final de la reunión de retrospectiva interna, se le preguntó a la líder de atención al cliente de Zendesk responsable de la retrospectiva de incidentes de cara al público si tenía alguna pregunta o si necesitaba información adicional del equipo para crear la documentación pública. No tenía más preguntas y agregó la información retrospectiva a continuación al artículo sobre incidentes de servicio público en la sección Notificaciones de servicio en nuestro centro de ayuda.
Información retrospectiva pública para el incidente de disponibilidad de servicio de la máquina virtual
Tres resultados importantes de esta retrospectiva de incidentes que han mejorado los productos y servicios de Zendesk fueron:
- Se identificaron las causas fundamentales del incidente y todos los equipos de productos de Zendesk las tendrán en cuenta en el desarrollo futuro.
- Las correcciones fueron identificadas y asignadas a equipos de ingeniería con SLA
- La retrospectiva pública fue publicada por Atención al cliente de Zendesk en el Centro de ayuda y fue enviada a los clientes afectados que enviaron tickets
Cerrar un incidente de servicio
Como mejor práctica, Zendesk cierra los tickets abiertos con los clientes para asegurarse de que todo esté debidamente documentado y comunicado para el incidente.
Todos los incidentes de servicio completados se resumen en un informe semanal de resumen de incidentes de servicio que se comparte ampliamente en Zendesk. Las descripciones de los incidentes, el impacto en los clientes y las correcciones importantes se incluyen en este informe y también en un informe de revisión de operaciones quincenal que se comparte con el equipo ejecutivo de Zendesk.
Una vez que la información de la retrospectiva se publica en el Centro de ayuda y los tickets abiertos se actualizan con los resultados de la retrospectiva, la fase de análisis y generación de informes para el incidente de servicio se considera completada. Atención al cliente de Zendesk vincula esos tickets con el incidente de servicio y se marcan como cerrados.
Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.
Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.