Gestione degli incidenti, parte 4: Analisi e report degli incidenti successivi alla soluzione

Questa è la parte 4 della panoramica della gestione degli incidenti in Zendesk . Questa guida contiene le parti seguenti:

Parte 1: Come i problemi di servizio Zendesk diventano incidenti di servizio
Parte 2: Come Zendesk gestisce gli incidenti di servizio
Parte 3: Monitoraggio di un incidente pubblico del servizio Zendesk
Parte 4: Analisi e report degli incidenti successivi alla soluzione (questo articolo)

In questo articolo, parte 4, imparerai come il team di risposta agli incidenti conduce una retrospettiva che include l’analisi delle cause principali e la riparazione degli incidenti di servizio e quindi assegna gli elementi di riparazione ai team di progettazione che ne hanno la proprietà.

Svolgendo queste attività, Support clienti Zendesk può condividere i dettagli dell’incidente e i passaggi successivi con i clienti interessati.

L’articolo include le seguenti sezioni:

Retrospettiva di un incidente di servizio
Assegnazione di elementi di riparazione
Chiusura di un incidente di servizio

Retrospettiva di un incidente di servizio

Zendesk conduce un esercizio di riflessione con tutti i membri del team coinvolti nell’incidente per esaminare e documentare le cause dell’incidente, l’impatto dell’incidente sui clienti e le azioni intraprese per mitigarlo o risolverlo. Il team esamina le cause principali identificate e le azioni di follow-up che impediranno il ripetersi dell’incidente. Questa operazione è nota come retrospettiva interna degli incidenti di servizio. Le retrospettive degli incidenti vengono condivise pubblicamente solo per gli incidenti di gravità elevata.

Per garantire trasparenza e inclusione a tutti i team Zendesk, è disponibile un calendario retrospettivo interno Zendesk in modo che possano partecipare alla riunione retrospettiva interna e ottenere maggiori informazioni sugli incidenti di servizio e sulle cause principali. Gli esiti degli incidenti vengono condivisi con tutti i team tecnici e gli esiti significativi degli incidenti vengono evidenziati ed esaminati durante la riunione tecnica settimanale di Zendesk.

Ci sono quattro attività principali eseguite in una retrospettiva di un incidente di servizio:

Esamina i dettagli dell’incidente contenuti nel Documento dell’incidente per ancorare e orientare i partecipanti all’incidente
Rivedere e convalidare i risultati dell’analisi delle cause principali contenuti nel documento dell’incidente
Identifica e categorizza qualsiasi intervento di riparazione necessario affinché i team di progettazione Zendesk affrontino completamente le cause principali che portano all’incidente del servizio. Tutti gli elementi di riparazione vengono concordati con il consenso dei partecipanti alla retrospettiva
Assegna il lavoro di riparazione ai team di progettazione appropriati con SLA chiari e appropriati definiti.

Analisi degli incidenti con gravità elevata

Una volta risolto un incidente di gravità elevata, il responsabile dell’incidente pianifica una riunione retrospettiva che include:

Tutti i membri del team che hanno partecipato alla risposta all’incidente
I tecnici dei team i cui prodotti o servizi sono stati interessati dall’incidente
Team che detengono la proprietà o hanno investito in interessi, come ad esempio:
- l’assistenza clienti Zendesk
- Team di prodotto
- I leader che possiedono prodotti, servizi e aree di assistenza interessati

Viene fatto ogni sforzo per tenere la riunione retrospettiva dell’incidente entro 72 ore dalla risoluzione dell’incidente, tenendo conto che la tempistica della riunione dipenderà dalla complessità della causa principale e dalla disponibilità dei membri del team nelle aree geografiche.

Dopo aver pianificato la retrospettiva dell’incidente, il responsabile tecnico documenta l’analisi della causa principale e crea il documento dell’incidente in base alle seguenti categorie:

Panoramica dell’incidente
Impatto sui clienti
Descrizione tecnica
Informazioni sulla causa principale e sul servizio
Dettagli e tempistiche dell’incidente
Rimedi

Il documento sull’incidente guida la retrospettiva dell’incidente e acquisisce qualsiasi intervento di riparazione identificato per risolvere completamente i problemi sottostanti che hanno causato l’incidente.

È disponibile un’ulteriore fase di analisi per gli incidenti di gravità 0-3 nota come analisi della causa principale. Questa analisi offre al team tecnico la possibilità di comprendere e documentare l’incidente e definire il lavoro necessario per risolvere completamente i problemi. Queste informazioni vengono acquisite nel documento dell’incidente.

Processo di analisi della causa principale dell’incidente Zendesk

Analisi degli incidenti a bassa gravità

Gli incidenti con gravità bassa passano attraverso una causa principale e una fase di report più snella rispetto agli incidenti con gravità elevata. Sebbene una riunione formale retrospettiva sugli incidenti non venga completata (a meno che non sia richiesto dal proprietario dell’ingegneria del prodotto) per gli incidenti di bassa gravità, il proprietario dell’ingegneria del prodotto crea un documento dell’incidente.

Le cause principali vengono identificate, classificate e condivise con i team di progettazione e gli elementi di riparazione vengono aggiunti al backlog del team di progettazione del prodotto con gli SLA. Come per gli incidenti di gravità più elevata, Zendesk cerca di apprendere e migliorare i nostri processi di progettazione a seguito di un’analisi approfondita degli incidenti di gravità inferiore.

Poiché gli incidenti di gravità 3 hanno un impatto minore sui clienti, lo stato del problema e le soluzioni correttive identificate vengono condivisi con i clienti interessati che hanno contattato l’incidente tramite Support clienti Zendesk tramite un ticket Zendesk.

Gli incidenti di gravità 4 per definizione non hanno un impatto diretto sui clienti. L’analisi post-incidente non viene comunicata ai clienti, ma le cause principali vengono identificate e le soluzioni correttive vengono affrontate internamente usando i processi e le procedure sopra descritti.

Assegnazione di elementi di riparazione

Per garantire il completamento degli elementi di riparazione, il team di progettazione del prodotto esamina gli elementi di riparazione convalidati nella retrospettiva ed esegue le azioni seguenti:

Classifica le soluzioni come Preventive o Generali:

Gli elementi preventivi sono quelli che prevengono attivamente il ripetersi dell’incidente
Gli elementi generali non sono solo preventivi di per sé, ma risolvono una parte fondamentale delle circostanze dell’incidente
Assegna la priorità alle soluzioni per impostare gli SLA di risposta. Questo esercizio comprende le seguenti attività:

Identifica i team tecnici responsabili dell’elaborazione dell’elemento di riparazione
Collega l’elemento di riparazione alla causa principale identificata a cui si rivolge
Aggiungi l’elemento di riparazione al backlog di lavoro del team tecnico responsabile
Aggiungi l’elemento di riparazione al report SLA di progettazione per monitorare il raggiungimento SLA

Di seguito è riportato un grafico che i team di progettazione del prodotto usano per determinare quando una soluzione ha la priorità e quando è pianificata per il loro lavoro.
alt

SLA Zendesk Remediation Item Priority

Il team Support clienti Zendesk che partecipa alla retrospettiva crea le descrizioni rivolte ai clienti degli incidenti, delle cause principali e di qualsiasi soluzione identificata. Questo è pubblicato in Sezione Notifiche di servizio del nostro centro assistenza.

Esempio di incidente di disponibilità del servizio Continua

Ecco come è stata condotta una retrospettiva dell’incidente per questo incidente.

4 giorni lavorativi dopo il verificarsi dell’incidente, il team di risposta agli incidenti e i tecnici si sono riuniti per esaminare l’incidente, collaborare alle cause principali e creare o aggiornare gli elementi di riparazione. Tutti gli elementi di riparazione vengono accettati in base al consenso dei partecipanti alla riunione.

Ogni persona coinvolta nell’incidente ha avuto un ruolo nella retrospettiva dell’incidente:

I dettagli esaminati e discussi durante la riunione includevano:

Area	Esempio:
Cronologia	20:02 UTC - Nuove versioni del contenitore distribuite per ospitare servizi con certificati aggiornati 20:08 UTC - Vengono visualizzati gli avvisi di connettività del container 20:37 UTC - Prima evidenza che i servizi non sono in grado di connettersi ai nuovi container, causando così un ritardo/interruzione del servizio 20:57 UTC - Il servizio interno Zendesk interrompe l’elaborazione delle richieste, causando errori di timeout nelle applicazioni Support, Guide & Talk ospitate nel pod 17 21:02 UTC - La scalabilità automatica del cluster inizia a creare nuovi contenitori per i servizi che non possono essere raggiunti 21:07 UTC - Completamento del provisioning completo dei contenitori di servizi compatibili con le configurazioni dei servizi esistenti 21:49 UTC - Pulizia dei contenitori irraggiungibili completata 22:07 UTC - L’incidente è stato completamente risolto
cause principali	Dopo la modifica del servizio certificati di sicurezza, i contenitori non sono stati ricostruiti per raccogliere le modifiche codificate nello script. I container non ridistribuiti non facevano riferimento al provider di certificati di sicurezza corretto e non erano considerati attendibili da altri servizi e container Zendesk
Fattori di influenza	Non abbiamo aggiornato gli script di distribuzione per fare riferimento correttamente al nuovo provider di certificati di sicurezza durante la creazione di nuovi contenitori Ha distribuito i nuovi contenitori troppo rapidamente e ampiamente per poterli adattare dopo che si sono verificati errori Nessuna funzionalità di ripristino automatizzato
Rimedi	Cambia il modo in cui viene valutata la conformità dei certificati di sicurezza quando vengono creati e distribuiti nuovi contenitori Aggiungi un metodo diverso e più affidabile per la verifica dei certificati prima di avviare nuove istanze Documenta la strategia di distribuzione per l’infrastruttura con scalabilità orizzontale Abilita il rollback automatico delle distribuzioni in caso di avvisi Scopri come l’ingegneria della piattaforma può ricostruire i componenti dell’infrastruttura con maggiore frequenza Scopri come rendere più distribuita e tollerante ai guasti un’infrastruttura critica

Affinché ci fosse un’analisi approfondita per generare azioni concrete per il team tecnico, tutti i membri del team hanno fornito input per raccontare l’incidente e sviluppare attività di riparazione. Una volta che tutte le domande o i problemi sono stati risolti dal team di risposta agli incidenti, la retrospettiva degli incidenti è stata considerata completa.

Al termine della riunione retrospettiva interna è stato chiesto al responsabile Support clienti Zendesk responsabile della retrospettiva degli incidenti pubblici se avesse domande o se avesse bisogno di ulteriori informazioni da parte del team per creare la documentazione pubblica. Non ha altre domande e ha aggiunto le informazioni retrospettive di seguito a Sezione Notifiche di servizio nel nostro centro assistenza .

alt

Informazioni retrospettive pubbliche per l’incidente della macchina virtuale per la disponibilità del servizio

Tre risultati importanti di questa retrospettiva sugli incidenti che hanno migliorato i prodotti e i servizi Zendesk sono stati:

Le cause principali dell’incidente sono state identificate e saranno prese in considerazione da tutti i team di prodotto Zendesk nello sviluppo futuro

Le soluzioni sono state identificate e assegnate ai team di progettazione con SLA

La retrospettiva pubblica è stata pubblicata Support clienti Zendesk nel centro assistenza ed è stata inviata ai clienti interessati che hanno inviato ticket

Chiusura di un incidente di servizio

Come best practice, Zendesk chiude tutti i ticket aperti con i clienti per assicurarsi che tutto sia adeguatamente documentato e comunicato per l’incidente.

Tutti gli incidenti di servizio completati sono riepilogati in un report digest settimanale degli incidenti di servizio, ampiamente condiviso in Zendesk. Le descrizioni degli incidenti, l’impatto sui clienti e le soluzioni importanti sono inclusi in questo report e sono anche inclusi in un report di verifica delle operazioni bisettimanale condiviso con il team esecutivo di Zendesk.

Dopo che le informazioni retrospettive sono state pubblicate nel Centro assistenza e i ticket aperti sono stati aggiornati con i risultati della retrospettiva, la fase di analisi e report per l’incidente del servizio è considerata completa. Support clienti Zendesk collega i ticket all’incidente del servizio e vengono contrassegnati come chiusi.

Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.

Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.