RIEPILOGO
Dal 2024-02-09 20:32 UTC al 2024-02-09 22:29 UTC, i clienti Support nel Pod 13 hanno riscontrato un problema per cui alcuni ticket non mostravano i badge SLA.
POST-MORTEM
Analisi della causa principale
Durante questo incidente, un pod Kubernetes su sedici nel pod 13 ha avuto un riavvio non pianificato e non ha funzionato correttamente. Il messaggio di errore indicava problemi con l'"autorità della stringa di connessione", che interrompeva l'host "redis", una dipendenza critica per il nostro Metric Event Service (MES). Questa interruzione ha comportato complicazioni nell’elaborazione degli eventi ticket, in particolare l’assenza o il ritardo degli eventi Service Level Agreement (SLA). Sospettiamo che il kpod sia stato riavviato inavvertitamente a causa di una distribuzione o di una modifica della configurazione. Quando si è verificato il problema, il nostro obiettivo immediato era risolvere il servizio principale, che richiedeva un rapido ripristino del sistema. Questo processo non ci ha dato il tempo di registrare immediatamente i dettagli dell’unità di sistema malfunzionante. Tuttavia, in seguito, siamo riusciti a riprodurre l'errore in un ambiente di test sicuro introducendo deliberatamente un difetto, che ci ha aiutato a comprendere meglio il problema.
Soluzione
Una volta identificato il problema, il kpod è stato ridistribuito e il problema è stato risolto. Gli eventi SLA mancanti sono stati quindi riempiti.
Nota:il backfill/ripristino dei dati eseguiti per risolvere gli SLA non funzionanti nei ticket aperti ha avuto l’effetto collaterale di rimuovere completamente i dati SLA nei ticket chiusi, il che si traduce in dati SLA “Null” in Explore.
Elementi correttivi
- Esplora modi migliori per organizzare e passare le variabili di ambiente per garantire la prontezza al riavvio delle unità di sistema
- Migliora i tempi di risposta per risolvere gli accordi sul livello di servizio (SLA) non funzionanti aggiornando il nostro "funfiller"
- Verifica il monitoraggio e gli avvisi
- Analizza nuovamente il metodo per passare le variabili di ambiente per garantirne la disponibilità al riavvio delle unità di sistema
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, registra un ticket con noi tramite la messaggistica ZBot nel Widget.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.