RIEPILOGO
Durante questo incidente, alcuni clienti di Explore in più pod e aree geografiche hanno riscontrato ritardi e informazioni obsolete nel dataset dei ticket in Explore.
Cronologia
10:38 UTC | 02:38 PT
Dopo il rollback, tutti i processi di sincronizzazione rielaborati sono stati completati e le sincronizzazioni dei dati di Explore sono tornate alla normalità. Pertanto, questo incidente è stato risolto. Grazie per la pazienza dimostrata durante la nostra indagine.
00:18 UTC | 16:18 PT
Continuiamo a rielaborare manualmente i processi di sincronizzazione per i clienti interessati e forniremo un altro aggiornamento quando avremo informazioni sostanziali da condividere.
20:58 UTC | 12:58 PT
Abbiamo completato il rollback di un aggiornamento di Explore che ha causato il ritardo negli aggiornamenti del dataset Tickets. Stiamo rielaborando manualmente i processi di sincronizzazione. Forniremo un altro aggiornamento quando avremo nuove informazioni da condividere.
20:11 UTC | 12:11 PT
Abbiamo individuato una potenziale causa principale dei ritardi di sincronizzazione e degli errori riscontrati oggi nel dataset dei ticket per alcuni clienti di Explore in un aggiornamento rilasciato di recente. Stiamo lavorando per ripristinare tale aggiornamento e stiamo monitorando i risultati. Forniremo ulteriori aggiornamenti non appena avremo nuove scoperte da condividere.
19:06 UTC | 11:06 PT
Stiamo ancora esaminando i problemi che causano ritardi ed errori di sincronizzazione per il dataset Ticket in Explore in più pod e aree geografiche. I nostri team hanno compiuto alcuni progressi, ma si riscontrano ancora ritardi per alcuni account. Continueremo a pubblicare nuove informazioni non appena le troviamo.
18:10 UTC | 10:10 PT
Il nostro team continua a indagare sul problema che causa ritardi di sincronizzazione ed errori nel dataset Tickets per alcuni clienti Explore in più pod e aree geografiche. Forniremo ulteriori aggiornamenti man mano che l’indagine procede.
17:40 UTC | 09:40 PT
Abbiamo confermato un problema che causa ritardi di sincronizzazione ed errori nel dataset Ticket in Explore in più pod e aree geografiche. Il nostro team sta indagando e pubblicheremo ulteriori informazioni man mano che ne sapremo di più.
17:29 UTC | 09:29 PT
Stiamo esaminando i rapporti sui ritardi di sincronizzazione di Explore nel dataset Tickets in più pod e aree geografiche. Forniremo ulteriori aggiornamenti a breve.
POST-MORTEM
Analisi della causa principale
Sfondo: Abbiamo un sistema (Explore ETL) che raccoglie regolarmente dati per i nostri clienti. Questo sistema gestisce il processo effettivo di raccolta dei dati. I dati raccolti vengono memorizzati e quindi ulteriormente elaborati. Si è verificato un problema con la raccolta dei dati per un account con una quantità considerevolmente elevata di dati per ticket. Questa grande quantità di informazioni ha portato alla saturazione della memoria, causando errori e rallentando l'elaborazione dei dati.
Inoltre, un recente aggiornamento della manutenzione del server ha cambiato il modo in cui veniva eseguita la procedura di Garbage Collection della memoria, portando a un aumento del consumo di memoria, che ha aggravato il problema.
Soluzione
Dopo aver identificato i problemi, abbiamo tentato di gestire il sovraccarico dando la priorità alle attività e riavviando i server. Dopo ulteriori indagini e assistenza da parte di altri team, abbiamo identificato il problema dell’aggiornamento del server come causa e siamo tornati a una versione precedente. L’elaborazione del compito è quindi tornata alla normalità.
Elementi correttivi
Il prossimo passo è prevenire tali incidenti in futuro adottando una serie di misure:
1. Limita le dimensioni del payload per i dati dei ticket.
2. Rivaluta l’aggiornamento di manutenzione del server, considerando il maggiore consumo di memoria con la nuova operazione di Garbage Collection.
3. Migliora il nostro ambiente di test per simulare meglio il carico di produzione e testare accuratamente per scenari come questo.
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, registra un ticket con noi tramite la messaggistica ZBot nel Widget.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.
0 commenti