RIEPILOGO
Il 6 marzo, dalle 13:33 UTC alle 14:15 UTC, i clienti non sono stati in grado di caricare Explore e hanno ricevuto 502 errori di gateway non validi.
Cronologia
15:02 UTC | 07:02 PT
Poiché abbiamo ricevuto la conferma che i clienti non ricevono più errori del server durante il tentativo di accedere a Explore e che anche il nostro backend non presenta più errori, riteniamo che questo incidente sia stato risolto. Grazie per la pazienza dimostrata durante l’elaborazione di questa interruzione.
14:24 UTC | 06:24 PT
Stiamo riscontrando miglioramenti nel numero di caricamenti delle pagine e stiamo ottenendo la conferma che Explore è ora accessibile correttamente e viene caricato dopo un aggiornamento della pagina. Ti chiediamo gentilmente di ricaricare Explore e di farci sapere se riscontri ancora problemi. Apprezziamo la tua pazienza e il tuo aiuto.
14:15 UTC | 06:15 PT
I clienti Explore nei Pod 17, 18, 28 e 29 dovrebbero essere gli unici interessati dai problemi a questo punto. Continuiamo a lavorare per ripristinare l’accesso. Altri aggiornamenti tra 30 min o quando avremo ulteriori dettagli.
14:04 UTC | 06:04 PT
Stiamo esaminando le segnalazioni di problemi relativi al mancato caricamento di Explore per i clienti in più pod. Le indagini sono in corso.
POST-MORTEM
Analisi della causa principale
Il 6 marzo 2024, gli utenti che tentavano di accedere a Explore hanno riscontrato errori a causa di un processo di aggiornamento del sistema avviato in background. Questo processo ha causato problemi di "blocco" temporanei con il nostro database, con conseguenti errori per i nostri utenti. Il problema è iniziato alle 13:22 UTC ed è stato risolto alle 14:07:00 UTC.
Il nostro team tecnico stava lavorando a una nuova funzione progettata per fornire agli utenti statistiche sull’utilizzo. Per rendere questa funzione più efficiente, è stato introdotto un nuovo processo. Questo processo ha comportato l’aggiornamento di una tabella nel nostro database ogni volta che si accede a un dashboard, riducendo i calcoli ripetuti. Il problema si è verificato quando questo processo ha iniziato a compilare i record cronologici per i dashboard esistenti.
L’incidente è stato causato principalmente dal processo avviato per compilare i record cronologici. Questo processo ha causato “blocchi” prolungati nel nostro database, causando timeout ed errori.
Soluzione
Una volta cancellate le query bloccate e dopo il riavvio dell’applicazione Rails, le normali operazioni di Explore sono riprese.
Elementi correttivi
- Verifica il processo di riempimento
- Aggiorna il playbook del processo di riempimento
- Elabora i record dashboard_views in modo asincrono
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, registra un ticket con noi tramite la messaggistica ZBot nel Widget.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.