RIEPILOGO
Il 9 agosto 2024, dalle 15:46 alle 15:57 UTC, i clienti Support nel Pod 17 hanno riscontrato vari problemi come codici di errore, tempi di caricamento lenti e impossibilità di aprire ticket o visualizzare i messaggi nell’interfaccia utente del prodotto.
Cronologia
9 agosto 2024 16:13 UTC | 09 agosto 2024 09:13 PT
Stiamo esaminando le segnalazioni di utenti che non sono stati in grado di visualizzare i ticket di Support sul Pod 17 e stiamo già riscontrando un recupero. Forniremo ulteriori aggiornamenti tra 30 minuti o prima non appena avremo confermato la piena stabilità.
9 agosto 2024 16:32 UTC | 09 agosto 2024 09:32 PT
Dalle 15:46 UTC alle 15:57 UTC, i clienti Support nel Pod 17 hanno riscontrato problemi nel caricamento dei ticket. Le prestazioni si sono stabilizzate e continueremo a monitorare le prestazioni. Prossimo aggiornamento tra un’ora o quando avremo nuove informazioni.
9 agosto 2024 16:51 UTC | 09 agosto 2024 09:51 PT
I problemi di prestazioni di Support che si sono verificati nel Pod 17 dalle 15:46 alle 15:57 UTC sono stati completamente risolti. Ci scusiamo per gli eventuali disagi causati e ti ringraziamo per la pazienza.
POST-MORTEM
Analisi della causa principale
Questo incidente è stato causato dal riavvio imprevisto di un sistema che accelera il recupero dei dati memorizzando le informazioni nella cache. A causa di una risposta inadeguata a questo errore, il componente Grafico agente ha continuato ad attendere fino a 60 secondi prima di ricevere una risposta, causando errori di timeout e 503 errori di servizio. I fattori che contribuiscono includono il fatto che il sistema non è passato a un'origine dati alternativa in modo tempestivo e che i monitoraggi non hanno attivato avvisi perché il problema è stato risolto prima del raggiungimento delle soglie.
Soluzione
Per risolvere il problema, il sistema è stato ripristinato automaticamente quando il sistema di memorizzazione nella cache è tornato online. Abbiamo riscontrato che il riavvio del sistema ha causato i ritardi ed è stato confermato che il problema si risolveva automaticamente e non richiedeva alcun intervento manuale immediato per ripristinare il servizio.
Elementi correttivi
- Timeout ridotto per il recupero della cache degli utenti.
- Valuta la possibilità di eseguire test di caos per simulare tali errori in un ambiente controllato.
- Rivedi e modifica le soglie di avviso per garantire tempi di rilevamento e risposta più rapidi.
- Contatta AWS per indagare sul riavvio imprevisto del sistema di memorizzazione nella cache per evitare che si verifichino eventi futuri simili.
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, contatta l’assistenza clienti Zendesk.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.
0 commenti