RIEPILOGO
Il 7 agosto 2024, dalle 17:00 UTC alle 16:45 UTC dell’8 agosto 2024, alcuni clienti dei pod 17, 18, 28 e 29 hanno riscontrato errori durante il tentativo di creare nuovi report usando la funzione Explore. Ciò ha influito sulla loro capacità di generare insight e accedere a report di dati critici.
Cronologia
8 agosto 2024 15:35 UTC | 8 agosto 2024 08:35 PT
Stiamo esaminando le segnalazioni di clienti Explore con un numero elevato di dataset che non sono stati in grado di creare nuovi report e dataset. Come soluzione alternativa, puoi creare un nuovo report clonando un report esistente e modificandolo, ma non potrai comunque creare nuovi dataset. Prossimo aggiornamento tra 30 minuti o quando avremo nuove informazioni.
8 agosto 2024 16:00 UTC | 08 agosto 2024 09:00 PT
I nostri tecnici continuano a indagare su un problema che influisce sulla possibilità di creare nuovi report e dataset Explore. Abbiamo ristretto l’ambito di impatto ai pod 17, 18, 28, 29 e 31. Prossimo aggiornamento tra un’ora o quando avremo nuove informazioni da condividere.
8 agosto 2024 16:54 UTC | 08 agosto 2024 09:54 PT
I nostri ingegneri rimangono concentrati sulla soluzione del problema che riguarda la creazione di nuovi report e dataset Explore. Forniremo il prossimo aggiornamento tra 2 ore o quando avremo nuove informazioni da condividere.
8 agosto 2024 17:21 UTC | 8 agosto 2024 10:21 PT
I nostri tecnici hanno implementato una soluzione e abbiamo confermato che ora puoi creare nuovi report e dataset. Il problema è stato completamente risolto. Se il problema persiste, non esitare a contattarci.
POST-MORTEM
Analisi della causa principale
Questo incidente è stato causato da un calo delle prestazioni a seguito di un aggiornamento della nostra infrastruttura di database fornito dal nostro partner. L’aggiornamento ha rimosso la memorizzazione nella cache delle query su cui il nostro sistema faceva affidamento in precedenza, rallentando notevolmente alcune query cruciali per la funzione Explore.
Soluzione
Per risolvere questo problema, abbiamo analizzato le query problematiche e implementato strategie di indicizzazione efficaci. Questa azione immediata ha riportato le prestazioni della query ai livelli previsti, risolvendo così gli errori riscontrati dai clienti.
Elementi correttivi
- Migliora il sistema di monitoraggio con avvisi specifici incentrati sulle latenze delle query SQL per rilevare tempestivamente i problemi di prestazioni.
- Ha comunicato il ritiro della cache delle query ad altri team, per garantire che siano a conoscenza dei potenziali impatti e che possano adottare misure preventive.
- Analizza le query di ottimizzazione sostituendo le istruzioni "not in" con valori booleani per allinearli alle nuove versioni del database.
- Analizza l’implementazione di soluzioni di memorizzazione nella cache usando la cache elastica o ProxySQL per ottenere risultati di query ripetuti ed evitare problemi simili in futuro.
- Assicurati che tutte le modifiche, i miglioramenti e i processi siano accuratamente documentati in Confluence per condividere le conoscenze e prepararsi per eventi futuri simili.
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, contatta l’assistenza clienti Zendesk.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.