RIEPILOGO
Tra il 9 novembre 2023 dalle 03:00 UTC al 10 novembre 2023 alle 10:00 UTC, i clienti Explore nella regione USA (più pod) hanno riscontrato ritardi nell’aggiornamento dei dati per i dataset cronologici.
Cronologia
19:18 UTC | 11:18 PT (9 novembre)
Gli account Explore nell’area geografica degli Stati Uniti stanno riscontrando ritardi nell’aggiornamento dei dati per i dataset cronologici. Le funzioni di query e report di Explore sono disponibili normalmente e i dataset in tempo reale non sono interessati. Le indagini sulla causa principale sono ancora in corso, quindi non abbiamo un ETA per quando il ritardo verrà risolto.
11:27 UTC | 03:27 PT (10 novembre)
Abbiamo implementato una soluzione per i ritardi nell’aggiornamento dei dati per i dataset cronologici nell’area geografica Explore US e i clienti non dovrebbero più riscontrare ritardi. Ora considereremo risolto questo incidente. Grazie per la collaborazione.
POST-MORTEM
Analisi della causa principale
L’incidente è stato causato dal fatto che il servizio Statistiche account non ha fornito informazioni corrette sui volumi di dati degli account per più account, per cui gli account sono stati segnalati come inferiori alle dimensioni effettive. Ciò, a sua volta, ha fatto sì che i sistemi ETL di Explore allocassero risorse di calcolo inferiori a quelle necessarie per elaborare gli aggiornamenti delta regolari per questi account, con conseguente rallentamento dell’elaborazione e alcuni casi di pipeline di dati non riuscite o scadute.
Soluzione
Per risolvere questo problema, il servizio Statistiche account è stato temporaneamente passato a un'origine dati di fallback con dati account corretti. Questa operazione ha ripristinato la corretta allocazione delle risorse nei sistemi ETL di Explore. Gli ingegneri di Explore hanno anche potenziato manualmente le risorse per sbloccare gli account con lunghi ritardi nell’elaborazione dei dati.
Elementi correttivi
- Crea ulteriori avvisi per i picchi nelle modifiche alla classificazione delle dimensioni degli account.
- Analisi della sostituzione dell’allocazione delle risorse della pipeline.
- Aggiungi la fase di convalida alle pipeline di dati per rilevare dati di origine mancanti o anomali.
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, registra un ticket con noi tramite la messaggistica ZBot nel Widget.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.
0 commenti