RIEPILOGO
Il 27 agosto 2024, dalle 16:30 UTC alle 22:30 UTC, i clienti Support nei pod 19, 20 e 27 hanno riscontrato ritardi nell’attivazione dei webhook e dei trigger, che hanno influito sugli aggiornamenti dei ticket e sulle comunicazioni con gli utenti finali.
Cronologia
27 agosto 2024 20:03 UTC | 27 agosto 2024 13:03 PT
Stiamo esaminando le segnalazioni di trigger ritardati e webhook di Support. Prossimo aggiornamento tra 30 minuti o quando avremo nuove informazioni da condividere.
27 agosto 2024 20:27 UTC | 27 agosto 2024 13:27 PT
I ritardi dei webhook e dei trigger influiscono sui clienti Support nei pod 19, 20 e 27. I nostri ingegneri sono attualmente impegnati e stanno indagando. Prossimo aggiornamento tra 30 minuti o quando avremo nuove informazioni da condividere.
27 agosto 2024 20:56 UTC | 27 agosto 2024 13:56 PT
I nostri tecnici continuano a indagare sul webhook e ad attivare i ritardi che influiscono sui clienti Support nei pod 19, 20 e 27. Prossimo aggiornamento tra 1 ora o quando avremo nuove informazioni da condividere.
27 agosto 2024 21:24 UTC | 27 agosto 2024 14:24 PT
Stiamo riscontrando miglioramenti ai ritardi dei webhook nel pod 19 e stiamo continuando a lavorare all’elaborazione del backlog di webhook nei pod 20 e 27. Prossimo aggiornamento tra 1 ora o quando avremo nuove informazioni da condividere.
27 agosto 2024 22:03 UTC | 27 agosto 2024 15:03 PT
Il backlog di webhook nei pod 19 e 20 è stato completamente elaborato e non dovrebbero esserci più ritardi in tali pod. Stiamo ancora elaborando il backlog di webhook nel pod 27 e forniremo un aggiornamento una volta che il backlog sarà cancellato.
27 agosto 2024 22:40 UTC | 27 agosto 2024 15:40 PT
Il backlog di webhook nei pod 19, 20 e 27 è stato completamente elaborato e non dovrebbero esserci più ritardi per tali pod. Il problema è stato completamente risolto.
POST-MORTEM
Analisi della causa principale
L’incidente è stato causato principalmente da un improvviso aumento del traffico dovuto a un’importazione di massa di utenti da parte di un grande cliente. Questo aumento ha portato il sistema Webhook a raggiungere il limite di velocità effettiva, causando ritardi significativi. Inoltre, nel Pod 27, il meccanismo di scalabilità automatica non è riuscito a gestire adeguatamente l'aumento del traffico, aggravando ulteriormente i ritardi.
Soluzione
Per risolvere questo problema, il mittente dei webhook e la zona di uscita non attendibile (UEZ) sono stati potenziati in modo scalabile per gestire l’aumento di traffico. Inoltre, al cliente specifico è stato chiesto di rallentare le proprie operazioni. Una volta apportate le necessarie modifiche al ridimensionamento, il backlog ha iniziato a diminuire e il servizio normale è stato gradualmente ripristinato in tutti i pod interessati.
Elementi correttivi
- Definisci policy di scalabilità automatica orizzontale per i servizi webhook. [IN CORSO]
- Analizza il miglioramento della logica di limitazione delle tariffe per tenere conto di un singolo cliente con molti sottodomini. [PIANIFICATA]
- Analizza e risolvi il problema di scalabilità automatica del livello in uscita sicura nel pod 27. [PIANIFICATA]
- Semplifica il processo di distribuzione e modifica della configurazione per ridurre gli attriti durante le soluzioni di emergenza. [IN CORSO]
- Implementazione di kill switch specifici per i sottodomini per i webhook. [IN CORSO]
- Aggiungi avvisi di monitoraggio per segnalare quando il backlog dei webhook o la latenza di consegna diventa troppo grande. [PIANIFICATA]
- Documenta pubblicamente i limiti di velocità dei webhook per informare i clienti e gestire preventivamente il traffico. [PIANIFICATA]
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, contatta l’assistenza clienti Zendesk.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.
0 commenti