RIEPILOGO
Il 20 ottobre 2025, tra le 06:49 UTC e le 23:41 UTC, abbiamo ricevuto 1.308 segnalazioni da parte di clienti che hanno riscontrato problemi con più prodotti Zendesk. Queste interruzioni sono state causate da integrazioni delle applicazioni non riuscite durante una significativa interruzione AWS Stati Uniti orientali.
Cronologia
20 ottobre 2025 07:59 UTC | 20 ottobre 2025 00:59 PST
Siamo consapevoli del problema riscontrato in più servizi Zendesk. Il nostro team tecnico sta facendo del suo meglio per risolvere il problema. Ti forniremo un aggiornamento dopo 30 minuti. Grazie per la pazienza.
20 ottobre 2025 08:32 UTC | 20 ottobre 2025 01:32 PST
Ci scusiamo sinceramente per l’interruzione in corso e i nostri tecnici stanno attivamente risolvendo questo incidente. Forniremo un aggiornamento non appena avremo informazioni significative da condividere. Grazie per la comprensione e la pazienza.
20 ottobre 2025 09:49 UTC | 20 ottobre 2025 02:49 PST
I nostri tecnici hanno identificato un problema originato dal nostro provider a monte che interessa diversi prodotti Zendesk, tra cui Chat, Voce, Analytics, SunCo, Sunshine Platforms, Contact Center e Support. Stiamo riscontrando miglioramenti, ma i clienti potrebbero riscontrare un periodo di peggioramento delle prestazioni. Apprezziamo la tua pazienza e ti forniremo aggiornamenti non appena saranno disponibili.
20 ottobre 2025 11:08 UTC | 20 ottobre 2025 04:08 PST
Abbiamo osservato un recupero parziale dei nostri prodotti Zendesk a seguito del problema causato dal nostro provider a monte. Il nostro team tecnico continua a lavorare diligentemente per ripristinare il servizio completo in tutte le aree interessate. Ci scusiamo per gli eventuali disagi che ciò potrebbe causare e ti ringraziamo per la pazienza. Gli aggiornamenti verranno forniti non appena saranno disponibili.
20 ottobre 2025 14:28 UTC | 20 ottobre 2025 07:28 PST
Abbiamo osservato un recupero significativo nella maggior parte dei prodotti Zendesk; tuttavia, i clienti AMER e APAC Explore potrebbero continuare a riscontrare dati obsoleti nei report Analytics sia in tempo reale che cronologici. Inoltre, sono in corso problemi con le sessioni di chiamata e l’accesso ai dati collegati a un problema del provider a monte. Il nostro team tecnico sta lavorando a stretto contatto con il provider per accelerare la riparazione e sta adottando misure proattive per ripristinare completamente tutti i servizi prima dei periodi di picco di utilizzo. Ci scusiamo per eventuali disagi che ciò potrebbe causare e ti ringraziamo sinceramente per la pazienza dimostrata. Ulteriori aggiornamenti saranno forniti non appena saranno disponibili.
20 ottobre 2025 15:20 UTC | 20 ottobre 2025 08:20 PST
Stiamo affrontando attivamente un’interruzione del servizio con il nostro provider cloud che interessa più prodotti e pod Zendesk, principalmente nei pod 19 e 23. Ulteriori impatti includono Explore in AMER e APAC, Talk in tutti i pod, Agenti AI , Sunshine Conversations e qualche degrado in Indirizzamento omnicanale e Chat. Ci scusiamo per eventuali notifiche mancate in precedenza e forniremo aggiornamenti entro un’ora o non appena emergono nuove informazioni.
20 ottobre 2025 16:30 UTC | 20 ottobre 2025 09:30 PST
Continuiamo a collaborare con il nostro provider cloud per risolvere i problemi che influiscono su più prodotti Zendesk. Ci scusiamo per non avere aggiornamenti sostanziali o positivi in merito al recupero completo, ma vogliamo tenerti aggiornato sulle ultime novità. Ti ringraziamo per la pazienza e la comprensione dimostrate mentre affrontiamo questa grave interruzione del servizio. Invieremo gli aggiornamenti non appena saranno disponibili.
20 ottobre 2025 22:05 UTC | 20 ottobre 2025 15:05 PST
Il nostro provider di servizi cloud partner ha indicato che stanno riscontrando miglioramenti significativi e il monitoraggio e la registrazione mostrano un recupero quasi completo nei prodotti Zendesk. Mentre ci stiamo avvicinando alla soluzione dal punto di vista della stabilità, c’è un considerevole backlog di attività nella finestra di impatto che è ancora in fase di elaborazione. I dati Explore e le registrazioni delle chiamate Talk si riempiranno gradualmente nel corso delle prossime ore e ti risponderemo quando avremo confermato di aver raggiunto la soluzione completa. Grazie per la pazienza dimostrata durante la nostra indagine.
20 ottobre 2025 23:35 UTC | 20 ottobre 2025 16:35 PST
Tutti i servizi Zendesk sono stati ripristinati e sono stabili. I dati di Explore continueranno ad aggiornarsi nelle prossime ore mentre elaboriamo il backlog creato durante l’incidente. Non è richiesta alcuna azione da parte del cliente. I report Explore rimangono disponibili normalmente, anche se l’aggiornamento dei dati potrebbe ritardare fino alla cancellazione del backlog. Grazie per la pazienza dimostrata durante la risoluzione del problema.
Analisi della causa principale
Questo incidente è stato causato da un’interruzione significativa in AWS Stati Uniti orientali (us-east-1), che ha causato errori nella soluzione degli indirizzi di rete e carenze nella capacità del sistema, interrompendo i servizi dell’infrastruttura principale di Zendesk. Inoltre, si sono verificati squilibri di risorse in alcuni pod a causa di limitazioni all'interno delle zone di disponibilità AWS .
Soluzione
Per risolvere il problema, il team tecnico ha coordinato gli sforzi con AWS assistenza e ha implementato varie soluzioni, tra cui il ridimensionamento delle risorse, le autorizzazioni manuali e il riavvio dei processi relativi ai dati chiave. Durante tutta la risposta, i clienti sono stati informati ed è stato confermato il ripristino completo di tutti i servizi principali.
Elementi correttivi
- Aggiungi timeout alle chiamate al database per evitare ritardi e garantire che le chiamate non riuscite non blocchino il sistema.
- Sviluppa metodi di fallback per recuperare le versioni delle app e gli asset per gestire le interruzioni del database in modo corretto.
- Indagare sugli errori dei processi causati dalla mancanza di dati e migliorare la convalida per evitare tali errori; assicurati che le metriche correlate siano monitorate e che gli avvisi siano attivi.
- Migliora la capacità di scalare facilmente le pipeline di elaborazione verso l’alto o verso il basso per recuperare il lavoro ritardato.
- Implementare funzionalità per consentire al sistema di degradare gradualmente anziché mostrare errori o pagine vuote durante gli incidenti.
- Aggiungi buffer di capacità extra ai cluster e allinea le pianificazioni di manutenzione ai periodi di punta del traffico.
- Esplora la riduzione temporanea delle risorse usate dai servizi non critici per dare la priorità alle applicazioni essenziali.
- Crea un elenco di controllo per la gestione degli errori di capacità al fine di evitare arresti o riduzioni imprevisti del pod.
- Imposta limiti di dimensioni minime per i gruppi di nodi gestiti per mantenere risorse sufficienti.
- Analizza le opzioni di backup e failover per migliorare l’affidabilità del servizio.
- Completa il trasferimento degli account per ridurre l’esposizione agli errori regionali.
- Cerca di ridurre le chiamate API non necessarie per ridurre al minimo l’impatto sugli utenti in caso di errori della piattaforma.
- Limita l’importazione di eventi solo a quelli visibili nell’interfaccia per ridurre il carico del database durante gli incidenti.
- Esamina l’ambito dell’impatto per capire perché i clienti al di fuori delle aree interessate hanno riscontrato problemi.
- Conferma le dipendenze dai servizi di terzi e le relative funzionalità di failover.
- Aggiorna le guide su chiamata con procedure di backup e avvisi pertinenti.
- Assicurati che le guide a chiamata siano accessibili durante tutti gli incidenti.
- Migliora gli strumenti di monitoraggio della distribuzione e blocca le policy per evitare rilasci errati.
- Interagisci con i provider di servizi cloud per migliorare la precisione degli avvisi e ridurre il rumore durante il monitoraggio.
- Aumenta l’allocazione della memoria per i proxy critici per migliorare la stabilità.
- Separa gli avvisi di assenza di dati dai sistemi di elaborazione dei lavori per evitare falsi allarmi.
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk e sugli impatti specifici sul tuo account, visita la nostra pagina sullo stato del sistema. Puoi seguire questo articolo per ricevere una notifica quando verrà pubblicato il nostro report post mortem. Per ulteriori domande su questo incidente, contatta assistenza clienti Zendesk.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.