RIEPILOGO
Il 2 luglio 2024, dalle 08:10 UTC alle 16:30 UTC, i clienti dei pod 17 e 18 hanno riscontrato un problema a causa del quale il pulsante "Accetta chat" non rispondeva. Il problema si è quindi diffuso, causando ai clienti in più altri pod l’errore “Impossibile connettersi al server” quando tentavano di aprire i ticket. Ciò ha causato un’interruzione significativa della loro capacità di comunicare e gestire efficacemente le attività all’interno dello Spazio di lavoro agente.
Cronologia
2 luglio 2024 12:12 UTC | 2 luglio 2024 05:12 PT
Attualmente stiamo esaminando i rapporti sul pulsante di accettazione della chat per alcuni clienti nei pod 17 e 18 che non funzionano. Forniremo un altro aggiornamento quando avremo maggiori informazioni.
2 luglio 2024 14:01 UTC | 2 luglio 2024 07:01 PT
Al momento stiamo riscontrando diversi problemi relativi a Chat/Messaggistica/AgentWorkspace e continuiamo a indagare su tutti i problemi. Grazie per la pazienza.
2 luglio 2024 14:51 UTC | 2 luglio 2024 07:51 PT
Continuiamo a risolvere i problemi che influiscono sull’accettazione di Chat e messaggistica nello spazio di lavoro agente per i clienti dei pod 17 e 18 che devono affrontare il pulsante Accetta chat non funzionante. Stiamo valutando soluzioni e test di opzioni per risolvere completamente il problema.
2 luglio 2024 15:28 UTC | 2 luglio 2024 08:28 PT
Stiamo ancora esaminando la causa principale del problema relativo all’accettazione di Chat e messaggistica nello spazio di lavoro agente per i clienti nei pod 17 e 18, impedendo l’uso del pulsante “Accetta chat”. Pubblicheremo ulteriori informazioni tra un’ora o quando avremo nuove informazioni da condividere.
2 luglio 2024 16:28 UTC | 2 luglio 2024 09:28 PT
Il nostro team continua a indagare sul problema che riguarda l’accettazione di Chat e messaggistica nello Spazio di lavoro agente per i clienti nei pod 17 e 18, impedendo l’uso del pulsante “Accetta chat”. Forniremo ulteriori aggiornamenti tra un’ora o quando avremo nuove informazioni da condividere.
2 luglio 2024 17:48 UTC | 2 luglio 2024 10:48 PT
Abbiamo aumentato la capacità dei servizi di messaggistica nei pod 17 e 18 e stiamo monitorando eventuali ulteriori ripercussioni. Il nostro team si assicurerà che non vengano riscontrati ulteriori problemi durante l’accettazione delle chat e forniremo ulteriori aggiornamenti non appena confermeremo il recupero. Facci sapere se continui a riscontrare problemi con l’accettazione delle chat.
3 luglio 2024 05:05 UTC | 2 luglio 2024 22:05 PT
Dopo un ulteriore monitoraggio, abbiamo confermato che il problema che influiva sull’accettazione di Chat e messaggistica è stato risolto. Grazie per la pazienza dimostrata.
POST-MORTEM
Analisi della causa principale
Durante l’aggiornamento al nostro sistema di storage aggiornato, abbiamo riscontrato problemi di prestazioni imprevisti, che si sono tradotti in un ritardo nella fornitura di aggiornamenti tempestivi. Le difficoltà erano in gran parte dovute a problemi di elaborazione delle query per i cicli di vita delle connessioni e degli abbonamenti, con conseguente blocco del sistema di storage e blocco delle transazioni. Queste complicazioni hanno compromesso le prestazioni del nostro componente di sistema responsabile della gestione dei dati e degli aggiornamenti dell'interfaccia utente in tempo reale. Quando abbiamo cercato di semplificare il nostro processo concentrandoci esclusivamente sul sistema di storage aggiornato, un inaspettato aumento del consumo di potenza di elaborazione ha messo a dura prova le nostre risorse.
Soluzione
Per risolvere il problema, abbiamo implementato un approccio su più fronti. Abbiamo aumentato le dimensioni dei cluster di database in tutti i pod e abbiamo identificato che i blocchi del database e le transazioni bloccate erano alla base dei problemi di prestazioni. In risposta, abbiamo applicato una soluzione rapida per eliminare questi blocchi, nonostante ciò porti potenzialmente a oggetti di database orfani. Infine, abbiamo intrapreso un graduale rollback che alla fine ha portato alla stabilizzazione del servizio in abbonamento.
Elementi correttivi
- La rimozione dei blocchi del database e la pulizia delle sottoscrizioni orfane sono state completate.
- Ulteriori misure includono l’aggiunta di obiettivi del livello di servizio (SLO) per la creazione di connessioni e di endpoint per la creazione di sottoscrizioni. Questo serve per monitorare e garantire prestazioni affidabili del sistema in futuro.
- Discussione sul tempo di permanenza nel primo pod di produzione dopo il pod Canary per rilevare problemi simili in precedenza.
- Per garantire il funzionamento ottimale del sistema, verrebbero adottati i test di carico e le pratiche di manutenzione che implicano la pulizia e la ricreazione dei cluster.
PER MAGGIORI INFORMAZIONI
Per informazioni sullo stato attuale del sistema su Zendesk, consulta la nostra pagina sullo stato del sistema. Di solito, il riepilogo della nostra indagine post mortem viene pubblicato qui pochi giorni dopo la fine dell’incidente. Per ulteriori domande su questo incidente, contatta l’assistenza clienti Zendesk.
Avvertenza sulla traduzione: questo articolo è stato tradotto usando un software di traduzione automatizzata per fornire una comprensione di base del contenuto. È stato fatto tutto il possibile per fornire una traduzione accurata, tuttavia Zendesk non garantisce l'accuratezza della traduzione.
Per qualsiasi dubbio sull'accuratezza delle informazioni contenute nell'articolo tradotto, fai riferimento alla versione inglese dell'articolo come versione ufficiale.
0 commenti