ZUSAMMENFASSUNG
Am 2. Juli 2024 von 08:10 UTC bis 16:30 UTC hatten Kunden in Pod 17 und 18 ein Problem, bei dem die Schaltfläche „Chat annehmen“ nicht reagierte. Das Problem breitete sich dann aus, sodass Kunden in mehreren anderen Pods beim Versuch, ein Ticket zu öffnen, den Fehler „Keine Verbindung zum Server herstellen“ erhielten. Dies führte zu einer erheblichen Störung der Fähigkeit zur effektiven Kommunikation und Verwaltung von Aufgaben im Arbeitsbereich für Agenten.
Zeitleiste
02. Juli 2024 12:12 UTC | 02. Juli 2024, 05:12 Uhr PST
Wir arbeiten gerade an Berichten, dass die Schaltfläche „Chat annehmen“ bei einigen Kunden auf Pod 17 und 18 nicht funktioniert. Wir werden ein weiteres Update bereitstellen, wenn wir weitere Informationen haben.
02. Juli 2024 14:01 Uhr UTC | 02. Juli 2024, 07:01 Uhr PST
Wir gehen derzeit verschiedene Chat-/Messaging-/AgentWorkspace-Probleme durch und untersuchen alle Probleme weiter. Vielen Dank für Ihre Geduld.
02. Juli 2024 14:51 UTC | 02. Juli 2024, 07:51 Uhr PST
Wir beheben weiterhin Probleme, die sich auf die Annahme von Chat und Messaging im Arbeitsbereich für Agenten für Kunden in Pod 17 und 18 auswirken, bei denen die Schaltfläche „Chat annehmen“ nicht funktioniert. Wir prüfen derzeit Korrekturen und Testoptionen, um dieses Problem vollständig zu beheben.
02. Juli 2024 15:28 UTC | 02. Juli 2024, 08:28 Uhr PST
Wir untersuchen noch die Ursache für das Problem, das sich auf die Chat- und Messaging-Annahme im Arbeitsbereich für Agenten für Kunden auf Pod 17 und 18 auswirkt und die Verwendung der Schaltfläche „Chat annehmen“ verhindert. Wir werden eine Stunde lang weitere Informationen veröffentlichen oder wenn wir neue Informationen haben.
02. Juli 2024 16:28 UTC | 02. Juli 2024, 09:28 Uhr PST
Unser Team untersucht weiterhin das Problem, das sich auf die Chat- und Messaging-Akzeptanz im Arbeitsbereich für Agenten für Kunden auf Pod 17 und 18 auswirkt und die Verwendung der Schaltfläche „Chat annehmen“ verhindert. Wir werden weitere Updates in einer Stunde bereitstellen oder wenn wir neue Informationen haben.
02. Juli 2024 17:48 UTC | 02. Juli 2024, 10:48 Uhr PT
Wir haben die Kapazität der Messaging-Dienste in Pod 17 und 18 erhöht und überwachen dies auf weitere Auswirkungen. Unser Team wird sicherstellen, dass keine weiteren Probleme bei der Annahme von Chats auftreten, und wir werden weitere Updates bereitstellen, sobald wir die Wiederherstellung bestätigen. Bitte teilen Sie uns mit, ob Sie weiterhin Probleme mit der Annahme von Chats haben.
03. Juli 2024 05:05 UTC | 02. Juli 2024, 22:05 Uhr PST
Nach weiteren Überwachungsmaßnahmen haben wir bestätigt, dass das Problem, das sich auf die Annahme von Chat und Messaging auswirkt, behoben wurde. Vielen Dank für Ihre Geduld.
POST-MORTEM
Ursachenanalyse
Bei einem Upgrade auf unser aktualisiertes Speichersystem traten unvorhergesehene Leistungsprobleme auf, die sich in einer Verzögerung bei der Bereitstellung rechtzeitiger Aktualisierungen niederschlugen. Die Schwierigkeiten waren hauptsächlich auf Probleme bei der Verarbeitung von Anfragen zum Verbindungs- und Abonnementlebenszyklus zurückzuführen, die zu Blockaden des Speichersystems und zum Blockieren von Transaktionen führten. Diese Probleme beeinträchtigten die Leistung der Systemkomponente, die für die Verwaltung von Daten und die Aktualisierung der Benutzeroberfläche in Echtzeit zuständig ist. Als wir versuchten, unseren Prozess zu straffen und uns ganz auf das aktualisierte Speichersystem zu konzentrieren, wurden unsere Ressourcen durch einen unerwarteten Anstieg der Leistungsaufnahme weiter belastet.
Lösung
Um das Problem zu lösen, führten wir einen mehrgleisigen Ansatz ein. Wir vergrößerten die Datenbankcluster über alle Pods hinweg und stellten fest, dass Datenbanksperren und blockierte Transaktionen die Ursache für die Leistungsprobleme waren. Wir haben daraufhin eine schnelle Korrektur vorgenommen, um diese Sperren aufzuheben, obwohl dies zu verwaisten Datenbankobjekten führen kann. Abschließend führten wir ein schrittweises Rollback durch, das letztendlich zu einer Stabilität des Abonnementservice führte.
Korrekturelemente
- Die Entfernung von DB-Sperren und die Bereinigung verwaister Abonnements wurde abgeschlossen.
- Weitere Maßnahmen umfassen das Hinzufügen von Service-Level-Zielen (SLO) für Endpunkte zur Erstellung von Verbindungen und Abonnements. Damit soll die Systemleistung auch in Zukunft überwacht und gewährleistet werden.
- Diskussion der Wartezeit im ersten Produktions-Pod nach dem Canary Pod, um ähnliche Probleme früher zu erkennen.
- Um sicherzustellen, dass das System optimal funktioniert, würden auch Staging-Belastungstests und Wartungsverfahren eingesetzt, die die Bereinigung und Neuerstellung von Clustern umfassen.
WEITERE INFOS
Aktuelle Systemstatusinformationen zu Ihrem Zendesk finden Sie auf der Systemstatusseite. Die Zusammenfassung unserer Post-mortem-Untersuchung wird in der Regel hier einige Tage nach Abschluss des Vorfalls gepostet. Wenn Sie weitere Fragen zu diesem Vorfall haben, wenden Sie sich an den Zendesk-Kundensupport.
Hinweis zur Übersetzung: Dieser Beitrag wurde mit automatischer Übersetzungssoftware übersetzt, um dem Leser ein grundlegendes Verständnis des Inhalts zu vermitteln. Trotz angemessener Bemühungen, eine akkurate Übersetzung bereitzustellen, kann Zendesk keine Garantie für die Genauigkeit übernehmen.
Sollten in Bezug auf die Genauigkeit der Informationen im übersetzten Beitrag Fragen auftreten, beziehen Sie sich bitte auf die englische Version des Beitrags, die als offizielle Version gilt.
0 Kommentare