ZUSAMMENFASSUNG
Am 6. März von 13:33 UTC bis 14:15 UTC konnten Kunden Explore nicht laden und erhielten 502-Fehler aufgrund eines schlechten Gateways.
Zeitleiste
15:02 UTC | 07:02 PT
Da wir Bestätigungen erhalten haben, dass Kunden beim Zugriff auf Explore keine Serverfehler mehr erhalten und unser Backend ebenfalls keine Fehler mehr aufweist, betrachten wir diesen Vorfall als behoben. Vielen Dank für Ihr Verständnis.
14:24 UTC | 06:24 PT
Wir sehen eine Verbesserung bei der Anzahl von Seitenaufrufen und erhalten die Bestätigung, dass Explore jetzt korrekt aufgerufen und nach einer Seitenaktualisierung geladen werden kann. Wir möchten Sie bitten, Explore neu zu laden und uns zu informieren, wenn weiterhin Probleme auftreten. Vielen Dank für Ihre Geduld und Ihre Hilfe.
14:15 UTC | 06:15 PT
Derzeit sollten nur Explore-Kunden in Pod 17, 18, 28 und 29 von den Problemen betroffen sein. Wir arbeiten weiter daran, den Zugriff wiederherzustellen. Weitere Aktualisierungen in 30 Minuten, wenn weitere Details vorliegen.
14:04 UTC | 06:04 PT
Wir untersuchen derzeit Berichte über Probleme, bei denen Explore für Kunden in mehreren Pods nicht geladen wird. Die Untersuchung ist im Gange.
POST-MORTEM
Ursachenanalyse
Am 6. März 2024 traten bei Benutzern, die auf Explore zugreifen wollten, Fehler aufgrund eines Prozesses zur Hintergrundaktualisierung des Systems auf. Dieser Prozess führte zu vorübergehenden „Sperr“-Problemen mit unserer Datenbank, was zu Fehlern für unsere Benutzer führte. Das Problem begann um 13:22 UTC und war um 14:07:00 UTC gelöst.
Unser Engineering-Team arbeitete an einer neuen Funktion, die Benutzern Nutzungsstatistiken zur Verfügung stellen sollte. Um diese Funktion effizienter zu machen, wurde ein neues Verfahren eingeführt. Dieses Verfahren umfasste bei jedem Zugriff auf ein Dashboard eine Tabelle in der Datenbank, um wiederholte Berechnungen zu vermeiden. Das Problem trat auf, als durch diesen Prozess historische Datensätze für vorhandene Dashboards abgerufen wurden.
Der Vorfall wurde hauptsächlich durch den Prozess zum Ausfüllen historischer Datensätze verursacht. Dieser Vorgang führte zu längeren „Sperren“ in unserer Datenbank, was zu Timeouts und Fehlern führte.
Lösung
Nach dem Lösen der feststeckenden Querys und einem Neustart derRails-Anwendung, wurde der normale Betrieb von Explore wieder aufgenommen.
Korrekturelemente
- Überprüfen Sie den Auffüllprozess
- Playbook für Backfill-Prozess aktualisieren
- Dashboard_views-Datensätze asynchron verarbeiten
WEITERE INFOS
Aktuelle Systemstatusinformationen zu Ihrem Zendesk finden Sie auf der Systemstatusseite. Die Zusammenfassung unserer Post-mortem-Untersuchung wird in der Regel hier einige Tage nach Abschluss des Vorfalls gepostet. Wenn Sie weitere Fragen zu diesem Vorfall haben, reichen Sie bitte über ZBot Messaging im Widget ein Ticket bei uns ein.
Hinweis zur Übersetzung: Dieser Beitrag wurde mit automatischer Übersetzungssoftware übersetzt, um dem Leser ein grundlegendes Verständnis des Inhalts zu vermitteln. Trotz angemessener Bemühungen, eine akkurate Übersetzung bereitzustellen, kann Zendesk keine Garantie für die Genauigkeit übernehmen.
Sollten in Bezug auf die Genauigkeit der Informationen im übersetzten Beitrag Fragen auftreten, beziehen Sie sich bitte auf die englische Version des Beitrags, die als offizielle Version gilt.