ZUSAMMENFASSUNG
Während dieses Vorfalls traten bei einigen Explore-Kunden in mehreren Pods und Regionen Verzögerungen und veraltete Informationen im Dataset „Tickets“ in Explore auf.
Zeitleiste
10:38 UTC | 02:38 PT
Nach dem Rollback sind alle neu verarbeiteten Synchronisationsjobs abgeschlossen und die Explore-Datensynchronisation läuft wieder normal. Damit ist der Vorfall gelöst. Vielen Dank für Ihr Verständnis.
00:18 UTC | 16:18 PT
Wir verarbeiten Synchronisierungsjobs für betroffene Kunden weiterhin manuell neu und werden eine weitere Aktualisierung bereitstellen, wenn wir wesentliche Informationen haben.
20:58 UTC | 12:58 PT
Wir haben das Rollback eines Explore-Updates abgeschlossen, das die Verzögerung bei der Aktualisierung des Datasets „Tickets“ verursacht hat. Wir verarbeiten Synchronisationsjobs manuell neu. Wir werden ein weiteres Update bereitstellen, wenn wir neue Informationen haben.
20:11 UTC | 12:11 PT
In einem kürzlich veröffentlichten Update haben wir eine potenzielle Ursache für die Synchronisierungsverzögerungen und -fehler im Ticket-Dataset gefunden, die bei einigen Explore-Kunden auftreten. Wir arbeiten daran, diese Aktualisierung rückgängig zu machen, und überwachen die Ergebnisse. Wir werden weitere Updates bereitstellen, sobald wir neue Erkenntnisse haben.
19:06 UTC | 11:06 PT
Wir untersuchen noch die Probleme, die in Explore zu Synchronisierungsverzögerungen und Fehlern in mehreren Pods und Regionen führen. Unsere Teams haben zwar einige Fortschritte gemacht, aber bei einigen Konten sind immer noch Verzögerungen zu verzeichnen. Wir werden auch weiterhin neue Informationen veröffentlichen, sobald wir sie finden.
18:10 UTC | 10:10 PT
Unser Team untersucht weiterhin das Problem, das bei einigen Explore-Kunden in mehreren Pods und Regionen zu Synchronisierungsverzögerungen und Fehlern im Dataset „Tickets“ führt. Wir werden Sie im Verlauf der Untersuchung auf dem Laufenden halten.
17:40 UTC | 09:40 PT
Wir haben ein Problem bestätigt, das in Explore über mehrere Pods und Regionen hinweg zu Synchronisierungsverzögerungen und Fehlern im Dataset „Tickets“ führt. Unser Team untersucht den Vorfall und wir werden weitere Informationen veröffentlichen, sobald wir mehr erfahren.
17:29 UTC | 09:29 PT
Wir untersuchen Berichte über Explore-Synchronisierungsverzögerungen im Dataset „Tickets“ in mehreren Pods und Regionen. Wir werden in Kürze weitere Updates bereitstellen.
POST-MORTEM
Ursachenanalyse
Hintergrund: Wir haben ein System (Explore ETL), das regelmäßig Daten für unsere Kunden sammelt. Dieses System übernimmt die eigentliche Datenerfassung. Die erfassten Daten werden gespeichert und anschließend weiterverarbeitet. Bei der Datenerfassung für ein Konto mit beträchtlich großen Datenmengen pro Ticket ist ein Problem aufgetreten. Diese große Menge an Informationen führte zu einer Speichersättigung, was zu Fehlern führte und die Datenverarbeitung verlangsamte.
Darüber hinaus führte ein kürzlich durchgeführtes Upgrade der Serverwartung zu einem Anstieg des Speicherverbrauchs, was das Problem noch verschlimmerte.
Lösung
Sobald wir die Probleme erkannt hatten, versuchten wir, die Überlast zu bewältigen, indem wir Aufgaben priorisierten und die Server neu starteten. Nach weiteren Untersuchungen und mit Unterstützung durch andere Teams identifizierten wir das Problem beim Upgrade des Servers als Ursache und rückgängig gemacht auf eine frühere Version. Danach wurde die Aufgabenverarbeitung normal fortgesetzt.
Korrekturelemente
Als Nächstes möchten wir solche Vorfälle durch eine Reihe von Maßnahmen in Zukunft verhindern:
1. Beschränken Sie die Größe der Payload für Ticketdaten.
2. Überlegen Sie sich erneut, ob es sich um das Serverwartungs-Upgrade handelt, und berücksichtigen Sie dabei den höheren Speicherbedarf durch die neue Speicherortabholung.
3. Erweitern Sie unsere Testumgebung, um die Produktionsauslastung besser nachzuahmen und genauere Tests für Szenarien wie dieses durchzuführen.
WEITERE INFOS
Aktuelle Systemstatusinformationen zu Ihrem Zendesk finden Sie auf der Systemstatusseite. Die Zusammenfassung unserer Post-mortem-Untersuchung wird in der Regel hier einige Tage nach Abschluss des Vorfalls gepostet. Wenn Sie weitere Fragen zu diesem Vorfall haben, reichen Sie bitte über ZBot Messaging im Widget ein Ticket bei uns ein.
Hinweis zur Übersetzung: Dieser Beitrag wurde mit automatischer Übersetzungssoftware übersetzt, um dem Leser ein grundlegendes Verständnis des Inhalts zu vermitteln. Trotz angemessener Bemühungen, eine akkurate Übersetzung bereitzustellen, kann Zendesk keine Garantie für die Genauigkeit übernehmen.
Sollten in Bezug auf die Genauigkeit der Informationen im übersetzten Beitrag Fragen auftreten, beziehen Sie sich bitte auf die englische Version des Beitrags, die als offizielle Version gilt.
0 Kommentare