ZUSAMMENFASSUNG
Von 2024-02-09 20:32 UTC bis 2024-02-09 22:29 UTC trat bei Support-Kunden in Pod 13 ein Problem auf, das dazu führte, dass in einigen Tickets keine SLA-Badges angezeigt wurden.
POST-MORTEM
Ursachenanalyse
Während dieses Vorfalls wurde einer von 16 Hubernetes-Pods in Pod 13 außerplanmäßig neu gestartet und funktionierte nicht richtig. Die Fehlermeldung wies auf Probleme mit der „connection String Authority“ hin, die den „redis“-Host störten, eine kritische Abhängigkeit für unseren Metric Event Service (Messe). Diese Störung führte zu Problemen bei der Verarbeitung von Ticketereignissen und führte beispielsweise dazu, dass SLA-Ereignisse (Service Level Agreements, SLA) nicht erfüllt oder nur verspätet auftraten. Wir vermuten, dass der kpod aufgrund einer Bereitstellung oder Konfigurationsänderung versehentlich neu gestartet wurde. Als der Fehler auftrat, bestand unser unmittelbares Ziel darin, den Hauptdienst zu beheben, was ein schnelles Zurücksetzen des Systems erforderte. Dieser Prozess gab uns nicht die Zeit, Details zur fehlerhaften Systemeinheit sofort zu erfassen. Später gelang es uns jedoch, den Fehler in einer sicheren Testumgebung zu reproduzieren, indem wir gezielt eine Schwachstelle einführten, die uns half, das Problem besser zu verstehen.
Lösung
Sobald das Problem identifiziert wurde, wurde der kpod erneut bereitgestellt, um das Problem zu beheben. Fehlende SLA-Ereignisse wurden anschließend nachgefüllt.
Hinweis:Beim Auffüllen/Wiederherstellen von Daten zum Auflösen fehlerhafter SLAs in offenen Tickets wurden SLA-Daten aus geschlossenen Tickets vollständig entfernt, was zu SLA-Daten mit dem Status „Null“ in Explore führt.
Korrekturelemente
- Bessere Möglichkeiten zum Organisieren und Übergeben von Umgebungsvariablen, damit die Bereitschaft bei jedem Neustart der Systemeinheiten sichergestellt wird
- Verkürzen Sie die Bearbeitungszeit für ungültige Service-Level-Vereinbarungen (SLA) durch Aktualisieren unseres Help Centers.
- Überprüfen Sie die Überwachung und Benachrichtigungen
- Untersuchen Sie die Methode zur Übergabe von Umgebungsvariablen erneut, um sicherzustellen, dass sie nach dem Neustart von Systemeinheiten verfügbar sind
WEITERE INFOS
Aktuelle Systemstatusinformationen zu Ihrem Zendesk finden Sie auf der Systemstatusseite. Die Zusammenfassung unserer Post-mortem-Untersuchung wird in der Regel hier einige Tage nach Abschluss des Vorfalls gepostet. Wenn Sie weitere Fragen zu diesem Vorfall haben, reichen Sie bitte über ZBot Messaging im Widget ein Ticket bei uns ein.
Hinweis zur Übersetzung: Dieser Beitrag wurde mit automatischer Übersetzungssoftware übersetzt, um dem Leser ein grundlegendes Verständnis des Inhalts zu vermitteln. Trotz angemessener Bemühungen, eine akkurate Übersetzung bereitzustellen, kann Zendesk keine Garantie für die Genauigkeit übernehmen.
Sollten in Bezug auf die Genauigkeit der Informationen im übersetzten Beitrag Fragen auftreten, beziehen Sie sich bitte auf die englische Version des Beitrags, die als offizielle Version gilt.