ÜBERBLICK
Am 20. Oktober 2025 erhielten wir zwischen 06:49 UTC und 23:41 UTC 1.308 Berichte von Kunden, die Probleme mit mehreren Zendesk-Produkten hatten. Diese Störungen wurden durch fehlgeschlagene Anwendungsintegrationen während eines erheblichen Ausfalls von AWS US East verursacht.
Zeitlicher Ablauf
20. Oktober 2025 07:59 UTC | 20. Oktober 2025 12:59 PST
Wir wissen, dass wir ein Problem mit mehreren Zendesk-Services haben. Unser Engineering-Team tut sein Bestes, um das Problem zu lösen. Wir werden nach 30 Minuten ein Update bereitstellen. Vielen Dank für Ihre Geduld.
20. Oktober 2025 08:32 UTC | 20. Oktober 2025 01:32 PST
Wir entschuldigen uns aufrichtig für die anhaltende Störung und unsere Ingenieure sind aktiv dabei, diesen Vorfall zu beheben. Wir werden ein Update bereitstellen, sobald wir wichtige Informationen haben. Vielen Dank für Ihr Verständnis und Ihre Geduld.
20. Oktober 2025 09:49 UTC | 20. Oktober 2025 02:49 PST
Unsere Ingenieure haben ein Problem unseres Upstream-Anbieters identifiziert, das sich auf mehrere Zendesk-Produkte auswirkt, darunter Chat, Voice, Analytics, SunCo, Sunshine Platforms, Contact Center und Support. Wir sehen Verbesserungen, aber Kunden können eine Phase der Leistungsverschlechterung erleben. Wir danken Ihnen für Ihre Geduld und werden Sie informieren, sobald sie verfügbar sind.
20. Oktober 2025 11:08 UTC | 20. Oktober 2025 04:08 PST
Wir haben eine teilweise Erholung unserer Zendesk-Produkte beobachtet, nachdem das Problem von unserem Upstream-Anbieter verursacht wurde. Unser Engineering-Team arbeitet kontinuierlich daran, den vollen Service in allen betroffenen Bereichen wiederherzustellen. Wir entschuldigen uns für eventuelle Unannehmlichkeiten und bedanken uns für Ihre Geduld. Updates werden bereitgestellt, sobald sie verfügbar sind.
20. Oktober 2025 14:28 UTC | 20. Oktober 2025 07:28 PST
Wir haben bei den meisten Zendesk-Produkten eine deutliche Erholung festgestellt. Kunden mit AMER und APAC Explore können jedoch weiterhin veraltete Daten in Live- und historischen Analyseberichten sehen. Außerdem gibt es laufend Probleme mit Anrufsitzungen und Datenzugriff, die mit einem Upstream-Anbieterproblem verknüpft sind. Unser Engineering-Team arbeitet eng mit dem Anbieter zusammen, um die Sanierung zu beschleunigen, und unternimmt proaktiv Schritte, um alle Services vor Spitzennutzungszeiten vollständig wiederherzustellen. Wir entschuldigen uns für eventuelle Störungen und bitten Sie um Ihr Verständnis. Weitere Updates werden bereitgestellt, sobald sie verfügbar sind.
20. Oktober 2025 15:20 UTC | 20. Oktober 2025 08:20 PST
Wir gehen aktiv auf einen Ausfall unseres Cloud-Anbieters ein, der mehrere Zendesk-Produkte und -Pods betrifft, hauptsächlich in Pods 19 und 23. Weitere Auswirkungen sind Explore in AMER und APAC, Talk über alle Pods hinweg, AI Agents, Sunshine Conversations und einige Beeinträchtigungen der Omnichannel-Verteilung und Chat. Wir entschuldigen uns für frühere verpasste Benachrichtigungen und werden Aktualisierungen innerhalb einer Stunde oder sobald neue Informationen eingehen bereitstellen.
20. Oktober 2025 16:30 UTC | 20. Oktober 2025 09:30 PST
Wir arbeiten weiterhin mit unserem Cloud-Anbieter an Problemen, die sich auf mehrere Zendesk-Produkte auswirken. Wir bedauern, dass wir kein inhaltliches oder positives Update zur vollständigen Wiederherstellung haben, aber wir möchten Sie auf dem neuesten Stand halten. Wir danken Ihnen für Ihre Geduld und Ihr Verständnis, während wir diese schwere Serviceunterbrechung überstehen. Wir senden Aktualisierungen, sobald sie verfügbar sind.
20. Oktober 2025 22:05 UTC | 20. Oktober 2025 15:05 PST
Unser Partner-Cloud-Anbieter verzeichnet deutliche Verbesserungen, und unsere Überwachung und Protokollierung zeigt eine nahezu vollständige Wiederherstellung der Zendesk-Produkte. Während wir uns der Lösung aus Stabilitätsperspektive nähern, besteht ein beträchtlicher Aktivitätsrückstand aus dem Zeitfenster, das noch bearbeitet wird. Explore-Daten und Talk-Anrufaufzeichnungen werden sich in den nächsten Stunden nach und nach auffüllen. Wir werden nachfassen, sobald wir bestätigt haben, dass wir die volle Lösung erreicht haben. Vielen Dank für Ihre Geduld während unserer Untersuchung.
20. Oktober 2025 23:35 UTC | 20. Oktober 2025 16:35 PST
Alle Zendesk-Dienste wurden wiederhergestellt und sind stabil. Explore-Daten werden in den nächsten Stunden aktualisiert, während wir den während des Vorfalls entstandenen Rückstand verarbeiten. Es ist keine Aktion des Kunden erforderlich. Explore-Berichte sind weiterhin wie gewohnt verfügbar, aber die Datenaktualisierung kann sich verzögern, bis der Rückstand behoben ist. Vielen Dank für Ihre Geduld.
Ursachenanalyse
Ursache für diesen Vorfall war ein erheblicher Ausfall in AWS US East (US-Ost-1), der zu Fehlern bei der Lösung von Netzwerkadressen und Kapazitätsengpässen bei den Systemen führte und die Kerninfrastrukturdienste von Zendesk unterbrach. Außerdem kam es aufgrund von Einschränkungen innerhalb der AWS Availability Zones zu Ressourcenungleichgewichten in bestimmten Pods.
Lösung
Um das Problem zu beheben, koordinierte das Engineering-Team die Bemühungen mit AWS Support und führte verschiedene Korrekturen durch, darunter Ressourcenskalierung, manuelle Freigabe und Neustart wichtiger Datenprozesse. Während der gesamten Antwort wurden Kunden auf dem Laufenden gehalten und die vollständige Wiederherstellung aller Kerndienste bestätigt.
Entfernungselemente
- Fügen Sie Timeouts zu Datenbankaufrufen hinzu, um Verzögerungen zu vermeiden und sicherzustellen, dass fehlgeschlagene Anrufe das System nicht hängen lassen.
- Entwickeln Sie Fallback-Methoden zum Abrufen von App-Versionen und Assets, um Datenbankausfälle anmutig zu handhaben.
- Untersuchen Sie Jobfehler, die durch fehlende Daten verursacht werden, und verbessern Sie die Validierung, um solche Fehler zu vermeiden. Stellen Sie sicher, dass die zugehörigen Metriken überwacht und Warnungen aktiviert werden.
- Verbessern Sie die Skalierbarkeit von Verarbeitungspipelines nach oben oder unten, um Verzögerungen aufzuholen.
- Implementieren Sie Funktionen, damit das System bei Vorfällen keine Fehler oder leeren Seiten anzeigt.
- Fügen Sie zusätzliche Kapazitätspuffer zu Clustern hinzu und stimmen Sie die Wartungszeitpläne auf die Spitzenverkehrszeiten ab.
- Explore reduziert vorübergehend die Ressourcen, die von nichtkritischen Diensten für die Priorisierung wichtiger Anwendungen benötigt werden.
- Erstellen Sie eine Checkliste für den Umgang mit Kapazitätsausfällen, um unerwartete Pod-Abschaltungen oder Skalierungen zu verhindern.
- Legen Sie Mindestgrößenbeschränkungen für verwaltete Knotengruppen fest, um ausreichende Ressourcen bereitzustellen.
- Untersuchen Sie Backup- und Failover-Optionen, um die Servicezuverlässigkeit zu verbessern.
- Schließen Sie Konten um, um das Risiko regionaler Ausfälle zu reduzieren.
- Überprüfen Sie, wie Sie unnötige API-Aufrufe reduzieren können, um die Auswirkungen von Benutzern bei Plattformausfällen zu minimieren.
- Beschränken Sie die Ereignisaufnahme auf die in der Oberfläche sichtbaren, um die Datenbanklast bei Vorfällen zu reduzieren.
- Überprüfen Sie den Wirkungsbereich, um zu verstehen, warum Kunden außerhalb der betroffenen Regionen Probleme hatten.
- Abhängigkeiten von Drittanbieterdiensten und ihren Failover-Funktionen bestätigen.
- Aktualisieren Sie Bereitschaftshandbücher mit relevanten Backup- und Alarmverfahren.
- Stellen Sie sicher, dass die Bereitschaftshandbücher bei allen Vorfällen zugänglich sind.
- Verbessern Sie die Deployment-Monitoring-Tools und Einfrieren Sie Richtlinien, um fehlerhafte Releases zu verhindern.
- Treten Sie mit Cloud-Anbietern in Kontakt, um die Genauigkeit der Benachrichtigungen zu verbessern und das Rauschen bei der Überwachung zu reduzieren.
- Erhöhen Sie die Speicherzuweisung für kritische Proxys, um die Stabilität zu verbessern.
- Trennen Sie No-Data-Alarme von Auftragsverarbeitungssystemen, um Fehlalarme zu vermeiden.
WEITERE INFORMATIONEN
Auf unserer Systemstatusseite finden Sie aktuelle Systemstatusinformationen zu Zendesk und den Auswirkungen auf Ihr Konto. Sie können diesem Beitrag folgen, um benachrichtigt zu werden, wenn unser Obduktionsbericht veröffentlicht wird. Wenn Sie weitere Fragen zu diesem Vorfall haben, wenden Sie sich an den Zendesk-Kundensupport.
Hinweis zur Übersetzung: Dieser Beitrag wurde mit automatischer Übersetzungssoftware übersetzt, um dem Leser ein grundlegendes Verständnis des Inhalts zu vermitteln. Trotz angemessener Bemühungen, eine akkurate Übersetzung bereitzustellen, kann Zendesk keine Garantie für die Genauigkeit übernehmen.
Sollten in Bezug auf die Genauigkeit der Informationen im übersetzten Beitrag Fragen auftreten, beziehen Sie sich bitte auf die englische Version des Beitrags, die als offizielle Version gilt.