RÉSUMÉ
Le 20 octobre 2025, entre 06:49 UTC et 23:41 UTC, nous avons reçu 1 308 rapports de clients rencontrant des problèmes dans plusieurs produits Zendesk. Ces perturbations ont été dues à des intégrations de l’application impossibles au cours d’une panne importante AWS aux États-Unis.
Calendrier
20 octobre 2025 à 07h59 UTC | 20 octobre 2025 - 12h59 heure du Pacifique
Nous avons conscience que nous rencontrons un problème pour plusieurs services Zendesk. Notre équipe d’ingénierie fait désormais tout son possible pour résoudre ce problème. Nous vous préviendrons après 30 minutes. Nous vous remercions de votre patience.
20 octobre 2025 08h32 UTC | 20 octobre 2025 - 01h32 heure du Pacifique
Nous sommes désolés pour la perturbation en cours et nos ingénieurs résolvent activement cet incident. Nous effectuerons une mise à jour dès que nous aurons des informations importantes à partager. Merci de votre compréhension et de votre patience.
20 octobre 2025 09:49 UTC | 20 octobre 2025 - 02h49 heure du Pacifique
Nos ingénieurs ont identifié un problème provenant de notre fournisseur en amont qui affecte plusieurs produits Zendesk, notamment Chat, Centre d’appels, Analyses, SunCo, Plateformes Sunshine , Centre de contact et Support. Nous constatons des améliorations, mais les clients peuvent rencontrer une période de dégradation des performances. Nous apprécions votre patience et vous fournirons des mises à jour dès qu’elles seront disponibles.
20 octobre 2025 11h08 UTC | 20 octobre 2025 - 04h08 PST
Nous avons observé une reprise partielle dans nos produits Zendesk suite au problème dû à notre fournisseur en amont. Notre équipe d’ingénierie continue de travailler avec détermination pour rétablir un service complet dans tous les domaines affectés. Nous vous prions de nous excuser de la gêne occasionnée. Nous vous remercions de votre patience. Les mises à jour seront fournies dès qu’elles seront disponibles.
20 octobre 2025 14:28 UTC | 20 octobre 2025 - 07h28 PST
Nous avons observé une récupération importantes pour la plupart des produits Zendesk ; Cependant, il est possible que les clients Explore AMER et APAC voient encore des données obsolètes dans les rapports d’analyses en direct et historiques. En outre, il y a des problèmes en cours avec les sessions d’appel et l’accès aux données, liés à un problème avec un fournisseur en amont. Notre équipe d’ingénierie travaille en étroite collaboration avec le fournisseur pour accélérer la remise en état et prend des mesures proactives pour rétablir entièrement tous les services avant les périodes de pointe. Nous vous prions de nous excuser pour les perturbations que cela pourrait vous causer et vous remercions de votre patience. D’autres mises à jour seront fournies dès qu’elles seront disponibles.
20 octobre 2025 15h20 UTC | 20 octobre 2025 - 8h20 heure du Pacifique
Nous gérons activement une panne de notre fournisseur cloud qui affectera plusieurs produits et pods Zendesk, principalement dans les pods 19 et 23. Les autres impacts incluent Explore dans AMER et APAC, Talk dans tous les pods, les agents IA , Sunshine Conversations et une dégradation du routage omnicanal et du chat. Nous vous prions de nous excuser pour les notifications que vous avez manquées précédemment et vous fournirons des mises à jour dans l’heure ou dès que de nouvelles informations seront disponibles.
20 octobre 2025 16:30 UTC | 20 octobre 2025 - 9h30 heure du Pacifique
Nous continuons de travailler avec notre fournisseur cloud sur les problèmes affectant plusieurs produits Zendesk. Nous sommes désolés de ne pas avoir de mise à jour importante ou positive concernant la récupération complète, mais nous voulons vous tenir au courant des dernières informations. Nous vous remercions de votre patience et de votre compréhension pendant cette interruption de service grave. Nous enverrons des mises à jour dès qu’elles seront disponibles.
20 octobre 2025 22h05 UTC | 20 octobre 2025 15h05 heure du Pacifique
Notre fournisseur partenaire dans le cloud a indiqué avoir enregistré des améliorations importantes, et notre surveillance et notre journalisation montrent une reprise quasi complète des produits Zendesk. Bien que nous abordions la résolution du point de vue de la stabilité, il reste un volume important d’activités en cours de traitement. Les données Explore et les enregistrements des appels Talk seront progressivement récupérées au cours des prochaines heures et nous effectuerons un suivi une fois que nous aurons confirmé que nous avons atteint la résolution complète. Nous vous remercions de votre patience pendant notre enquête.
20 octobre 2025 23h35 UTC | 20 octobre 2025 - 16h35 heure du Pacifique
Tous les services Zendesk ont été rétablis et sont stables. Les données Explore continueront d’être mises à jour au cours des prochaines heures au fur et à mesure du traitement des tickets non traités créés pendant l’incident. Aucune action du client n'est requise. Les rapports Explore restent disponibles normalement, mais la disponibilité des données peut être retardée jusqu’à ce que les tickets non traités soient effacés. Merci de votre patience pendant que nous avons travaillé à la résolution de ce problème.
Analyse des causes profondes
Cet incident a été dû à une panne importante dans AWS USA Est (us-east-1), qui a provoqué des échecs de résolution des adresses réseau et des manques de capacité système, ce qui a perturbé les services principaux de l’infrastructure de Zendesk. En outre, les distorsions des ressources dans certains Pods sont créées à cause des limitations dans les zones de disponibilité AWS .
Résolution
Pour résoudre ce problème, l’équipe d’ingénierie a collaboré avec assistance AWS et a mis en œuvre diverses résolutions, notamment l’évolution des ressources, des autorisations manuelles et le redémarrage de processus de données clés. Tout au long de la réponse, les clients ont été informés et le rétablissement complet de tous les services principaux a été confirmé.
Éléments de correction
- Ajoutez des délais d’inactivité aux appels de la base de données pour éviter les retards et vous assurer que les appels qui échouent ne provoquent pas le blocage du système.
- Développez des méthodes de remplacement pour récupérer les versions et les actifs de l'application afin de gérer les pannes de la base de données avec exactitude.
- enquêter sur les échecs des tâches liés à des données manquantes et améliorer la validation pour éviter de telles erreurs ; Vous pouvez vous assurer que les mesures associées sont surveillées et que les alertes sont actives.
- Améliorez la capacité à faire facilement évoluer les pipelines de traitement vers le haut ou le bas pour rattraper le travail en retard.
- Implémentez des fonctionnalités pour permettre au système de se dégrader harmonieusement plutôt que d’afficher des erreurs ou des pages vides pendant les incidents.
- Ajoutez des tampons de capacité supplémentaire aux clusters et alignez les calendriers de maintenance avec les pics de trafic.
- Explorez une réduction temporaire des ressources utilisées par les services non critiques pour donner la priorité aux applications essentielles.
- Créez une liste de contrôle pour gérer les échecs de capacité afin d’éviter les fermetures de pods ou les réductions de tickets inattendues.
- Définissez des limites de taille minimale pour les groupes de nœuds gérés afin de maintenir des ressources suffisantes.
- Étudiez les options de sauvegarde et de basculement pour améliorer la fiabilité du service.
- Terminez la relocalisation des comptes pour réduire l’exposition aux échecs régionaux.
- Envisagez de réduire les appels API inutiles afin de minimiser l’impact sur les utilisateurs en cas d’échecs de la plateforme.
- Limitez l’intégration des événements à ceux qui sont visibles dans l’interface afin de réduire la charge de la base de données pendant les incidents.
- Examinez la portée de l'impact pour comprendre pourquoi les clients hors des régions affectées ont rencontré des problèmes.
- Confirmez les dépendances avec les services tiers et leurs capacités de basculement.
- Mettez les guides à jour avec des procédures de secours et d’alerte pertinentes.
- Assurez-vous que les guides utilisables pendant tous les incidents sont accessibles.
- Améliorez les outils de surveillance du déploiement et les politiques de blocage pour éviter les déclencheurs incorrects.
- Communiquez avec des fournisseurs cloud pour améliorer la précision des alertes et réduire les distractions dans la surveillance.
- Augmentez l’allocation de la mémoire pour les proxys critiques afin d’améliorer la stabilité.
- Séparez les alertes d’absence de données des systèmes de traitement des tâches pour éviter les fausses alertes.
POUR EN SAVOIR PLUS
Pour des informations sur le statut actuel du système au sujet de Zendesk et de l’impact spécifique de votre compte, consultez notre page de statut du système.. Vous pouvez vous abonner à cet article pour être averti de la publication de notre rapport. Si vous avez des questions au sujet de cet incident, contactez assistance client Zendesk.
Traduction - exonération : cet article a été traduit par un logiciel de traduction automatisée pour permettre une compréhension élémentaire de son contenu. Des efforts raisonnables ont été faits pour fournir une traduction correcte, mais Zendesk ne garantit pas l’exactitude de la traduction.
Si vous avez des questions quant à l’exactitude des informations contenues dans l’article traduit, consultez la version anglaise de l’article, qui représente la version officielle.