SOMMAIRE
De 2024-02-09 20:32 UTC à 2024-02-09 22:29 UTC, les clients Support utilisant le Pod 13 ont rencontré un problème : certains tickets n’affichaient pas de badges SLA.
APRÈS LE TEMPS DE
Analyse de la cause
Pendant cet incident, un des 16 pods Kubernetes du Pod 13 a connu un redémarrage imprévu et a fonctionné à bloc. Le message d’erreur indiquait des problèmes avec l’« autorité de chaîne de connexion », perturbant l’hôte « redis », une dépendance critique pour notre Service d’événements de mesures (MES). Cette perturbation a compliqué le traitement des événements de tickets, ce qui provoque l’absence ou le retard des événements Service Level Agreement (SLA) (Accord sur les niveaux de service). Nous suspectons que le Kpod a été redémarré par inadvertance en raison d’un déploiement ou d’une modification de la configuration. Lorsque le problème est survenu, notre objectif immédiat a été de résoudre le problème principal, ce qui nécessitait une réinitialisation rapide du système. Ce processus ne nous a pas donné le temps d’enregistrer immédiatement les détails de l’unité système qui fonctionnait. Cependant, plus tard, nous avons réussi à reproduire l’erreur dans un environnement de test sûr en introduisant volontairement un défaut, ce qui nous a aidés à mieux comprendre le problème.
Résolution
Une fois le problème identifié, le Kpod a été redéployé, ce qui a permis de résoudre le problème. Les événements SLA manquants ont ensuite été remplis.
Remarque :le remplissage/rétablissement des données qui a été exécuté pour résoudre les SLA non respectés sur les tickets ouverts a eu pour effet de supprimer complètement les données SLA des tickets clos, ce qui génère des données SLA « Nul » dans Explore.
Éléments de correction
- Explorez de meilleures façons d’organiser et de transférer les variables d’environnement pour garantir que vous êtes prêt au redémarrage des unités système
- Améliorez les délais pour corriger les accords sur les niveaux de service (SLA) non respectés en mettant à jour votre « funfiller ».
- Examiner la surveillance et les alertes.
- Réessayez la méthode de transfert des variables d’environnement pour vous assurer de leur disponibilité à chaque redémarrage des unités système.
POUR EN SAVOIR PLUS
Pour des informations sur le statut actuel de votre Zendesk, consultez notre page de statut du système. Le résumé de notre enquête rétrospective est généralement affiché ici quelques jours après la fin de l’incident. Si vous avez d’autres questions au sujet de cet incident, envoyez un ticket via la messagerie ZBot au sein du Web Widget.
Traduction - exonération : cet article a été traduit par un logiciel de traduction automatisée pour permettre une compréhension élémentaire de son contenu. Des efforts raisonnables ont été faits pour fournir une traduction correcte, mais Zendesk ne garantit pas l’exactitude de la traduction.
Si vous avez des questions quant à l’exactitude des informations contenues dans l’article traduit, consultez la version anglaise de l’article, qui représente la version officielle.