Incidente de serviço - 9 de fevereiro de 2024 - Support | Pod 13 - Medalhas de SLA ausentes

RESUMO

De 09/02/2024, 20:32 UTC, a 09/02/2024, 22:29 UTC, os clientes do Support no pod 13 tiveram um problema que resultou em alguns tickets que não exibiam os selos de SLA.

POST-MORTEM

Análise da causa raiz

Durante esse incidente, um dos dezesseis pods do Kubernetes no pod 13 teve uma reinicialização não planejada e apresentou defeito. A mensagem de erro indicava problemas com a "autoridade da cadeia de conexão", interrompendo o host "redis", uma dependência crítica para nosso Metric Event Service (MES). Essa interrupção gerava complicações no processamento de eventos de ticket, principalmente causando a ausência ou atraso de eventos de Service Level Agreement (SLA) (Contrato de nível de serviço). Suspeitamos que o kpod foi reiniciado inadvertidamente devido a uma implementação ou alteração de configuração. Quando o problema ocorreu, nossa meta imediata era corrigir o serviço principal, o que exigia uma redefinição rápida do sistema. Esse processo não nos deu tempo para registrar imediatamente os detalhes da unidade do sistema com defeito. No entanto, posteriormente, conseguimos reproduzir o erro em um ambiente de teste seguro, introduzindo deliberadamente uma falha, o que nos ajudou a entender melhor o problema.

Resolução

Depois que o problema foi identificado, o kpod foi reimplantado, o que resolveu o problema. Os eventos de SLA ausentes foram preenchidos.

Observação:o preenchimento/restauração de dados que foi executado para resolver SLAs quebrados em tickets abertos teve o efeito colateral de remover completamente os dados de SLA em tickets fechados, o que resulta em dados de SLA nulos no Explore.

Itens de correção

Explore maneiras melhores de organizar e transmitir variáveis de ambiente para garantir a prontidão sempre que as unidades do sistema forem reiniciadas
Melhore o tempo de resposta para corrigir contratos de nível de serviço (SLAs) quebrados atualizando nosso "funfiller"
Analisar o monitoramento e os alertas
Investigue novamente o método de transmissão de variáveis de ambiente para garantir sua disponibilidade sempre que as unidades do sistema forem reiniciadas

PARA OBTER MAIS INFORMAÇÕES

Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.

Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.

Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.