RESUMO
De 09/02/2024, 20:32 UTC, a 09/02/2024, 22:29 UTC, os clientes do Support no pod 13 tiveram um problema que resultou em alguns tickets que não exibiam os selos de SLA.
POST-MORTEM
Análise da causa raiz
Durante esse incidente, um dos dezesseis pods do Kubernetes no pod 13 teve uma reinicialização não planejada e apresentou defeito. A mensagem de erro indicava problemas com a "autoridade da cadeia de conexão", interrompendo o host "redis", uma dependência crítica para nosso Metric Event Service (MES). Essa interrupção gerava complicações no processamento de eventos de ticket, principalmente causando a ausência ou atraso de eventos de Service Level Agreement (SLA) (Contrato de nível de serviço). Suspeitamos que o kpod foi reiniciado inadvertidamente devido a uma implementação ou alteração de configuração. Quando o problema ocorreu, nossa meta imediata era corrigir o serviço principal, o que exigia uma redefinição rápida do sistema. Esse processo não nos deu tempo para registrar imediatamente os detalhes da unidade do sistema com defeito. No entanto, posteriormente, conseguimos reproduzir o erro em um ambiente de teste seguro, introduzindo deliberadamente uma falha, o que nos ajudou a entender melhor o problema.
Resolução
Depois que o problema foi identificado, o kpod foi reimplantado, o que resolveu o problema. Os eventos de SLA ausentes foram preenchidos.
Observação:o preenchimento/restauração de dados que foi executado para resolver SLAs quebrados em tickets abertos teve o efeito colateral de remover completamente os dados de SLA em tickets fechados, o que resulta em dados de SLA nulos no Explore.
Itens de correção
- Explore maneiras melhores de organizar e transmitir variáveis de ambiente para garantir a prontidão sempre que as unidades do sistema forem reiniciadas
- Melhore o tempo de resposta para corrigir contratos de nível de serviço (SLAs) quebrados atualizando nosso "funfiller"
- Analisar o monitoramento e os alertas
- Investigue novamente o método de transmissão de variáveis de ambiente para garantir sua disponibilidade sempre que as unidades do sistema forem reiniciadas
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.