RESUMO
Em 13 de janeiro de 2025, das 11h07 UTC às 12h07 UTC, os clientes no pod 17 tiveram problemas com a não execução dos gatilhos de mensagens.
LINHA DO TEMPO
13 de janeiro de 2025 12h24 UTC | 13 de janeiro de 2025 04:24 PT
O problema recente de mensagens foi totalmente resolvido e nossos serviços voltaram à operacionalidade total! Agradecemos sua paciência durante esse período. Nossa equipe continuará monitorando nossos sistemas de perto para garantir que tudo funcione corretamente. Agradecemos seu apoio e estamos aqui para quaisquer perguntas ou feedback que você possa ter!
13 de janeiro de 2025 11h51 UTC | 13 de janeiro de 2025 03:51 PT
Estamos investigando problemas com gatilhos de mensagens em execução para nossos clientes no POD17.
POST-MORTEM
Análise da causa raiz
Esse incidente foi causado por encerramentos prematuros de clientes do serviço de eventos de registro de ticket de mensagens, que ocorreram enquanto o serviço ainda estava em execução. Como resultado, os clientes não conseguiram processar os eventos recebidos, resultando em uma interrupção completa na avaliação e execução dos gatilhos de mensagens no pod 17.
Resolução
Para resolver esse problema, identificamos o erro de configuração que definia o número máximo de registros a serem processados em um único lote como 500, em vez dos 250 previstos. Ao corrigir esse erro de digitação e reduzir o valor máximo de registros, nosso objetivo era diminuir a probabilidade de encerramentos do cliente devido a problemas de tempo limite.
Itens de correção
- Implemente uma verificação de integridade para detectar encerramentos prematuros de clientes.
- Crie um monitor para acompanhar o número de clientes em execução.
- Estabeleça um monitor para monitorar partições interrompidas para o consumidor de eventos de registro de ticket do Tessaging.
- Adicione um widget de status de atraso do consumidor ao painel Serviço de gatilho de mensagens.
- Crie uma nova métrica para medir o tempo necessário para processar um lote de mensagens do tópico de eventos de registro de ticket de mensagens.
Essas correções foram projetadas para aprimorar o monitoramento e evitar incidentes semelhantes no futuro, garantindo a estabilidade e a confiabilidade do Serviço de gatilho de mensagens.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações sobre o status atual do sistema sobre o Zendesk e impactos específicos em sua conta, visite nossa página de status do sistema. Você pode seguir este artigo para ser notificado quando nosso relatório post mortem for publicado. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários