RESUMO
Em 02 de julho de 2024, das 08h10 UTC às 16h30 UTC, os clientes dos pods 17 e 18 encontraram um problema no qual o botão "Aceitar Chat" não respondia. O problema então se espalhou, fazendo com que os clientes em vários outros pods passassem por um erro "Não foi possível se conectar ao servidor" ao tentar abrir tickets. Isso causou uma interrupção significativa em sua capacidade de se comunicar e gerenciar tarefas de maneira eficaz no Espaço de trabalho do agente.
Linha do tempo
02 de julho de 2024 12h12 UTC | 02 de julho de 2024 05:12 PT
No momento, estamos investigando relatórios sobre o botão Aceitar do Chat para alguns clientes nos pods 17 e 18 que não está funcionando. Faremos outra atualização quando tivermos mais informações.
02 de julho de 2024 14h01 UTC | 02 de julho de 2024 07:01 PT
Estamos passando por diferentes problemas de chat/mensagens/espaço de trabalho do agente no momento e continuamos investigando todos os problemas. Agradecemos sua paciência.
02 de julho de 2024 14h51 UTC | 02 de julho de 2024 07:51 PT
Continuamos a resolver problemas que afetam a aceitação do Chat e das mensagens no Espaço de trabalho do agente para clientes nos pods 17 e 18 que veem o botão Aceitar do Chat não funcionar. Estamos explorando correções e testando opções para resolver totalmente esse problema.
02 de julho de 2024 15h28 UTC | 02 de julho de 2024 08:28 PT
Ainda estamos investigando a causa raiz do problema que afeta a aceitação do Chat e das mensagens no Espaço de trabalho do agente para clientes nos pods 17 e 18, impedindo o uso do botão "Aceitar Chat". Publicaremos informações adicionais em uma hora ou quando tivermos novas informações para compartilhar.
02 de julho de 2024 16h28 UTC | 02 de julho de 2024 09:28 PT
Nossa equipe continua investigando o problema que afeta a aceitação de chat e mensagens no Espaço de trabalho do agente para clientes nos pods 17 e 18, impedindo o uso do botão "Aceitar chat". Forneceremos mais atualizações em uma hora ou quando tivermos novas informações para compartilhar.
02 de julho de 2024 17h48 UTC | 02 de julho de 2024 10h48 PT
Aumentamos a capacidade dos serviços de mensagens nos pods 17 e 18 e estamos monitorando qualquer impacto adicional. Nossa equipe garantirá que nenhum outro problema seja visto ao aceitar chats e forneceremos atualizações adicionais à medida que confirmarmos a recuperação. Entre em contato conosco se você continuar tendo problemas para aceitar chats.
03 de julho de 2024 05:05 UTC | 02 de julho de 2024 22:05 PT
Após monitoramento adicional, temos a confirmação de que o problema que afeta a aceitação do Chat e das mensagens foi resolvido. Agradecemos sua paciência enquanto chegávamos a esse ponto.
POST-MORTEM
Análise da causa raiz
Durante uma atualização de nosso sistema de armazenamento atualizado, encontramos desafios de desempenho inesperados, resultando em um atraso no fornecimento de atualizações em tempo hábil. As dificuldades ocorreram em grande parte devido a problemas de processamento de consultas para ciclos de vida de conexão e assinatura, resultando em bloqueios do sistema de armazenamento e transações paralisadas. Essas complicações prejudicaram o desempenho do componente do sistema responsável pelo gerenciamento de dados e por facilitar as atualizações da interface do usuário em tempo real. Quando tentamos otimizar nosso processo focando apenas no sistema de armazenamento atualizado, um aumento inesperado no uso de energia de processamento sobrecarregou ainda mais nossos recursos.
Resolução
Para resolver o problema, implementamos uma abordagem multifacetada. Aumentamos o tamanho dos clusters de banco de dados em todos os pods e identificamos que os bloqueios de banco de dados e as transações bloqueadas estavam na raiz dos problemas de desempenho. Em resposta, aplicamos uma correção rápida para eliminar esses bloqueios, apesar de isso potencialmente levar a objetos de banco de dados órfãos. Por fim, fizemos uma reversão gradual que levou à estabilização do serviço de assinatura.
Itens de correção
- A remoção de bloqueios de banco de dados e a limpeza de assinaturas órfãs foram concluídas.
- Outras medidas incluem a adição de objetivos de nível de serviço (SLOs) para a criação de conexões e pontos de extremidade de criação de assinaturas. Isso é feito para monitorar e garantir um desempenho confiável do sistema no futuro.
- Discussão sobre o tempo de absorção no primeiro pod de produção após o canary pod para detectar problemas semelhantes anteriormente.
- Testes de carga de teste e práticas de manutenção envolvendo a limpeza e recriação de clusters seriam adotados para garantir que o sistema funcionasse de maneira otimizada.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários