RESUMO
Em 9 de agosto de 2024, das 15h46 UTC às 15h57 UTC, os clientes do Support no pod 17 tiveram vários problemas, como códigos de erro, tempos de carregamento lentos e incapacidade de abrir tickets ou visualizar mensagens na interface do usuário do produto.
Linha do tempo
09 de agosto de 2024 16h13 UTC | 09 de agosto de 2024 09:13 PT
Estamos investigando os relatórios de usuários que não conseguem visualizar os tickets do Support no pod 17 e já estamos vendo a recuperação. Forneceremos atualizações adicionais em 30 minutos ou antes, conforme confirmarmos a estabilidade total.
09 de agosto de 2024 16:32 UTC | 09 de agosto de 2024 09:32 PT
Das 15h46 UTC às 15h57 UTC, os clientes do Support no pod 17 tiveram problemas para carregar os tickets. O desempenho se estabilizou e continuaremos a monitorá-lo. Próxima atualização em uma hora ou quando tivermos novas informações.
09 de agosto de 2024 16h51 UTC | 09 de agosto de 2024 09:51 PT
Os problemas de desempenho do Support que ocorreram no pod 17, das 15h46 UTC às 15h57 UTC, foram totalmente resolvidos. Pedimos desculpas por qualquer inconveniente causado e agradecemos sua paciência.
POST-MORTEM
Análise da causa raiz
Esse incidente foi causado pela reinicialização inesperada de um sistema que acelera a recuperação de dados armazenando informações em cache na memória. Devido a uma resposta inadequada a essa falha, o componente Gráfico do agente continuou a aguardar até 60 segundos por uma resposta, causando erros de tempo limite e resultando em erros de serviço 503. Os fatores que contribuem incluem que o sistema não mudou para uma fonte de dados alternativa em tempo hábil e os monitores no local não dispararam alertas porque o problema foi resolvido antes de atingir os limites.
Resolução
Para corrigir esse problema, o sistema se recuperou automaticamente quando o sistema de cache de memória voltou a ficar online. Identificamos que a reinicialização desse sistema causou os atrasos e foi confirmado que o problema foi resolvido automaticamente, não exigindo intervenção manual imediata para restaurar o serviço.
Itens de correção
- Tempo limite reduzido para recuperação do cache do usuário.
- Considere realizar um teste de caos para simular essas falhas em um ambiente controlado.
- Revise e ajuste os limites de alerta para garantir uma detecção e um tempo de resposta mais rápidos.
- Entre em contato com a AWS para investigar a reinicialização inesperada do sistema de cache de memória e evitar ocorrências futuras semelhantes.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários