RESUMO
Em 7 de agosto de 2024, das 17h UTC a 8 de agosto de 2024, 16h45 UTC, alguns clientes nos pods 17, 18, 28 e 29 tiveram erros ao tentar criar novos relatórios usando o recurso Explore. Isso afetou sua capacidade de gerar insights e acessar relatórios de dados críticos.
Linha do tempo
08 de agosto de 2024 15h35 UTC | 08 de agosto de 2024 08:35 PT
Estamos investigando relatórios de clientes do Explore com um grande número de conjuntos de dados que não conseguiram criar novos relatórios e conjuntos de dados. Como solução alternativa, você pode criar um novo relatório clonando um relatório existente e editando esse relatório. No entanto, você ainda não poderá criar novos conjuntos de dados. Próxima atualização em 30 minutos ou quando tivermos novas informações.
08 de agosto de 2024 16:00 UTC | 08 de agosto de 2024 09:00 PT
Nossos engenheiros continuam investigando um problema que afeta a capacidade de criar novos relatórios e conjuntos de dados do Explore. Reduzimos o escopo do impacto para os pods 17, 18, 28, 29 e 31. Próxima atualização em uma hora ou quando tivermos novas informações para compartilhar.
08 de agosto de 2024 16:54 UTC | 08 de agosto de 2024 09:54 PT
Nossos engenheiros continuam focados em resolver o problema que afeta a criação de novos relatórios e conjuntos de dados do Explore. Forneceremos a próxima atualização em 2 horas ou quando tivermos novas informações para compartilhar.
08 de agosto de 2024 17h21 UTC | 08 de agosto de 2024 10h21 PT
Nossos engenheiros implementaram uma correção e confirmamos que agora você pode criar novos relatórios e conjuntos de dados. O problema foi totalmente resolvido. Entre em contato conosco se você continuar tendo problemas.
POST-MORTEM
Análise da causa raiz
Esse incidente foi causado por uma degradação de desempenho após uma atualização de nossa infraestrutura de banco de dados fornecida por nosso parceiro. A atualização removeu o cache de consultas do qual nosso sistema dependia anteriormente, diminuindo significativamente a velocidade de algumas consultas cruciais para o recurso Explore.
Resolução
Para corrigir esse problema, analisamos as consultas problemáticas e implementamos estratégias de indexação eficazes. Essa ação imediata restaurou o desempenho da consulta para os níveis esperados, resolvendo os erros que os clientes estavam enfrentando.
Itens de correção
- Melhore o sistema de monitoramento com alertas específicos centrados nas latências de consultas SQL para detectar problemas de desempenho antecipadamente.
- Comunicou a descontinuação do cache de consultas para outras equipes, garantindo que elas estejam cientes dos possíveis impactos e possam tomar medidas preventivas.
- Investigue a otimização de consultas substituindo instruções "not in" por valores boolianos para alinhar com as novas versões do banco de dados.
- Investigue a implementação de soluções de cache usando o cache elástico ou ProxySQL para resultados de consultas repetidas a fim de evitar problemas semelhantes no futuro.
- Certifique-se de que todas as alterações, melhorias e processos sejam totalmente documentados no Confluence para compartilhar conhecimento e se preparar para eventos futuros semelhantes.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.