RESUMO
Em 6 de março, das 13h33 UTC às 14h15 UTC, os clientes não conseguiram carregar o Explore, recebendo erros 502 de gateway incorreto.
Linha do tempo
15:02 UTC | 07:02 PT
Como recebemos confirmações de que os clientes não estão mais recebendo erros de servidor ao tentar acessar o Explore e nosso back-end também não apresenta mais erros, estamos considerando esse incidente como resolvido. Agradecemos sua paciência enquanto resolvíamos essa interrupção.
14:24 UTC | 06:24 PT
Estamos vendo melhorias no número de carregamentos de página e recebendo confirmação de que o Explore agora está corretamente acessível e carregando após uma atualização de página. Solicitamos que você recarregue o Explore e nos informe se ainda tiver problemas. Agradecemos sua paciência e ajuda.
14:15 UTC | 06:15 PT
Os clientes do Explore nos pods 17, 18, 28 e 29 devem ser os únicos afetados pelos problemas nesse momento. Continuamos trabalhando para restaurar o acesso. Mais atualizações em 30 minutos ou quando tivermos mais detalhes.
14:04 UTC | 06:04 PT
No momento, estamos investigando relatórios de problemas de não carregamento do Explore para clientes em vários pods. A investigação está em andamento.
POST-MORTEM
Análise da causa raiz
Em 6 de março de 2024, os usuários que tentavam acessar o Explore encontraram erros devido a um processo iniciado para atualizar o sistema em segundo plano. Esse processo causava problemas temporários de "travamento" em nosso banco de dados, resultando em erros para nossos usuários. O problema começou às 13h22 UTC e foi resolvido às 14h07 UTC.
Nossa equipe de engenharia estava trabalhando em um novo recurso projetado para fornecer estatísticas de uso aos usuários. Para tornar esse recurso mais eficiente, um novo processo foi introduzido. Esse processo envolvia a atualização de uma tabela em nosso banco de dados sempre que um painel era acessado, reduzindo a repetição de cálculos. O problema surgiu quando esse processo começou a preencher registros históricos para painéis existentes.
O incidente foi causado principalmente pelo processo que foi iniciado para preencher registros históricos. Esse processo causava "bloqueios" prolongados em nosso banco de dados, resultando em tempos limite e erros.
Resolução
Depois que as consultas paradas foram limpas e após a reinicialização do aplicativo Rails, as operações normais do Explore foram retomadas.
Itens de correção
- Analisar o processo de preenchimento
- Atualizar manual do processo de preenchimento
- Processar registros de dashboard_views de maneira assíncrona
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.