RESUMO
Entre 9 de novembro de 2023, das 3h UTC a 10 de novembro de 2023, 10h UTC, os clientes do Explore na região dos EUA (vários pods) tiveram atrasos na atualização de dados para conjuntos de dados históricos.
Linha do tempo
19:18 UTC | 11:18 PT (9 de novembro)
No momento, as contas do Explore na região dos EUA estão enfrentando atrasos na atualização de dados de conjuntos de dados históricos. Os recursos de consulta e relatórios do Explore estão disponíveis normalmente e os conjuntos de dados em tempo real não são afetados. A investigação da causa raiz ainda está em andamento, portanto, não temos um ETA para quando o atraso será resolvido.
11:27 UTC | 03:27 PT (10 de novembro)
Implementamos uma correção para os atrasos de atualização de dados para conjuntos de dados históricos na região dos EUA do Explore e os clientes não devem mais ter atrasos. Agora, consideraremos esse incidente como resolvido. Agradecemos sua colaboração.
POST-MORTEM
Análise da causa raiz
O incidente foi causado por uma falha do serviço de estatísticas da conta em fornecer informações corretas sobre os volumes de dados da conta para várias contas, de modo que as contas foram relatadas como menores do que seu tamanho real. Isso, por sua vez, fazia com que os sistemas de ETL do Explore alocassem menos recursos de computação do que o necessário para processar atualizações delta regulares para essas contas, resultando em um processamento mais lento e em alguns casos de pipelines de dados com falha ou tempo limite excedido.
Resolução
Para corrigir esse problema, o serviço de estatísticas da conta foi temporariamente alterado para uma fonte de dados de fallback com os dados corretos da conta. Isso restaurou a alocação correta de recursos nos sistemas de ETL do Explore. Os engenheiros do Explore também impulsionaram manualmente os recursos para desbloquear contas com longos atrasos no processamento de dados.
Itens de correção
- Crie alertas adicionais para picos nas alterações de classificação do tamanho da conta.
- Investigue a substituição da alocação de recursos do pipeline.
- Adicione a fase de validação aos pipelines de dados para detectar dados de origem ausentes ou anômalos.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários