RESUMO
Durante esse incidente, alguns clientes do Explore em vários pods e regiões tiveram atrasos e informações desatualizadas no conjunto de dados Tickets no Explore.
Linha do tempo
10:38 UTC | 02:38 PT
Após a reversão, todas as tarefas de sincronização reprocessadas foram concluídas e as sincronizações de dados do Explore voltaram ao normal. Como tal, esse incidente foi resolvido. Agradecemos sua paciência durante nossa investigação.
00:18 UTC | 16:18 PT
Continuamos a reprocessar manualmente as tarefas de sincronização para os clientes afetados e forneceremos outra atualização quando tivermos informações importantes para compartilhar.
20:58 UTC | 12:58 PT
Concluímos a reversão de uma atualização do Explore que causou o atraso nas atualizações do conjunto de dados Tickets. Estamos reprocessando manualmente as tarefas de sincronização. Faremos outra atualização quando tivermos novas informações para compartilhar.
20:11 UTC | 12:11 PT
Encontramos uma possível causa raiz para os atrasos e erros de sincronização vistos hoje no conjunto de dados Tickets para alguns clientes do Explore em uma atualização lançada recentemente. Estamos trabalhando para reverter essa atualização e monitorando os resultados. Forneceremos mais atualizações assim que tivermos novas descobertas para compartilhar.
19:06 UTC | 11:06 PT
Ainda estamos investigando os problemas que causam atrasos e erros de sincronização no conjunto de dados Ticket no Explore em vários pods e regiões. Nossas equipes fizeram algum progresso, mas ainda há atrasos em algumas contas. Continuaremos a publicar novas informações à medida que as encontrarmos.
18:10 UTC | 10:10 PT
Nossa equipe continua investigando o problema que causa atrasos e erros de sincronização no conjunto de dados Tickets para alguns clientes do Explore em vários pods e regiões. Forneceremos mais atualizações conforme a investigação avança.
17:40 UTC | 09:40 PT
Confirmamos um problema que está causando atrasos e erros de sincronização no conjunto de dados Tickets no Explore em vários pods e regiões. Nossa equipe está investigando e publicaremos informações adicionais assim que soubermos mais.
17:29 UTC | 09:29 PT
Estamos investigando relatórios de atrasos na sincronização do Explore no conjunto de dados Tickets em vários pods e regiões. Faremos mais atualizações em breve.
POST-MORTEM
Análise da causa raiz
Segundo plano: Temos um sistema (Explore ETL) que coleta dados regularmente para nossos clientes. Esse sistema lida com o processo real de coleta de dados. Os dados coletados são armazenados e processados posteriormente. Ocorreu um problema com a coleta de dados de uma conta com uma quantidade consideravelmente grande de dados por ticket. Essa grande quantidade de informações levava à saturação da memória, causando erros e retardando o processamento de dados.
Além disso, uma atualização recente de manutenção do servidor alterou a forma como a coleta de lixo da memória era executada, levando a um aumento no consumo de memória, o que exacerbou o problema.
Resolução
Ao identificar os problemas, tentamos gerenciar a sobrecarga priorizando tarefas e reiniciando os servidores. Após mais investigações e assistência de outras equipes, identificamos o problema de atualização do servidor como o culpado e revertemos para uma versão anterior. O processamento da tarefa voltou ao normal.
Itens de correção
Nossas próximas etapas são evitar esses incidentes no futuro, adotando várias medidas:
1. Restrinja o tamanho da carga para os dados do ticket.
2. Reavalie a atualização de manutenção do servidor, considerando o aumento do consumo de memória com a nova operação de coleta de lixo.
3. Aprimore nosso ambiente de teste para imitar melhor a carga de produção e testar com precisão cenários como esse.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários