RESUMO
Em 2 de julho de 2024, entre 18h20 e 18h44 UTC, nosso serviço Sunshine Conversations teve alta latência devido a um aumento inesperado no tráfego. Isso causava lentidão em nossos sistemas e gerava atrasos no processamento de mensagens.
Linha do tempo
02 de julho de 2024 22h12 UTC | 02 de julho de 2024 15:12 PT
O problema que afetava o desempenho do Answer Bot no pod 13 foi totalmente resolvido. Entre em contato conosco se você continuar tendo problemas.
02 de julho de 2024 21:07 UTC | 02 de julho de 2024 14h07 PT
Estamos vendo melhorias no desempenho do Answer Bot no pod 13 e continuaremos monitorando o desempenho. Fornecerá uma atualização final assim que o incidente for resolvido.
02 de julho de 2024 20h13 UTC | 02 de julho de 2024 13h13 PT
Nossos engenheiros estão investigando o problema que está causando a degradação do Answer Bot no pod 13. Faremos outra atualização quando tivermos novas informações para compartilhar.
02 de julho de 2024 19h47 UTC | 02 de julho de 2024 12:47 PT
Estamos investigando os relatórios de degradação do Answer Bot no pod 13. Faremos outra atualização quando tivermos mais informações.
POST-MORTEM
O incidente foi desencadeado por um aumento significativo no tráfego. Isso causava lentidão em nossos sistemas, resultando em atrasos e interrupções temporárias do serviço. Tomamos medidas imediatas para gerenciar o aumento da carga e restaurar as operações normais.
Análise da causa raiz
A principal causa foi um pico repentino de tráfego, que dobrou nosso tráfego normal e saturou nosso banco de dados, causando atrasos. Além disso, nosso serviço AnswerBot não conseguiu lidar com o aumento da carga, causando mais interrupções.
Resolução
Para mitigar o problema, aumentamos nosso banco de dados e o serviço AnswerBot, aumentando sua capacidade de lidar com o aumento. Isso nos permitiu restaurar as operações normais e processar a lista de pendências de mensagens.
Itens de correção
1. Ativar o dimensionamento automático: Implemente o dimensionamento automático de serviços críticos para lidar com picos repentinos de tráfego.
2. Apresentar disjuntores: Evite a sobrecarga de serviços reduzindo temporariamente o tráfego quando necessário.
3. Melhorar o monitoramento: Aprimore nossos sistemas de monitoramento para detectar e responder a problemas semelhantes mais rapidamente.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.