RESUMO
Em 2 de maio de 2024, das 13h35 UTC às 14h25 UTC, alguns clientes tiveram dificuldades para usar os serviços da Zendesk. Isso inclui desempenho lento e erros internos ocasionais do servidor ao tentar acessar nossos produtos em vários pods. Durante esse período, o impacto foi particularmente significativo para os clientes no Pod 23, onde os usuários podem ter encontrado atrasos ou problemas ao usar a interface do agente do Support, as mensagens do Sunshine Conversations, o Chat, o Talk, o Explore, o Sell e o Guide. Além disso, houve um impacto mais amplo nos serviços de mensagens em todos os pods.
Linha do tempo
02 de maio de 2024 14h20 UTC | 02 de maio de 2024 07:20 PT
No momento, estamos investigando vários problemas com o Sunshine Conversations, AW Messaging e outros produtos para clientes em vários pods. Mais atualizações a seguir.
02 de maio de 2024 14h35 UTC | 02 de maio de 2024 07:35 PT
Estamos trabalhando ativamente para resolver a lentidão geral e os erros internos do servidor que afetam vários produtos devido a esse incidente de serviço contínuo, que afeta os clientes em todos os pods. Agradecemos sua paciência. Próxima atualização em 30 minutos.
02 de maio de 2024 14h50 UTC | 02 de maio de 2024 07:50 PT
Implementamos uma correção para o problema e estamos observando melhorias nos registros. O acesso a todos os produtos deve ser restaurado agora. Certifique-se de atualizar seu navegador e limpar o cache e os cookies, se necessário. Agradecemos sua paciência.
02 de maio de 2024 15:30 UTC | 02 de maio de 2024 08:30 PT
Estamos monitorando esse incidente e não vemos mais problemas relacionados a ele após a implementação da correção. Estamos marcando isso como totalmente resolvido agora.
POST-MORTEM
Análise da causa raiz
O problema foi causado por uma falha em nosso processo de atualização de serviço que fez com que algumas partes de nossa infraestrutura não estivessem prontas para lidar com o tráfego, o que resultou em redução da capacidade.
Resolução
Para corrigir esse problema, nossos engenheiros redirecionaram o tráfego interno para ignorar a infraestrutura afetada, o que nos permitiu restaurar o serviço completo às 14h25 UTC.
Itens de correção
- Melhorar nosso processo de atualização de infraestrutura para garantir que quaisquer problemas sejam detectados e resolvidos antes que afetem os clientes.
- Melhorar a capacidade do nosso sistema de lidar com o tráfego durante atualizações de rotina.
- Adicione novas verificações para monitorar a integridade de nossos serviços com mais eficiência.
- Trabalhar para melhorar a coordenação entre os diferentes componentes de nossa infraestrutura de serviço.
- Analise o impacto em todos os serviços para entender por que eles foram afetados e evitar problemas semelhantes no futuro.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.