RESUMO
Em 19 de fevereiro de 2024, das 12h10 e 12h35 UTC, um subconjunto de clientes em todos os pods, com sede principalmente na Índia, pode ter enfrentado atrasos na conectividade e aumento nos erros do servidor ao tentar carregar os produtos Zendesk.
Linha do tempo
13:18 UTC | 05:18 PT
Estamos cientes de relatórios de clientes sobre problemas de conectividade regional para agentes na Índia. Vemos que isso já se recuperou, mas continuaremos monitorando de perto até a resolução total.
14:55 UTC | 06:55 PT
Os clientes em todos os pods, mas apenas os baseados na região de Chennai, na Índia, podem ter encontrado atrasos na conectividade e um aumento nos erros de servidor HTTP 4xx/5xx ao tentar carregar o Zendesk. O problema afetou nosso provedor de CDN entre 12h10 e 12h35 UTC de hoje e agora é considerado totalmente resolvido. Agradecemos sua paciência.
POST-MORTEM
Análise da causa raiz
Esse incidente foi causado por complicações regionais do provedor de serviços de Internet (ISP) na Índia, que interromperam os recursos de encaminhamento de rede do data center de Chennai (colo) do provedor de CDN. Essa interrupção impediu a comunicação bem-sucedida com nossa infraestrutura, levando aos erros encontrados pelos usuários. Um fator secundário que exacerbou a situação foi a presença de medidas de remediação temporárias de um incidente anterior, que tinham como objetivo evitar o failover automático pelo projeto de resiliência da Internet para qualquer provedor de CDN colo na Índia. Consequentemente, isso também desativou nossa capacidade de realizar um failover manual durante a interrupção.
Resolução
Para corrigir esse problema, nosso provedor de CDN conseguiu redirecionar o tráfego afetado pelo colo de Chennai aproximadamente às 12h33 UTC, que restaurou o serviço às 12h35 UTC. Após a restauração, nenhum outro erro de HTTP 522 foi relatado. Além disso, o tráfego foi redirecionado no colo de Mumbai como precaução, mas nenhum efeito adverso foi observado com essa ação.
Itens de correção
- Ajuste nossos sistemas de monitoramento para garantir que eles possam fornecer alertas mesmo quando medidas de remediação específicas estiverem em vigor, permitindo uma detecção e resposta mais rápidas.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários