RESUMO
Em 27 de agosto de 2024, das 16h30 UTC às 22h30 UTC, os clientes do Support nos pods 19, 20 e 27 tiveram atrasos nos webhooks e no disparo de gatilhos, o que afetou as atualizações de tickets e a comunicação com os usuários finais.
Linha do tempo
27 de agosto de 2024 20h03 UTC | 27 de agosto de 2024 13h03 PT
Estamos investigando relatórios de gatilhos atrasados do Support e disparo de webhooks. Próxima atualização em 30 minutos ou quando tivermos novas informações para compartilhar.
27 de agosto de 2024 20h27 UTC | 27 de agosto de 2024 13h27 PT
Os atrasos no webhook e nos gatilhos estão afetando os clientes do Support nos pods 19, 20 e 27. Nossos engenheiros estão envolvidos e investigando. Próxima atualização em 30 minutos ou quando tivermos novas informações para compartilhar.
27 de agosto de 2024 20h56 UTC | 27 de agosto de 2024 13h56 PT
Nossos engenheiros continuam investigando os atrasos no webhook e nos gatilhos que afetam os clientes do Support nos pods 19, 20 e 27. Próxima atualização em 1 hora ou quando tivermos novas informações para compartilhar.
27 de agosto de 2024 21h24 UTC | 27 de agosto de 2024 14h24 PT
Estamos vendo melhorias nos atrasos de webhook no pod 19 e continuando a trabalhar no processamento da lista de pendências de webhooks nos pods 20 e 27. Próxima atualização em 1 hora ou quando tivermos novas informações para compartilhar.
27 de agosto de 2024 22h03 UTC | 27 de agosto de 2024 15h03 PT
A lista de pendências de webhooks nos pods 19 e 20 foi totalmente processada e não deve haver mais atrasos nesses pods. Ainda estamos processando a lista de pendências de webhooks no pod 27 e forneceremos uma atualização assim que a lista de pendências estiver limpa.
27 de agosto de 2024 22h40 UTC | 27 de agosto de 2024 15h40 PT
A lista de pendências de webhooks nos pods 19, 20 e 27 foi totalmente processada e não deve haver mais atrasos nesses pods. O problema foi totalmente resolvido.
POST-MORTEM
Análise da causa raiz
O incidente foi causado principalmente por um aumento repentino no tráfego devido a uma importação em massa de usuários por um cliente grande. Esse pico fez com que o sistema de webhooks atingisse seu limite de taxa de transferência, causando atrasos significativos. Além disso, no pod 27, o mecanismo de dimensionamento automático não conseguiu lidar adequadamente com o aumento do tráfego, agravando ainda mais os atrasos.
Resolução
Para corrigir esse problema, o expedidor de webhooks e a zona de saída não confiável (UEZ) foram dimensionados para lidar com o pico de tráfego. Além disso, foi solicitado que o cliente específico diminuísse suas operações. Depois que os ajustes de dimensionamento necessários foram feitos, a lista de pendências começou a diminuir e o serviço normal foi restaurado gradualmente em todos os pods afetados.
Itens de correção
- Defina políticas de dimensionamento automático horizontal para serviços de webhooks. [EM ANDAMENTO]
- Investigue o aprimoramento da lógica de limitação de taxa para dar conta de um único cliente com muitos subdomínios. [AGENDADO]
- Investigue e corrija o problema de escalonamento automático do nível de saída segura no pod 27. [AGENDADO]
- Otimize o processo de implantação e alteração de configuração para reduzir o atrito durante resoluções de emergência. [EM ANDAMENTO]
- Implemente opções de interrupção específicas de subdomínio para Webhooks. [EM ANDAMENTO]
- Adicione alertas de monitoramento para sinalizar quando a lista de pendências dos webhooks ou a latência de entrega ficar muito grande. [AGENDADO]
- Documente publicamente os limites de taxa dos webhooks para informar os clientes e gerenciar o tráfego preventivamente. [AGENDADO]
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários