Resumo
Em 18 de dezembro de 2023, das 22h25 UTC às 23h18 UTC, os clientes do Zendesk Chat e Support (mensagens) em todos os pods podem ter enfrentado vários problemas, incluindo erros de chat e mensagens, desconexões, problemas de login e incapacidade de alterar o status do agente.
Linha do tempo
23:03 UTC | 15:03 PT
Estamos investigando relatórios de problemas de conectividade do Chat. Faremos outra atualização em 15 minutos.
23:20 UTC | 15:20 PT
Nossa equipe continua investigando problemas em vários pods que afetam vários recursos no Chat, chat por redes sociais e mensagens (espaço de trabalho do agente do Support). Atrasos de chat/mensagens, problemas de acesso, encaminhamento de mensagens e chats e outros recursos podem ser afetados. Próxima atualização em 30 minutos.
23:42 UTC | 15:42 PT
Nossos engenheiros reiniciaram um servidor do Chat não íntegro e agora estão em processo de recuperação. Continuaremos monitorando o desempenho e forneceremos outra atualização quando tivermos mais informações para compartilhar.
00:49 UTC | 16:49 PT
O Chat e as mensagens se recuperaram totalmente do problema de servidor de hoje. Nossas equipes continuarão monitorando o desempenho e trabalhando para restaurar os chats históricos recuperáveis que não foram recuperados automaticamente. Enviaremos uma mensagem final quando esse trabalho for concluído nas próximas horas.
01:24 UTC | 17:24 PT
Nossas equipes restauraram todos os chats históricos recuperáveis que não foram recuperados durante a interrupção do serviço de ontem. Agradecemos sua paciência e pedimos desculpas pelo inconveniente causado por esse problema.
POST-MORTEM
Análise da causa raiz
Esse incidente foi causado por uma única falha do host do chat em tempo real na infraestrutura de nosso provedor de hospedagem. Isso resultou em uma interrupção do serviço de chat/mensagens para os clientes atendidos por esse host de back-end específico.
Resolução
Para corrigir esse problema, nossa equipe reiniciou o host afetado. A recuperação de mensagens não entregues afetadas durante a interrupção foi concluída após a restauração do serviço.
Itens de correção
- Melhore o tempo de recuperação quando ocorrer uma falha da instância atualizando os runbooks para iniciar os procedimentos de ciclo de energia mais cedo [Programado]
- Acesso às ferramentas de atualização para engenheiros de plantão [Programado]
- Introduzir alertas adicionais para detectar falhas de instância [Em andamento].
- Transferir a prioridade das migrações da conta do pod para reduzir o raio de impacto [Em andamento].
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, registre um ticket conosco por mensagens do ZBot no Widget.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários