RESUMO
Em 29 de agosto de 2024, das 08:32 UTC às 09:58 UTC, nossos clientes do Chat nos pods 13, 20 e 25 tiveram problemas, como incapacidade de entrar, mensagens de erro, atrasos nas transcrições do chat e histórico do Chat não sendo exibido. Clientes do Explore em todos os EUA Os pods tiveram atrasos na atualização de dados para os conjuntos de dados históricos e os clientes do pod 20 tiveram impacto em seus dados em tempo real.
Linha do tempo
29 de agosto de 2024 09h14 UTC | 29 de agosto de 2024 02:14 PT
No momento, estamos investigando vários problemas com o Chat para clientes nos pods 13, 20 e 25. O impacto inclui mensagens descartadas, tickets não criados, recursos de administração corrompidos e clientes que não conseguem entrar no chat. Faremos outra atualização em 15 minutos.
29 de agosto de 2024 09h30 UTC | 29 de agosto de 2024 02:30 PT
Continuamos investigando os problemas do Chat em vários pods com a prioridade mais alta e estamos trabalhando para encontrar a causa raiz disso. Os agentes do Chat que já estiverem conectados poderão continuar conversando, mas a transcrição será adiada e os chats não serão exibidos no histórico. Quaisquer configurações alteradas no Chat durante esse incidente não entrarão em vigor nos pods afetados. Faremos outra atualização em 30 minutos ou quando tivermos mais informações para compartilhar.
29 de agosto de 2024 09:59 UTC | 29 de agosto de 2024 02:59 PT
Continuamos nossa investigação sobre a causa raiz. Confirmamos que todos os clientes do Explore nos EUA sofrerão atrasos na atualização de dados dos conjuntos de dados históricos e que os clientes do Pod20 sofrerão impacto em seus dados em tempo real no Explore. Faremos outra atualização em 30 minutos ou quando tivermos mais informações.
29 de agosto de 2024 10h07 UTC | 29 de agosto de 2024 03:07 PT
Estamos começando a ver recuperação para os clientes no Chat e no Explore. Continuaremos a monitorar os serviços até a resolução completa. Atualizaremos você em 60 minutos ou quando soubermos mais.
29 de agosto de 2024 10h40 UTC | 29 de agosto de 2024 03:40 PT
O impacto inicial no Chat e o impacto estendido no Explore foram apagados e nossos serviços voltaram à operação normal. Com isso, estamos marcando esse incidente de serviço como resolvido. Agradecemos sua paciência enquanto trabalhávamos para resolver isso.
POST-MORTEM
Análise da causa raiz
A causa principal foi um problema de conectividade com um serviço terceirizado que fornece credenciais essenciais para nosso serviço de Chat. Quando nosso sistema tentou recarregar seus componentes, ele não conseguiu obter as credenciais necessárias, fazendo com que ele falhasse e reiniciasse continuamente.
Resolução
O problema foi resolvido depois que o serviço terceirizado restaurou sua conectividade. Nossos sistemas se recuperaram automaticamente e retomaram as operações normais logo em seguida.
Itens de correção
- Melhore a redundância e crie mais resiliência a interrupções de serviços de terceiros.
- Aprimore o monitoramento para detectar e responder a esses problemas mais rapidamente.
- Atualização de nosso sistema para lidar com problemas temporários de credenciais de maneira mais otimizada
PARA OBTER MAIS INFORMAÇÕES
Para obter informações atuais sobre o status do sistema do seu Zendesk, consulte nossa página de status do sistema. O resumo de nossa investigação post mortem geralmente é publicado aqui alguns dias após o término do incidente. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários