RESUMO
Em 16 de janeiro de 2025, das 9h40 UTC às 10h47 UTC, alguns clientes do Chat no pod 19 tiveram problemas para visualizar chats recentes, receber e-mails de exportação de chat e criar tickets de chats.
LINHA DO TEMPO
16 de janeiro de 2025 11h26 UTC | 16 de janeiro de 2025 03:26 PT
Temos o prazer de informar que os problemas que afetam nosso serviço de Chat para nossos clientes no POD19 foram resolvidos. Agradecemos sua paciência e compreensão durante esse período.
16 de janeiro de 2025 11h UTC | 16 de janeiro de 2025 03:00 PT
Fizemos um progresso significativo na recuperação da funcionalidade, incluindo a capacidade de visualizar chats recentes, receber e-mails de exportação de chat e criar tickets. Continuaremos monitorando a situação de perto e trabalhando diligentemente para melhorar sua experiência. Agradecemos sua paciência e compreensão durante esse período.
16 de janeiro de 2025 10h39 UTC | 16 de janeiro de 2025 02:39 PT
No momento, estamos tendo um problema com nossos serviços de chat no Pod 19, que pode impedir que você visualize chats recentes, receba e-mails de exportação de chat e crie tickets. Nossa equipe está trabalhando ativamente para resolver esses problemas o mais rápido possível. Agradecemos sua paciência.
POST-MORTEM
Análise da causa raiz
Esse incidente foi causado porque um serviço de chat atingiu o limite de memória, o que levou a um ciclo de reinicialização contínuo. Cada reinicialização gerava metadados adicionais em nosso banco de dados na memória, causando um aumento na memória até que o sistema acabou ficando sem memória, afetando outros serviços que compartilhavam a mesma instância de banco de dados.
Resolução
Para resolver o problema, a equipe removeu metadados desnecessários e chaves não confirmadas do banco de dados para liberar memória. Além disso, os tipos de instância foram aumentados para acomodar a carga e uma implantação bem-sucedida do serviço foi concluída.
Itens de correção
- Adicionar alertas: Alertas implementados para condições de falta de memória (OOM) no serviço de chat.
- Ajustar limites de memória: O limite de memória foi reduzido para permitir uma intervenção antecipada antes de atingir níveis críticos.
- Melhorias no Runbook: Documentação e runbooks aprimorados para lidar com o serviço de chat e o gerenciamento de chaves do banco de dados.
- Agrupamento de banco de dados: Planejamos separar as instâncias do banco de dados para diferentes serviços a fim de evitar problemas de memória compartilhada no futuro.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações sobre o status atual do sistema sobre o Zendesk e impactos específicos em sua conta, visite nossa página de status do sistema. Você pode seguir este artigo para ser notificado quando nosso relatório post mortem for publicado. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários