RESUMO

Em 20 de outubro de 2025, entre 06:49 UTC e 23:41 UTC, recebemos 1.308 relatórios de clientes com problemas em vários produtos Zendesk. Essas interrupções foram causadas por falhas nas integrações de aplicativos durante uma interrupção significativa da AWS US East.

Linha do tempo

Outubro 20, 2025 07:59 AM UTC | Outubro 20, 2025 12:59 PM PST

Estamos cientes de que temos um problema em vários serviços da Zendesk. Nossa equipe de engenheiros está fazendo o possível para resolver o problema. Forneceremos uma atualização após 30 minutos. Agradecemos sua paciência.

Outubro 20, 2025 08:32 AM UTC | Outubro 20, 2025 01:32 AM PST

Pedimos sinceras desculpas pela interrupção em andamento e nossos engenheiros estão resolvendo ativamente esse incidente. Forneceremos uma atualização assim que tivermos informações significativas para compartilhar. Obrigado pela sua compreensão e paciência.

Outubro 20, 2025 09:49 AM UTC | Outubro 20, 2025 02:49 AM PST

Nossos engenheiros identificaram um problema originado de nosso provedor upstream que está afetando vários produtos Zendesk, incluindo Chat, Voz, Análise, SunCo, Sunshine Platforms, Central de contatos e soporte. Estamos vendo melhorias, mas os clientes podem passar por um período de degradação do desempenho. Agradecemos sua paciência e forneceremos atualizações conforme elas estiverem disponíveis.

Outubro 20, 2025 11:08 AM UTC | Outubro 20, 2025 04:08 AM PST

Observamos uma recuperação parcial em nossos produtos Zendesk após o problema causado por nosso provedor upstream. Nossa equipe de engenheiros continua trabalhando diligentemente para restaurar todo o serviço em todas as áreas afetadas. Pedimos desculpas por qualquer inconveniente que isso possa causar e agradecemos sua paciência. As atualizações serão fornecidas conforme estiverem disponíveis.

Outubro 20, 2025 02:28 PM UTC | Outubro 20, 2025 07:28 PM PST

Observamos uma recuperação significativa na maioria dos produtos Zendesk; no entanto, os clientes do AMER e do APAC Explore podem continuar tendo dados obsoletos em relatórios de análise em tempo real e históricos. Além disso, há problemas contínuos com sessões de chamada e acesso a dados vinculados a um problema do provedor upstream. Nossa equipe de engenharia está trabalhando estreitamente com a operadora para acelerar a correção e está tomando medidas proativas para restaurar totalmente todos os serviços antes dos períodos de pico de uso. Pedimos desculpas por qualquer interrupção que isso possa causar e agradecemos sinceramente sua paciência contínua. Outras atualizações serão fornecidas conforme elas estiverem disponíveis.

Outubro 20, 2025 03:20 PM UTC | Outubro 20, 2025 08:20 PM PST

Estamos abordando ativamente uma interrupção com nosso provedor de nuvem que afeta vários produtos e pods da Zendesk, principalmente nos pods 19 e 23. Outros impactos incluem o Explore no AMER e APAC, o Talk em todos os pods, Agentes de IA, Sunshine Conversations e alguma degradação no encaminhamento omnichannel e no Chat. Pedimos desculpas por quaisquer notificações perdidas anteriormente e forneceremos atualizações dentro de uma hora ou assim que novas informações surgirem.

Outubro 20, 2025 04:30 PM UTC | Outubro 20, 2025 09:30 PM PST

Continuaremos trabalhando com nosso provedor de nuvem sobre os problemas que afetam vários produtos Zendesk. Pedimos desculpas por não termos uma atualização substancial ou positiva sobre a recuperação total, mas queremos manter você atualizado sobre o mais recente. Agradecemos sua paciência e compreensão enquanto trabalhamos nessa grave interrupção do serviço. Enviaremos atualizações conforme elas estiverem disponíveis.

Outubro 20, 2025 10:05 PM UTC | Outubro 20, 2025 3:05 PM PST

Nosso provedor de nuvem parceiro indicou que está vendo melhorias significativas e nosso monitoramento e registro está mostrando recuperação quase total nos produtos Zendesk. Enquanto estamos abordando a resolução de uma perspectiva de estabilidade, há uma lista significativa de atividades pendentes da janela de impacto que ainda está sendo processada. Os dados do Explore e as gravações de chamadas do Talk serão reabastecidos gradualmente nas próximas horas e faremos o acompanhamento quando confirmarmos que atingimos a resolução total. Agradecemos sua paciência durante nossa investigação.

Outubro 20, 2025 11:35 PM UTC | Outubro 20, 2025 4:35 PM PST

Todos os serviços da Zendesk foram restaurados e estão estáveis. Os dados do Explore continuarão sendo atualizados nas próximas horas conforme processamos a lista de pendências criada durante o incidente. Nenhuma ação do cliente é necessária. Os relatórios do Explore permanecem disponíveis normalmente, embora a atualização dos dados possa demorar até que a lista de pendências seja limpa. Obrigado pela sua paciência enquanto trabalhávamos para resolver este problema.

Análise de causa principal

Esse incidente foi causado por uma interrupção significativa na AWS US East (us-east-1), que levou a falhas na resolução de endereços de rede e escassez de capacidade do sistema, interrompendo os serviços da infraestrutura principal da Zendesk. Além disso, os desequilíbrios de recursos em alguns pods surgiram devido a limitações dentro das zonas de disponibilidade da AWS. 

Resolução

Para resolver o problema, a equipe de engenharia coordenou os esforços com o AWS Support e implementou várias correções, incluindo dimensionamento de recursos, liberação manual e reinicialização de processos de dados importantes. Ao longo da resposta, os clientes foram informados e a recuperação total de todos os serviços principais foi confirmada.

Itens de reparação

  1. Adicione tempo limite às chamadas do banco de dados para evitar atrasos e garantir que as chamadas com falha não desliguem o sistema.
  2. Desenvolva métodos de fallback para obter versões de aplicativos e ativos para lidar com interrupções de banco de dados com facilidade.
  3. Investigar falhas de tarefa causadas por dados ausentes e melhorar a validação para evitar esses erros; garanta que as métricas relacionadas sejam monitoradas e os alertas estejam ativos.
  4. Melhore a capacidade de dimensionar facilmente os pipelines de processamento para cima ou para baixo para acompanhar o trabalho atrasado.
  5. Implemente recursos para permitir que o sistema se degrade graciosamente em vez de mostrar erros ou páginas vazias durante incidentes.
  6. Adicione buffers de capacidade extra aos grupos e alinhe as programações de manutenção com os tempos de pico de tráfego.
  7. Explore a redução temporária de recursos usados por serviços não críticos para priorizar aplicativos essenciais.
  8. Crie uma lista de verificação para lidar com falhas de capacidade para evitar desligamentos inesperados de pod ou redimensionamento.
  9. Defina limites de tamanho mínimos para grupos de nós gerenciados para manter recursos suficientes.
  10. Investigar as opções de backup e failover para melhorar a confiabilidade do serviço.
  11. Conclua a reposição de contas para reduzir a exposição a falhas regionais.
  12. Considere a redução de chamadas de API desnecessárias para minimizar o impacto do usuário durante falhas na plataforma.
  13. Limite a ingestão de eventos apenas aos visíveis na interface para reduzir a carga do banco de dados durante incidentes.
  14. Revise o escopo de impacto para entender por que os clientes fora das regiões afetadas tiveram problemas.
  15. Confirme as dependências de serviços de terceiros e seus recursos de failover.
  16. Atualize os guias de chamadas com procedimentos de backup e alerta relevantes.
  17. Garanta que os guias de chamada estejam acessíveis durante todos os incidentes.
  18. Melhore as ferramentas de monitoramento de implantação e congelar políticas para evitar lançamentos defeituosos.
  19. Interaja com provedores de nuvem para melhorar a precisão do alerta e reduzir o ruído no monitoramento.
  20. Aumente a alocação de memória para proxies críticos para melhorar a estabilidade.
  21. Separe os alertas sem dados dos sistemas de processamento de tarefas para evitar falsos alertas.

PARA OBTER MAIS INFORMAÇÕES

Para obter informações sobre o status atual do sistema sobre o Zendesk e impactos específicos em sua conta, visite nossa página de status do sistema. Você pode seguir este artigo para ser notificado quando nosso relatório pós-morte for publicado. Em caso de dúvidas adicionais sobre esse incidente, contate o Suporte ao cliente Zendesk.

Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.

Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.

Powered by Zendesk