RESUMO
Em 11 de dezembro de 2024, das 23h39 UTC às 6h30 UTC de 12 de dezembro, os clientes que usam os recursos de IA do Zendesk, como IA avançada, Talk, Agentes de IA e outros recursos de IA generativa, tiveram interrupções na funcionalidade devido à interrupção do provedor de serviços.
LINHA DO TEMPO
12 de dezembro de 2024 04h05 UTC | 11 de dezembro de 2024 20h05 PT
Estamos observando a recuperação de todos os recursos de IA e continuamos monitorando nossos sistemas para uma recuperação completa. Estamos ansiosos para fornecer uma atualização final quando os sistemas estiverem totalmente estáveis.
12 de dezembro de 2024 01h53 UTC | 11 de dezembro de 2024 17:53 PT
Nossa equipe está trabalhando com nosso provedor de serviços em um problema que afeta os recursos de IA do Zendesk. O impacto pode ser visível por IA avançada, Talk, Agentes de IA e outros recursos de IA generativa. Devido a tentativas iniciais malsucedidas de resolver o problema, as equipes continuam avançando com a prioridade mais alta para resolver esse problema. Transmitiremos as atualizações quando elas estiverem disponíveis.
POST-MORTEM
Análise da causa raiz
A causa principal do incidente foi uma nova configuração para um serviço de telemetria que gerou inesperadamente uma carga massiva na API de um provedor de serviços em grandes clusters. Essa carga excessiva sobrecarregou e interrompeu a descoberta de serviços baseados em DNS, resultando em solicitações com falha para os serviços de nosso provedor.
Resolução
O incidente foi resolvido depois que o provedor de serviços identificou o problema e implementou medidas corretivas para aliviar a carga na API. A Zendesk manteve comunicação com nosso provedor de serviços durante todo o incidente para garantir uma resposta coordenada.
Itens de correção
- Support Level Agreement (Contrato de nível de suporte) com as equipes de serviço do LLM: Trabalhe com clientes internos para entender suas expectativas de desempenho e disponibilidade, o que ajudará a propor estratégias de fallback e ajustar os limites de monitoramento.
- Estratégias de fallback para recursos de IA generativa : Desenvolva estratégias de fallback para os recursos do GenAI, o que envolverá a adição de recursos aos sistemas de proxy e a colaboração com os responsáveis pelos recursos para determinar as melhores estratégias para seus respectivos casos.
- Suporte Premium do nosso provedor de serviços: Negocie suporte adicional do provedor de serviços para garantir uma resolução e assistência mais rápidas durante incidentes.
Medidas preventivas
Para evitar incidentes semelhantes no futuro, as seguintes ações serão tomadas:
- Aprimore os sistemas de monitoramento e alerta para detectar melhor cargas anormais na API.
- Estabeleça canais de comunicação mais claros e acordos de suporte com nosso provedor de serviços para garantir uma resposta rápida durante incidentes.
- Implemente estratégias de fallback para recursos críticos de IA a fim de manter a disponibilidade do serviço mesmo durante interrupções do provedor.
PARA OBTER MAIS INFORMAÇÕES
Para obter informações sobre o status atual do sistema sobre o Zendesk e impactos específicos em sua conta, visite nossa página de status do sistema. Você pode seguir este artigo para ser notificado quando nosso relatório post mortem for publicado. Se você tiver mais perguntas sobre esse incidente, entre em contato com o suporte ao cliente Zendesk.
Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.
Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.
0 comentários