요약

2025년 10월 20일 06:49(UTC)에서 23:41(UTC) 사이에 여러 Zendesk 제품에서 문제를 겪고 있는 고객으로부터 1,308건의 보고서를 받았습니다. 이러한 중단은 심각한 AWS 미국 동부 서비스 중단 기간 동안 애플리케이션 연동 서비스에 실패하여 발생했습니다.

타임라인

2025년 10월 20일 오전 7:59(UTC) | 2025년 10월 20일 오전 12:59(태평양 표준시)

여러 Zendesk 서비스에 문제가 있음을 알고 있습니다. Zendesk 엔지니어링 팀에서 현재 문제를 해결하기 위해 최선을 다하고 있습니다. 30분 후 업데이트를 제공해 드리겠습니다. 기다려 주셔서 감사합니다.

2025년 10월 20일 오전 8:32(UTC) | 2025년 10월 20일 오전 1:32(태평양 표준시)

계속되는 서비스 중단에 대해 진심으로 사과드리며, 저희 엔지니어들이 이 문제를 적극적으로 해결하고 있습니다. 중요한 정보를 공유하는 대로 업데이트를 제공하겠습니다. 양해해 주셔서 감사합니다.

2025년 10월 20일 오전 9:49(UTC) | 2025년 10월 20일 오전 2:49(태평양 표준시)

Zendesk 엔지니어들이 Chat, 음성, 애널리틱스, SunCo, Sunshine Platforms, Contact Center 및 Support 를 포함한 여러 Zendesk 제품에 영향을 미치는 업스트림 제공업체의 문제를 확인했습니다. 개선되고 있지만 고객의 성능이 저하될 수 있습니다. 기다려 주셔서 감사합니다. 업데이트되는 대로 제공해 드리겠습니다.

2025년 10월 20일 오전 11:08(UTC) | 2025년 10월 20일 오전 4:08(태평양 표준시)

Zendesk는 업스트림 제공업체로 인해 발생한 문제에 이어 Zendesk 제품에서 부분적으로 복구되는 것을 관찰했습니다. Zendesk 엔지니어링 팀은 영향을 받는 모든 지역에서 전체 서비스를 복원하기 위해 계속 노력하고 있습니다. 불편을 끼쳐 드려 죄송하며 양해해 주셔서 감사합니다. 업데이트가 제공되는 대로 제공됩니다.

2025년 10월 20일 오후 2:28(UTC) | 2025년 10월 20일 오전 7:28(태평양 표준시)

대부분의 Zendesk 제품에서 상당한 회복세를 보였습니다. 하지만 AMER 및 APAC Explore 고객은 라이브 및 과거 애널리틱스 보고서 둘 다에서 계속 오래된 데이터를 경험할 수 있습니다. 또한 업스트림 제공업체 문제와 연결된 통화 세션 및 데이터 액세스에 지속적인 문제가 있습니다. Zendesk 엔지니어링 팀은 문제 해결을 가속화하기 위해 제공업체와 긴밀하게 협력하고 있으며 사용량이 가장 많은 기간이 되기 전에 모든 서비스를 완전히 복원하기 위한 조치를 적극적으로 취하고 있습니다. 이로 인해 불편을 끼쳐 드려 죄송하며 양해해 주셔서 감사합니다. 추가 업데이트가 제공되는 대로 제공됩니다.

2025년 10월 20일 오후 3:20(UTC) | 2025년 10월 20일 오전 8:20(태평양 표준시)

Zendesk는 주로 POD 19 및 23에서 여러 Zendesk 제품 및 POD에 영향을 미치는 클라우드 제공업체와의 서비스 중단 문제를 적극적으로 해결하고 있습니다. 추가적인 영향에는 AMER 및 APAC 지역의 Explore, 모든 POD에 걸친 Talk, AI 상담사, Sunshine Conversations 및 옴니채널 라우팅 및 Chat의 일부 성능 저하가 포함됩니다. 이전에 알림을 받지 못한 점에 대해 사과드리며, 1시간 이내 또는 새 정보가 발생하는 대로 업데이트를 제공하겠습니다.

2025년 10월 20일 오후 4:30(UTC) | 2025년 10월 20일 오전 9:30(태평양 표준시)

여러 Zendesk 제품에 영향을 미치는 문제에 대해 클라우드 제공업체와 계속 협력하고 있습니다. 전체 복구에 관한 실질적이거나 긍정적인 업데이트가 없는 점에 대해 사과드립니다. 하지만 최신 정보를 제공해 드리고자 합니다. 심각한 서비스 중단 문제를 해결하는 동안 양해해 주셔서 감사합니다. 업데이트가 되는 대로 보내 드리겠습니다.

2025년 10월 20일 오후 10:05(UTC) | 2025년 10월 20일 오후 3:05(태평양 표준시)

Zendesk의 파트너 클라우드 제공업체는 Zendesk 제품이 크게 개선되고 있으며 Zendesk 제품에서 모니터링 및 로깅이 거의 완전히 회복되고 있다고 밝혔습니다. 안정성의 관점에서 해결에 가까워지고 있지만 영향을 미치는 창에서 아직 처리 중인 상당한 양의 백로그가 있습니다. Explore 데이터 및 Talk 통화 녹음은 앞으로 몇 시간에 걸쳐 점진적으로 백필되며, 전체 해결에 도달한 것으로 확인되면 후속 조치를 취하겠습니다. 조사 중 기다려 주셔서 감사합니다.

2025년 10월 20일 오후 11:35(UTC) | 2025년 10월 20일 오후 4:35(태평양 표준시)

모든 Zendesk 서비스가 복원되어 안정적입니다. 인시던트 동안 만들어진 백로그를 처리하면서 앞으로 몇 시간 동안 Explore 데이터가 계속 업데이트됩니다. 고객이 취해야 할 조치는 없습니다. Explore 보고서는 정상적으로 계속 사용할 수 있지만 백로그가 지워질 때까지 데이터 최신 상태가 지연될 수 있습니다. 이 문제를 해결하는 동안 기다려 주셔서 감사합니다.

근본 원인 분석

이 사건은 AWS 미국 동부(us-east-1)의 심각한 서비스 중단으로 인해 발생했으며, 이로 인해 네트워크 주소를 해결하지 못하고 시스템 수용 능력이 부족하여 Zendesk의 핵심 인프라 서비스가 중단되었습니다. 또한 AWS 가용 영역 내의 제한으로 인해 특정 POD에서 리소스 불균형이 발생했습니다. 

해결

이 문제를 해결하기 위해 엔지니어링 팀은 AWS 지원팀과 협력하여 리소스 확장, 수동 정리, 주요 데이터 프로세스 다시 시작을 포함한 다양한 수정 사항을 구현했습니다. 응답하는 동안 고객에게 계속 정보를 제공했으며 모든 핵심 서비스의 완전한 복구가 확인되었습니다.

수정 항목

  1. 데이터베이스 호출에 시간 제한을 추가하여 지연을 방지하고 실패한 호출로 인해 시스템이 중단되는 일이 없도록 하세요.
  2. 앱 버전 및 자산을 가져오는 대체 방법을 개발하여 데이터베이스 중단을 원활하게 처리하세요.
  3. 데이터 누락으로 인한 작업 실패를 조사하고 유효성 검사를 개선하여 그러한 오류를 방지합니다. 관련 메트릭을 모니터링하고 알림을 활성화하세요.
  4. 처리 파이프라인을 쉽게 확장하거나 축소하여 지연된 작업을 따라잡는 기능을 개선하세요.
  5. 인시던트 중 오류나 빈 페이지를 표시하는 대신 시스템이 정상적으로 성능을 저하시킬 수 있는 기능을 구현합니다.
  6. 클러스터에 용량 버퍼를 더 추가하고 트래픽이 가장 많은 시간에 유지 관리 일정을 조정하세요.
  7. 중요하지 않은 서비스에서 사용하는 리소스를 일시적으로 줄여 필수 애플리케이션의 우선 순위를 정하세요.
  8. 예기치 않은 POD 종료 또는 축소를 방지하기 위해 수용 능력 장애 처리를 위한 체크리스트를 만듭니다.
  9. 충분한 리소스를 유지하기 위해 관리되는 노드 그룹의 최소 크기 제한을 설정하세요.
  10. 백업 및 장애 조치 옵션을 조사하여 서비스 안정성을 개선하세요.
  11. 계정 재배치를 완료하여 지역별 장애에 대한 노출을 줄이세요.
  12. 플랫폼 장애 시 사용자에게 미치는 영향을 최소화하기 위해 불필요한 API 호출을 줄이는 방법을 살펴보세요.
  13. 인터페이스에 표시되는 이벤트 수집으로만 이벤트 수집을 제한하여 인시던트 중 데이터베이스 로드를 줄이세요.
  14. 영향 범위를 검토하여 영향을 받는 지역 밖의 고객에게 문제가 발생한 이유를 이해하세요.
  15. 타사 서비스 및 해당 장애 조치 기능에 대한 종속성을 확인합니다.
  16. 관련 백업 및 알림 절차로 대기 중인 가이드를 업데이트합니다.
  17. 모든 인시던트 동안 대기 중인 가이드를 이용할 수 있도록 하세요.
  18. 배포 모니터링 도구를 개선하고 잘못된 릴리스를 방지하기 위해 정책을 중단합니다.
  19. 클라우드 제공업체와 협력하여 알림 정확도를 개선하고 모니터링의 불필요한 부분을 줄이세요.
  20. 안정성을 개선하려면 중요한 프록시에 대한 메모리 할당을 늘리세요.
  21. 오경보를 방지하기 위해 작업 처리 시스템에서 데이터 없음 알림을 분리합니다.

자세한 정보

Zendesk에 대한 현재 시스템 상태 정보 및 계정에 미치는 구체적인 영향은 시스템 상태 페이지를참조하세요.. 이 문서에 따라 사후 보고서가 게시될 때 알림을 받을 수 있습니다. 이 인시던트에 대한 추가 질문이 있으시면 Zendesk 고객 지원팀에 문의하세요.

번역 고지 사항: 본 문서는 콘텐츠에 대한 기본적인 이해를 제공하기 위해 자동 번역 소프트웨어를 사용하여 번역되었습니다. 정확한 번역을 제공하고자 합당한 노력을 기울였으나 Zendesk는 번역의 정확성을 보장하지 않습니다.

번역된 문서에 포함된 정보의 정확성과 관련하여 질문이 있으시면 문서의 공식 버전인 영문 버전을 참조하시기 바랍니다.

Zendesk 제공