요약
2024-02-09 20:32(UTC)부터 2024-02-09 22:29(UTC)까지 Pod 13의 Support 고객에게 문제가 발생하여 일부 티켓에 SLA 배지가 표시되지 않았습니다.
사후
근본 원인 분석
이 사건이 발생하는 동안 Pod 13에 있는 16개의 Kubernetes Pod 중 1개가 예정되지 않은 다시 시작되어 오작동했습니다. 오류 메시지는 메트릭 이벤트 서비스(MES)에 대한 중요한 종속성인 'redis' 호스트를 중단시키는 '연결 문자열 권한'에 문제가 있음을 나타냅니다. 이로 인해 티켓 이벤트 처리가 복잡해지면서 SLA(서비스 수준 계약) 이벤트가 누락되거나 지연되었습니다. 배포 또는 구성 변경으로 인해 kpod가 실수로 다시 시작된 것으로 의심됩니다. 문제가 발생했을 때 저희의 즉각적인 목표는 빠른 시스템 재설정이 필요한 주요 서비스를 수정하는 것이었습니다. 이 프로세스로 인해 오작동하는 시스템 장치의 세부 정보를 바로 기록할 시간이 없었습니다. 하지만 나중에 의도적으로 결함을 도입하여 안전한 테스트 환경에서 오류를 재현하여 문제를 더 잘 이해할 수 있었습니다.
해결
문제가 확인된 후 kpod가 재배포되어 문제가 해결되었습니다. 그런 다음 누락된 SLA 이벤트가 백필되었습니다.
참고:등록 티켓에서 깨진 SLA를 해결하기 위해 실행된 데이터의 백필/복원은 종료 티켓의 SLA 데이터를 완전히 제거하는 부작용이 있었고, 이로 인해 Explore에서 'Null' SLA 데이터가 생성되었습니다.
수정 항목
- 시스템 단위가 다시 시작될 때마다 준비 상태를 유지할 수 있도록 환경 변수를 구성하고 전달하는 더 나은 방법을 살펴보세요.
- “funfiller”를 업데이트하여 위반된 서비스 수준 계약(SLA)을 수정하는 데 소요되는 시간을 단축하세요.
- 모니터링 및 알림 검토
- 시스템 장치가 다시 시작될 때마다 환경 변수의 가용성을 보장하기 위해 환경 변수를 전달하는 방법을 다시 조사하세요.
자세한 정보
Zendesk에 대한 현재 시스템 상태 정보는 시스템 상태 페이지를 참조하세요. 사후 조사 요약은 보통 인시던트가 종료되고 며칠 후 여기에 게시됩니다. 이 인시던트에 대해 추가 질문이 있으시면 위젯 내에서 ZBot 메시징을 통해 티켓을 기록해 주세요.
번역 고지 사항: 본 문서는 콘텐츠에 대한 기본적인 이해를 제공하기 위해 자동 번역 소프트웨어를 사용하여 번역되었습니다. 정확한 번역을 제공하고자 합당한 노력을 기울였으나 Zendesk는 번역의 정확성을 보장하지 않습니다.
번역된 문서에 포함된 정보의 정확성과 관련하여 질문이 있으시면 문서의 공식 버전인 영문 버전을 참조하시기 바랍니다.