요약
3월 6일 13:33(UTC)부터 14:15(UTC)까지 고객이 Explore를 로드할 수 없어 502 잘못된 게이트웨이 오류가 발생했습니다.
일정
15:02(UTC) | 07:02(태평양 표준시)
고객이 Explore에 액세스하려고 시도하는 동안 더 이상 서버 오류가 발생하지 않고 백엔드에도 더 이상 오류가 표시되지 않는다는 확인을 받았으므로 이 인시던트를 해결된 것으로 간주합니다. 이 문제를 해결하는 동안 기다려 주셔서 감사합니다.
14:24(UTC) | 06:24(태평양 표준시)
페이지 로드 수가 개선되고 있으며 이제 Explore에 올바르게 액세스할 수 있고 페이지를 새로 고친 후 로드된다는 확인을 받고 있습니다. Explore를 다시 로드하고 문제가 계속 발생하면 알려주시기 바랍니다. 양해해 주셔서 감사합니다.
14:15(UTC) | 06:15(태평양 표준시)
현재 Pod 17, 18, 28 및 29의 Explore 고객만 문제의 영향을 받습니다. 액세스 권한을 복원하기 위해 계속 노력하고 있습니다. 30분 후 또는 추가 세부 정보가 있을 때 추가 업데이트를 제공합니다.
14:04(UTC) | 06:04(태평양 표준시)
현재 여러 POD에서 고객의 Explore가 로드되지 않는 문제에 대한 보고서를 조사 중입니다. 조사가 진행 중입니다.
사후
근본 원인 분석
2024년 3월 6일에 사용자가 Explore에 액세스하려고 할 때 백그라운드에서 시스템을 업데이트하기 위해 시작된 프로세스로 인해 오류가 발생했습니다. 이 프로세스로 인해 데이터베이스에 일시적인 “잠금” 문제가 발생하여 사용자에게 오류가 발생했습니다. 문제가 13:22(UTC)에 시작되어 14:07:00(UTC)에 해결되었습니다.
Zendesk 엔지니어링 팀은 사용자에게 사용량 통계를 제공하도록 디자인된 새로운 기능을 개발 중이었습니다. 이 기능을 더욱 효율적으로 만들기 위해 새로운 프로세스가 도입되었습니다. 이 프로세스를 통해 대시보드에 액세스할 때마다 데이터베이스의 테이블을 업데이트하여 반복되는 계산을 줄일 수 있었습니다. 이 프로세스가 기존 대시보드의 기록 레코드를 채우기 시작하면서 문제가 발생했습니다.
이 사건은 주로 기록 레코드를 채우기 위해 시작된 프로세스로 인해 발생했습니다. 이 프로세스로 인해 데이터베이스에서 장기간 "잠금"이 발생하여 시간 초과 및 오류가 발생했습니다.
해결
중단된 쿼리가 해결되고 Rails 애플리케이션을 다시 시작한 후 Explore의 정상적인 작업이 다시 시작되었습니다.
수정 항목
- 채우기 프로세스 검토
- 채우기 프로세스 플레이북 업데이트
- 비동기식으로 dashboard_views 레코드 처리
자세한 정보
Zendesk에 대한 현재 시스템 상태 정보는시스템 상태 페이지를 참조하세요. 사후 조사 요약은 보통 인시던트가 종료되고 며칠 후 여기에 게시됩니다. 이 인시던트에 대해 추가 질문이있으시면 위젯 내에서 ZBot 메시징을 통해 티켓을 기록해 주세요.
번역 고지 사항: 본 문서는 콘텐츠에 대한 기본적인 이해를 제공하기 위해 자동 번역 소프트웨어를 사용하여 번역되었습니다. 정확한 번역을 제공하고자 합당한 노력을 기울였으나 Zendesk는 번역의 정확성을 보장하지 않습니다.
번역된 문서에 포함된 정보의 정확성과 관련하여 질문이 있으시면 문서의 공식 버전인 영문 버전을 참조하시기 바랍니다.