요약
2024년 6월, 특히 13일과 25일, 그리고 7월 며칠 동안 Zendesk의 지원 상담사 워크스페이스 내에서 많은 문제가 발생했습니다. 이러한 인시던트는 상담사의 워크플로우를 방해하여 티켓에 액세스하기 어렵게 만들었습니다. 티켓을 로드하려고 할 때 발생하는 주요 문제는 “메시지를 찾을 수 없음” 오류 및 “A_xxx” 오류 코드였습니다. 이러한 문제는 주로 여러 날에 걸쳐 다양한 POD에서 발생했습니다. 서비스 중단이 급증할 때마다 보통 평균 2분 정도 지속되었습니다. 고객이 해결 방법으로 시스템을 새로 고치려고 시도할 수 있지만 그 과정에서 진행 중인 대화를 잃을 위험이 있습니다.
일정
2024년 6월 25일 오후 4:05(UTC) | 2024년 6월 25일 오전 9시 05분(태평양 표준시)
2024년 6월 25일 15:40과 15:47(UTC) 사이에 여러 POD에서 고객에게 영향을 미치는 오류가 급증하여 지원합니다. 이러한 오류를 복구했으며 브라우저를 다시 로드하거나 캐시와 쿠키를 지워 문제를 해결해야 합니다.
사후
근본 원인 분석
이러한 인시던트의 주요 원인은 종종 트래픽이 가장 많은 시간에 서버에 대한 HTTP 요청이 예기치 않게 증가했기 때문입니다. 이러한 급증으로 인해 Agent Graph 서버 연결이 압도되어 준비 상태 검사가 실패하는 "천둥" 효과가 발생했습니다. 시스템의 핵심 구성 요소인 Lotus가 중요한 역할을 하는 것으로 확인되었습니다. 다시 연결할 때마다 여러 요청으로 티켓 데이터 관리자(TDM)에 과부하가 걸렸습니다. 이러한 트래픽 급증은 주로 Zorg/Nginx 및/또는 가입 서비스 배포로 인한 대량 연결 해제 후 다시 연결되는 대화 상태 가입에 기인합니다.
TDM은 주로 티켓 데이터 관리를 담당합니다. 티켓이 생성될 때 정보를 구성 및 저장한 다음 상담사나 고객이 액세스해야 할 때 이 데이터를 검색하여 제시하며, 모든 티켓 관련 데이터의 마스터 컨트롤러 역할을 하여 시스템 내에서 원활한 운영을 보장합니다.
해결
이러한 문제에 대한 대응으로 예방 조치가 구현되었습니다. 여기에는 수신 트래픽을 규제하는 연결 및 요청 속도 제한기가 포함됩니다. 동시에 캐싱 실패 시 상담사 그래프의 복원력을 강화하기 위한 조치를 취했습니다. 이 전략은 정전 시 백업 발전기 역할을 하여 불가피한 기술적 결함으로 인한 시스템 전체의 중단을 방지하는 데 기여했습니다. 많은 완화 조치가 시행되었지만 서비스 인시던트가 로터스의 변경으로 결론지은 실제 수정 조치가 있었습니다. 이러한 변경으로 인해 데이터를 다시 가져오는 시나리오의 수가 줄어들어 엄청난 양의 군집 효과가 종료되었습니다.
7월 25일 편집: 7월 10일에 문제를 야기하는 요청이 쌓이지 않도록 몇 가지 조정을 한 후에는 티켓 UI에 영향을 미치는 추가 요청이 발생하지 않았습니다. 저희는 계속해서 상황을 주시한 결과 다음 일 동안 순조롭게 진행되고 있다는 사실에 만족했습니다.
또한 이전 달에 금요일에 특정 POD에서 성능이 약간 떨어지는 것을 발견했지만 7월 12일에는 개선된 것으로 나타났습니다. 그 후 7월 15일에는 성능 저하나 급증이 발생하지 않아 문제가 해결된 것으로 판단했습니다.
수정 항목
시스템 안정성을 더욱 강화하고 향후 중단을 방지하기 위한 추가 전략이 계획되었습니다.
- 준비 상태 프로브 실패에 대한 알림: 스모크 테스트를 구현하여 기술팀에 모든 잠재적인 문제에 대해 즉시 알리고 신속한 조치를 취할 수 있도록 하세요.
- 패턴 가져오기 시 고려 사항: 소프트웨어 개발자들에게 시스템의 불균형을 피하기 위해 정보 검색의 양과 빈도를 주의 깊게 고려하도록 조언합니다.
- 요청 기준선 설정: 시스템 고장을 방지하기 위해 티켓 정보에 대한 동시 요청을 처리할 수 있는 시스템의 수용 능력을 결정합니다.
- 다시 가져오기: 지터를 도입하여 집단 효과를 완화하세요.
- Explore More 단계별 플랜 유지 기간: 배포 중 플랜을 더욱 효과적으로 유지 관리하는 방법을 조사하세요.
자세한 정보
Zendesk에 대한 현재 시스템 상태 정보는시스템 상태 페이지를 참조하세요. 사후 조사 요약은 보통 인시던트가 종료되고 며칠 후 여기에 게시됩니다. 이 인시던트에 대한 추가 질문이있으면 Zendesk 고객 지원팀에 문의하세요.
번역 고지 사항: 본 문서는 콘텐츠에 대한 기본적인 이해를 제공하기 위해 자동 번역 소프트웨어를 사용하여 번역되었습니다. 정확한 번역을 제공하고자 합당한 노력을 기울였으나 Zendesk는 번역의 정확성을 보장하지 않습니다.
번역된 문서에 포함된 정보의 정확성과 관련하여 질문이 있으시면 문서의 공식 버전인 영문 버전을 참조하시기 바랍니다.