요약
2024년 7월 2일 08:10(UTC)부터 16:30(UTC)까지 POD 17 및 18의 고객에게 “채팅 수락” 버튼이 응답하지 않는 문제가 발생했습니다. 그런 다음 문제가 확산되어 여러 개의 다른 POD에 있는 고객이 티켓을 열려고 할 때“서버에 연결할 수 없음”오류가 발생했습니다. 이로 인해 상담사 워크스페이스 내에서 효과적으로 소통하고 작업을 관리하는 기능이 크게 저하되었습니다.
일정
2024년 7월 2일 오후 12:12(UTC) | 2024년 7월 2일 오전 5시 12분(태평양 표준시)
현재 POD 17 및 18의 일부 고객에 대한 채팅 수락 버튼이 작동하지 않는 문제에 대한 조사 보고서가 있습니다. 추가 정보가 확보되면 또 다른 업데이트를 제공하겠습니다.
2024년 7월 2일 오후 2:01(UTC) | 2024년 7월 2일 오전 7시 1분(태평양 표준시)
현재 다양한 Chat/Messaging/AgentWorkspace 문제를 해결하고 있으며 모든 문제를 계속 조사하고 있습니다. 양해해 주셔서 감사합니다.
2024년 7월 2일 오후 2:51(UTC) | 2024년 7월 2일 오전 7시 51분(태평양 표준시)
Pod 17 및 18에서 채팅 수락 버튼이 작동하지 않는 고객의 상담사 워크스페이스에서 채팅 및 메시징 수락에 영향을 미치는 문제를 계속 해결하고 있습니다. 이 문제를 완전히 해결하기 위한 수정 사항 및 테스트 옵션을 모색 중입니다.
2024년 7월 2일 오후 3:28(UTC) | 2024년 7월 2일 오전 8시 28분(태평양 표준시)
POD 17 및 18의 고객을 위한 상담사 워크스페이스에서 채팅 및 메시징 수락에 영향을 미치는 문제로 인해 “채팅 수락” 버튼을 사용할 수 없는 문제의 근본 원인을 아직 조사 중입니다. 1시간 후 또는 공유할 새 정보가 있을 때 추가 정보를 게시하겠습니다.
2024년 7월 2일 오후 4:28(UTC) | 2024년 7월 2일 오전 9:28(태평양 표준시)
Zendesk 팀은 POD 17 및 18에서 “채팅 수락” 버튼을 사용할 수 없는 고객의 상담사 워크스페이스에서 채팅 및 메시징 수락에 영향을 미치는 문제를 계속 조사하고 있습니다. 1시간 후 또는 공유할 새 정보가 있을 때 추가 업데이트를 제공하겠습니다.
2024년 7월 2일 오후 5시 48분(UTC) | 2024년 7월 2일 오전 10시 48분(태평양 표준시)
POD 17 및 18에서 메시징 서비스의 수용 능력을 늘렸으며 추가적인 영향이 있는지 모니터링하고 있습니다. 저희 팀은 채팅을 수락할 때 더 이상 문제가 발생하지 않도록 하며, 복구가 확인되는 대로 추가 업데이트를 제공하겠습니다. 채팅을 수락하는 데 문제가 계속 발생하면 알려주세요.
2024년 7월 3일 오전 5시 05분(UTC) | 2024년 7월 2일 오후 10:05(태평양 표준시)
추가 모니터링 후 Chat 및 메시징 수락에 영향을 미치는 문제가 해결된 것으로 확인되었습니다. 지금까지 기다려 주셔서 감사합니다.
사후
근본 원인 분석
업데이트된 스토리지 시스템으로 업그레이드하는 동안 예기치 않은 성능 문제가 발생하여 적시에 업데이트를 제공하는 데 지연이 발생했습니다. 이러한 문제의 대부분은 연결 및 플랜 수명 주기에 대한 쿼리 처리 문제로 인해 스토리지 시스템이 중단되고 트랜잭션이 지연되었기 때문입니다. 이러한 복잡성으로 인해 데이터를 관리하고 실시간 사용자 인터페이스 업데이트를 촉진하는 시스템 구성 요소의 성능이 저하되었습니다. 업데이트된 스토리지 시스템에만 집중하여 프로세스를 간소화하려고 시도했을 때 예기치 않은 처리 능력 사용량이 급증하여 리소스 부담이 더욱 가중되었습니다.
해결
이 문제를 해결하기 위해 Zendesk는 다각적인 접근 방식을 구현했습니다. 모든 POD에서 데이터베이스 클러스터의 크기를 늘린 결과 데이터베이스 잠금 및 차단된 트랜잭션이 성능 문제의 근본 원인임을 확인했습니다. 이에 대한 응답으로 빠른 수정을 적용하여 데이터베이스 개체가 분리될 가능성이 있음에도 불구하고 이러한 잠금을 제거했습니다. 마지막으로 점진적 롤백을 수행하여 궁극적으로 플랜 서비스가 안정화되었습니다.
수정 항목
- DB 잠금 제거 및 분리된 구독의 정리가 완료되었습니다.
- 추가적인 조치에는 연결 만들기 및 구독 만들기 엔드포인트에 대한 서비스 수준 목표(SLO) 추가가 포함됩니다. 이는 향후 안정적인 시스템 성능을 모니터링하고 보장하기 위한 것입니다.
- 비슷한 문제를 더 일찍 포착하기 위한 카나리아 Pod 후 첫 번째 프로덕션 POD에서의 지연 시간에 대한 설명입니다.
- 시스템이 최적으로 작동하도록 보장하기 위해 클러스터 정리 및 재생성을 포함하는 스테이징 부하 테스트 및 유지 관리 방식이 채택됩니다.
자세한 정보
Zendesk에 대한 현재 시스템 상태 정보는시스템 상태 페이지를 참조하세요. 사후 조사 요약은 보통 인시던트가 종료되고 며칠 후 여기에 게시됩니다. 이 인시던트에 대한 추가 질문이있으면 Zendesk 고객 지원팀에 문의하세요.
번역 고지 사항: 본 문서는 콘텐츠에 대한 기본적인 이해를 제공하기 위해 자동 번역 소프트웨어를 사용하여 번역되었습니다. 정확한 번역을 제공하고자 합당한 노력을 기울였으나 Zendesk는 번역의 정확성을 보장하지 않습니다.
번역된 문서에 포함된 정보의 정확성과 관련하여 질문이 있으시면 문서의 공식 버전인 영문 버전을 참조하시기 바랍니다.
댓글 0개