まとめ
2024年2月9日20:32UTCから2024年2月9日22:29UTCまで、ポッド13のSupportのお客様は、一部のチケットにSLAバッジが表示されない問題が発生しました。
事後のメモ
根本原因分析
このインシデントでは、ポッド13の16個のKubernetesポッドのうち1個で、計画外の再起動が発生し、機能が停止しました。エラーメッセージは、「接続文字列権限」に問題があり、メトリックイベントサービス(MES)の重要な依存関係である「redis」ホストを停止させることを示していました。この中断により、チケットイベントの処理が複雑になり、サービスレベルアグリーメント(SLA)イベントが欠落したり遅延したりしていました。デプロイまたは設定の変更により、誤ってkpodが再起動された可能性があります。問題が発生したとき、当面の目標はメインサービスを修正することであり、迅速にシステムをリセットする必要がありました。このプロセスでは、故障したシステムユニットの詳細をすぐに記録する時間がありませんでした。しかし、後に意図的に欠陥を導入することで、安全なテスト環境でエラーを再現することができました。これにより、問題をより深く理解することができました。
解決策
問題が特定されると、kポッドが再デプロイされ、問題が解決されました。その後、未対応のSLAイベントが埋め戻されました。
注意:オープンチケットでSLA違反を解決するために実行されたデータのバックフィル/復元は、終了済みチケットのSLAデータを完全に削除するというサイド効果をもたらしました。その結果、Exploreに「Null」SLAデータが生じます。
改善策
- システム単位の再起動はいつでも対応できるように、環境変数を整理して渡すためのより良い方法を検討
- 「ファンフィラー」を更新することで、違反したサービスレベルアグリーメント(SLA)を修正するための応答時間を短縮します
- モニタリングとアラートの確認
- 環境変数の受け渡し方法を再検討して、システム単位の再起動時に環境変数を利用できるようにする
詳細情報を表示
Zendeskの現在のシステムステータスについては、システムステータスページをご覧ください。事後調査のまとめは、通常、インシデントが終了してから数日後にこちらに投稿されます。この事象についてさらにご質問がある場合は、ウィジェット内のZBotメッセージング経由でチケットを記録してください。
翻訳に関する免責事項:この記事は、お客様の利便性のために自動翻訳ソフ トウェアによって翻訳されたものです。Zendeskでは、翻訳の正確さを期すために相応の努力を払っておりますが、翻訳の正確性につ いては保証いたしません。
翻訳された記事の内容の正確性に関して疑問が生じた場合は、正式版である英語の記事 を参照してください。