まとめ
2024年7月2日08時10分(UTC)から16:30(UTC)まで、ポッド17および18のお客様において「チャットに応答する」ボタンが応答しない問題が発生しました。その後、問題が拡大し、他の複数のポッドにいるカスタマーがチケットを開こうとすると、「サーバーに接続できませんでした」という エラーが発生しました。これにより、エージェントワークスペース内で効果的にタスクをコミュニケーションおよび管理することができなくなりました。
提供終了までのスケジュール
2024年7月2日 午後12時12分(UTC) | 2024年7月2日05:12 AM (PT)
現在、ポッド17および18で動作しない一部のお客様に対し、チャットの応答ボタンに関する調査レポートを作成しています。新たに情報が追加されましたら、またお知らせします。
2024年7月2日 02:01 UTC | 2024年7月2日午前7時01分(PT)
現在、Chat/メッセージング/エージェントワークスペースのさまざまな問題を解決しており、すべての問題を引き続き調査しています。今しばらくお待ちください。
2024年7月2日 02:51 UTC | 2024年7月2日午前7時51分(PT)
Zendeskでは、ポッド17と18で「チャットする」ボタンが機能しないお客様に対し、エージェントワークスペースでのチャットおよびメッセージングの受付に影響する問題について引き続き対処しています。この問題を完全に解決するための修正オプションとテストオプションを探しています。
2024年7月2日 午後03時28分(UTC) | 2024年7月2日午前8時28分(PT)
ポッド17および18のカスタマー向けの「チャットに応答する」ボタンの使用を妨げる問題について、エージェントワークスペースでのチャットおよびメッセージングの受け入れに影響する問題については、現在も根本原因を調査しています。1時間以内に追加情報を投稿するか、新しい情報がありましたらお知らせします。
2024年7月2日 04:28 UTC | 2024年7月2日午前9時28分(PT)
Zendeskのチームでは、ポッド17および18のお客様が「チャットに応答する」ボタンを使用できないよう、エージェントワークスペースでのチャットおよびメッセージングの受け入れに影響する問題を引き続き調査します。今後1時間以内に、または新しい情報が入り次第、詳細なアップデートを提供します。
2024年7月2日 05:48 PM UTC | 2024年7月2日午前10時48分(PT)
Zendeskはポッド17および18でメッセージングサービスのキャパシティを増やしており、さらなる影響がないか監視しています。当社のチームは、チャットを受け付ける際に、これ以上の問題が生じないことを保証し、復旧を確認したときに追加のアップデートを提供します。チャットの受け付けに関して引き続き問題が発生した場合はお知らせください。
2024年7月3日 午前5時05分(UTC) | 2024年7月2日午後10時05分(PT)
さらに監視した結果、Chatとメッセージングの受け付けに影響を与える問題が解決されたことを確認しました。ご理解とご協力をよろしくお願いいたします。
事後のメモ
根本原因分析
最新のストレージシステムへのアップグレード中に、パフォーマンスに予期せぬ課題が発生し、アップデートをタイムリーに提供することに遅延が生じました。この問題の主な原因は、接続とサブスクリプションのライフサイクルに関するクエリの処理に問題があり、ストレージシステムがブロックされ、取引が停止することでした。これらの複雑さは、データを管理し、リアルタイムのユーザーインターフェイスの更新を促進するためのシステムコンポーネントのパフォーマンスを低下させました。更新されたストレージシステムのみに焦点を当ててプロセスを効率化しようとしたところ、予想外の処理量の急増により、当社のリソースはさらに不足しています。
解決策
問題を解決するために、多面的アプローチを採用しました。すべてのポッドにわたってデータベースクラスタのサイズを増やし、データベースロックとトランザクションのブロックがパフォーマンス問題の原因であることを特定しました。これに伴い、孤立したデータベースオブジェクトにつながる可能性があるにもかかわらず、これらのロックを解決するための迅速な修正を適用しました。最終的に、サブスクリプションサービスの安定化をもたらした段階的なロールバックを実施しました。
改善策
- DBロックの削除および無所属サブスクリプションのクリーンアップが完了しました。
- さらに、接続作成エンドポイントおよびサブスクリプション作成エンドポイントのためのサービスレベル目標(SLO)の追加なども含まれます。これは、将来的に信頼できるシステムパフォーマンスを監視し、確保するためのものです。
- キャナリーポッドの後の最初の本番ポッドでソークタイムを設定することで、同様の問題を早期に検出できます。
- システムを最適に機能させるために、ステージング負荷テストおよびクラスタのクリーンアップと再作成を含むメンテナンスプラクティスが採用されます。
詳細情報を表示
Zendeskの現在のシステムステータスについては、 システムステータスページを参照してください。事後調査のまとめは、通常、インシデントが終了してから数日後にこちらに投稿されます。この事象についてさらにご質問がある場合は、Zendeskカスタマーサポートにお問い合わせください。
翻訳に関する免責事項:この記事は、お客様の利便性のために自動翻訳ソフ トウェアによって翻訳されたものです。Zendeskでは、翻訳の正確さを期すために相応の努力を払っておりますが、翻訳の正確性につ いては保証いたしません。
翻訳された記事の内容の正確性に関して疑問が生じた場合は、正式版である英語の記事 を参照してください。
0件のコメント