高度なAIエージェントのWebクローラーのインポートに関する問題のトラブルシューティング

現在のプランを確認

アドオン

AIエージェント - Advanced

Webクローラーを使用して、高度なAIエージェントにコンテンツをインポートできます。これにより、AIエージェントは、外部Webサイトの情報に基づいてカスタマーの質問に対するAI生成の回答を作成できます。

この記事では、Webクローラーを使用して高度なAIエージェントのコンテンツをインポートするときに発生する可能性のある問題のトラブルシューティングについて説明します。

この記事では、次のトピックについて説明します。

タイムアウトのためクロールが失敗しました
クロールにページがありません
クロールに不要なページが含まれています
クロールに正しいページが含まれているが、コンテンツが間違っている

タイムアウトが発生したため、クロールが失敗しました

数時間経ってもWebクロールに失敗した場合、通常はタイムアウトが原因です。クロールはデフォルトで5時間に制限されています。インポートが開始されてから5時間後にエラーが発生した場合は、タイムアウトが発生している可能性があります。

このような場合は、次の解決策を試してください。

WebサイトがJavaScriptに依存していない場合は、クローラータイプを、はるかに高速な「raw HTTP client (Cheerio)」に設定して、もう一度やり直してください。
サイトに、実際には必要のないコンテンツが含まれていることがわかっている場合は、「The crawl includes unnecessary pages」のガイダンスを参照してください。
クロールを（「Include URLs」または「Exclude URLs」設定を使用して）2つ以上の別々のクロールに分割し、それぞれがWebサイトの一部のみをスクレイピングします。

クロールにページがありません

URL全体または記事がクロールに見つからない場合は、「開始URL」と「Include URLs」を使用してクロールの範囲を広げます。設定が正しいことを確認しても記事が表示されない場合は、インポート概要でクロールされたページ数を確認してください。デフォルトの「クロールする最大ページ数」（4,000）程度の場合は、この設定を増やしてみてください。

クロールに不要なページが含まれています

クロールに必要以上に多くのページや記事が含まれている場合（たとえば、スペイン語のみが必要な英語のページや、AIエージェントがカスタマーの質問に回答する必要のないコンテンツなど）、「除外URL」設定を使用します。

特定のサブページを誤って除外することは避けてください。開始 URL は、クローラーを開始する場所を定義します。その後、そのページ以降のすべてのリンクを、指定された最大クロール深度までたどります。ただし、ページを除外した場合、除外されたページからのみリンクされているページは、別途開始URLとして指定しない限り、クロールされることはありません。

例として、次の図を参照してください。各円はページを表し、各矢印はそのページからのリンクを表します。クロールがトップページ（のように、唯一の開始URL）から開始し、紫色のページが除外されている場合、次のようになります。

赤いページはクロールできません。
すべてのイエローページがクロールされます。
緑色のページもクロールされます。除外された紫色のページからリンクされているにもかかわらず、クロールされるのは、緑色のページも、黄色のページのいずれかからリンクされているからです。

クロールに正しいページが含まれているが、コンテンツが間違っている

クロールによって正しいページが返されても、それらのページ内で間違ったコンテンツが返された場合、詳細なクローラー設定には、そのようなコンテンツを見つけて含めるか除外するツールが含まれます。含める要素または除外する要素に適切なCSSセレクタを見つけ、適切な設定に挿入する必要があります。そのためには、CSSセレクタとは何か、その見つけ方を理解することが重要です。

ここでは、以下のトピックについて説明します。

CSSセレクタの概要と見つけ方
クロールはページコンテンツをスキップしています
クロールから返されたページコンテンツが多すぎるか、乱雑である

CSSセレクタの概要と見つけ方

このセクションでは、CSSセレクタを紹介し、正しいセレクタを見つける手順を説明します。この情報に精通している場合は、後述のトラブルシューティングのセクションに進んでください。

ここでは、以下のトピックについて説明します。

CSSセレクタについて
CSSセレクタを見つける
CSSセレクタを確認する

CSSセレクタについて

CSSセレクタは、Webページ上の特定のHTML要素を選択してターゲット設定するために使用するパターンです。これにより、複雑なWebページから必要な正確なデータを簡単に検索して抽出できます。

Web クロールや Web スクレイピングでは、CSS セレクタを使用して、<div>、<span>、特定のクラスや ID を持つ要素など、ページの構造の正確な部分を特定することで、データを抽出できます。たとえば、セレクタ.product-titleは、クラス"product-title"を持つすべての要素を対象としています。シャープ記号（#）は、一意のIDで要素を選択するために使用されます。たとえば、#main-header はid="main-header"を持つ要素を選択します。

CSSセレクタを見つける

まず、使用するCSSセレクタを見つける必要があります。以降の手順は、ChromeのWebブラウザを使用していることを前提としています。ただし、他のブラウザでも手順は似ています。

CSS セレクタを見つけるには

ターゲットにするWebページ内のテキストまたはクリック可能な項目を見つけます。
その要素を直接右クリックし、「Inspect」を選択します。
Chromeの「開発ツール」パネルが開き、一致するコードがハイライトされます。
「開発ツール」パネルで、ハイライト表示されたコードを右クリックし、「>をコピー」「セレクタをコピー」を選択します。
これでCSSセレクタがクリップボードにコピーされました。

CSSセレクタを確認する

CSSセレクタを見つけたら、確認することをお勧めします。

CSSセレクタを確認するには

開発ツールを開いたまま、Ctrl+Fキー（WindowsまたはLinux）またはCmd+Fキー（Mac）を押します。
これにより、開発ツールパネルの「要素」タブ内の検索バーがアクティブになります。
コピーしたCSSセレクタをこの検索ボックスに貼り付けます。
HTMLおよびページ自体でハイライトされた要素（多くの場合、色の付いたアウトライン）が期待どおりのものであることを確認します。

必要な要素のみがハイライトされている場合、セレクタは正確です。ハイライトされる要素が多すぎたり、間違っている場合は、親要素を試すか、選択を調整してください。

オプションで、さまざまなセレクタをテストすることができます。セレクタが短い場合や特定のセレクタの方が有効な場合もあります。HTML内の親要素または子要素をクリックすると、それらのCSSクラスまたはIDが表示され、それらのセレクタもコピーできます。

次の2つのセクションでは、これらのセレクタを使用して、クロールするコンテンツやクロールしたくないコンテンツを指定する方法について説明します。

クロールがページコンテンツをスキップしています

クロールに適切なページがあっても、それらのページにコンテンツがない場合は、次の詳細なクローラー設定が役に立ちます。

HTMLトランスフォーマー：クローラーは、最初にページからすべてのHTMLを削除し、次にHTMLトランスフォーマーを適用して不要なコンテンツを削除します。トランスフォーマーは、実際に保持したいコンテンツを削除することがあります。したがって、コンテンツが見つからない場合に最初に試すべきことは、この設定を「なし」に変更してコンテンツが削除されないようにし、インポートの概要を確認することです。
Keep HTML elements：1つ以上のCSSセレクタを指定することで、特定のHTML要素のみを保持します。その他のコンテンツはすべて無視されるため、関連性の高い情報に焦点を合わせやすくなります。
クリック可能な要素を展開：このオプションを使用して、アコーディオンとドロップダウンの背景にあるコンテンツをキャプチャします。デフォルト設定は、標準の Web 開発方法に従う Web ページを対象とし、ドロップダウンをaria=falseとして定義します。つまり、クローラーがそのような要素に遭遇すると、クリックされ、開きます。非表示のコンテンツを展開するボタンやリンクなど、クリックする要素がある場合は、CSSセレクタを入力します。これにより、クローラーはすべてのテキストをキャプチャできます。セレクタが有効であることを確認してください。
コンテナをスティッキーにする：別の要素がクリックされたときに展開可能なコンテンツが閉じてしまう場合、この設定を使用して、それらの要素がクリックされた後も開いたままになるようにすることができます。この場合も、クリックする要素にはCSSセレクタを入力し、非表示のコンテンツを展開するボタンやリンクなど、他の要素がクリックされた後も開いたままになります。
セレクタを待機し、セレクタを待機する：ページに動的コンテンツがあり、一定の時間が経過しないと表示されない場合、待機するように指示されない限り、クローラーによって見逃される可能性があります。クローラーにCSSセレクタで待機させるには、2つの方法があります。
- 「動的コンテンツを待機」設定では、クローラーが待機する時間を指定します。制限時間内にセレクタが見つからない場合、リクエストは失敗したと見なされ、2回再試行されます。
- 「Soft wait for selector」は、クローラーが待機する時間です。また、セレクタが見つからない場合でもクローラーがページをクロールし続けるようにすることで、失敗を防ぎます。
- これらの設定は、JavaScriptコンテンツを取得しないため、Raw HTTPクライアント（Cheerio）クローラータイプでは機能しません。
最大スクロール高：ページによっては、クローラーが途中であきらめてしまうほど長いものがあります。特定のポイント以下のコンテンツが表示されない場合、この設定を使用して、クローラーに指定したピクセル数だけスクロールさせることができます。

クロールから返されたページのコンテンツが多すぎるか、または乱雑になっている

クロールに適切なページがあっても、それらのページに余分なコンテンツや不要なコンテンツ(マーケティングテキスト、ナビゲーション、ヘッダーまたはフッター、さらにはCookie)があり、AIエージェントの回答を妨害している疑いがある場合は、次の詳細なクローラー設定を使用してそのコンテンツを除外します。

Keep HTML elements：1つ以上のCSSセレクタを指定することで、特定のHTML要素のみを保持します。その他のコンテンツはすべて無視されるため、関連性の高い情報に焦点を合わせやすくなります。多くのヘルプセンターでは、これはナビゲーションや関連記事、不要なバナーやヘッダーを避けながら、メイン記事のコンテンツを確実にターゲティングするための最もシンプルなアプローチです。
HTML要素を削除：CSSセレクタを使用して、クロールから削除するHTML要素を指定します。これは、特定の既知のコンテンツを除外する最も正確で強力な方法です。

翻訳に関する免責事項：この記事は、お客様の利便性のために自動翻訳ソフトウェアによって翻訳されたものです。Zendeskでは、翻訳の正確さを期すために相応の努力を払っておりますが、翻訳の正確性については保証いたしません。

翻訳された記事の内容の正確性に関して疑問が生じた場合は、正式版である英語の記事を参照してください。