Webクローラーを使用すると、ヘルプセンター検索や生成検索で利用するために、外部コンテンツをクロールしてインデックス化することができます。Webクローラーを使用することで、開発者の手を借りずに、横串検索を実装することができます。複数のクローラーを設定して、同じWebサイトまたは異なるWebサイトの異なるコンテンツをクロールおよびインデックス化することができます。
ユーザーがヘルプセンターで検索を実行すると、クローラーが検出した関連性の高い外部コンテンツがランク付けされて検索結果ページに表示されます。ユーザーはこの検索結果をフィルター処理したり、リンクをクリックして外部コンテンツのリンクを別のブラウザータブに表示したりできます。
Webクローラーについて
ヘルプセンター検索や生成型検索で利用できるようにするため、同一サイトまたは別のサイト上にある外部コンテンツをクロールしてインデックス化するWebクローラーを1つ以上設定できます。クロールする外部サイトには、Webクローラー用のページをリストアップしたサイトマップが必要です。さらに、クロールするページは、パブリック(非認証)である必要があります。
クローラーを構成すると、30分ごとに自動で実行されるようスケジュールされ、セットアップ時に指定したサイトマップ内のページにアクセスします。そして、これらのページのコンテンツをヘルプセンターの検索インデックスに追加します。Webクローラーはページの初回読み込み時に、アコーディオンなどのUI要素で非表示になっている場合でも、ページソース内にあるコンテンツをインデックスに追加します。ただし、クローラーはJavaScriptを実行しないため、JavaScriptによって表示されるコンテンツや、初回読み込み後に動的にレンダリングされるその他のコンテンツはクロールされません。
また、Webクローラーはアクセスしたページ内のリンクをたどることはなく、指定されたサイトマップ内のページのみにアクセスします。定期的に実行されるクロール時に、たとえばWebサイトがダウンしていたりネットワークに問題があったりして、情報を取得できなかった場合でも、ヘルプセンターでは前回のクロール結果が保持され、引き続き検索に使用されます。
Webクローラーの設定
Webクローラーを使用することで、開発者の手を借りずに、ヘルプセンターに横串検索を実装することができます。ヘルプセンターで複数のクローラーを設定して、同一Webサイトまたは異なるWebサイトのさまざまなコンテンツをクロールし、インデックスを作成することができます。
- Webクローラーは、gzipファイル圧縮エンコーディングを使用するWebサイトでは機能しません。これらのサイトからの検索結果は表示されません。
- 外部サイトのrobots.txtファイルで設定されたcrawl-delayは、Webクローラーによって無視されます。
- changefreqタグはWebクローラーには何の影響も与えません。
Webクローラーを設定するには
-
ナレッジベースの管理で、サイドバーにある設定アイコン(
)をクリックします。
- 「検索設定」をクリックします。
- 「クローラー」の「管理」をクリックします。

- 「クローラーを追加」をクリックします。

- 「このクローラーに名前を付ける」で、以下の内容を入力します。
- 名前:クローラーに割り当てる名前。これは、クローラー管理リストでWebクローラーを識別するための内部名です。
-
オーナー:クローラーのメンテナンスとトラブルシューティングを担当するナレッジベース管理者のユーザー名。デフォルトでは、クローラーを作成したユーザーがオーナーとして設定されます。ただし、オーナーは任意のナレッジベース管理者に変更できます。
クローラーのオーナーには、クローラーが正常に実行されたときと、ドメイン検証やサイトマップの処理、ページのクロールなどで問題が発生してエラー通知があるときに、メール通知が届きます。

- 「クロールするWebサイトを追加する」で、以下の設定を行います。
- WebサイトURL:クロール対象のWebサイトのURLを入力します。
- このWebサイトをクロールする権限があることを確認しました:このチェックボックスの下の注意事項を確認し、このWebサイトをクロールする許可があることに同意します。

- 「サイトマップを追加する」では、「サイトマップURL」に、サイトのクロール時にクローラーが使用するサイトマップのURLを入力します。
サイトマップは、sitemaps XMLプロトコルに従い、クロールするサイト内のすべてのページのリストを含んでいる必要があります。サイトマップには、サイトのすべてのページを含む標準のサイトマップと、クロールしたいページをリストする専用のサイトマップがあります。すべてのサイトマップは、クローラーがクロールするように設定されたドメインにホストされている必要があります。Webクローラーはサイトマップインデックスに対応していません。
同じサイトに複数のクローラーを設定し、それぞれが異なるサイトマップを使用することで、Webクローラーにクロールさせたいページを定義できます。

- 「フィルターを追加してこのコンテンツを見つけやすくする」で、エンドユーザーが検索結果のフィルタリングに使用するソースフィルターとタイプフィルターを設定します。ソースとは、フォーラム、問題のトラッカー、学習管理システムなどの外部コンテンツのソースを指します。タイプとは、ブログ投稿、テクニカルノート、バグレポートなど、コンテンツの種類を示します。
- ソース:矢印をクリックし、リストからソースを選択するか、「+新しいソースを作成する」を選択して、このコンテンツの場所を示す名前を付けます。
- タイプ:矢印をクリックし、リストからタイプを選択するか、「+新規タイプを作成」を選択して、コンテンツのタイプを示す名前を付けます。

- 「終了」をクリックします。Webクローラーが作成され、保留になっています。24時間以内に、クローラーはドメインのオーナーシップを確認し、指定されたサイトマップを取得して解析します。サイトマップ処理に成功すると、クローラーはページのクロールとコンテンツのインデックス作成を開始します。ドメインの検証中またはサイトマップの処理中にクローラーが失敗した場合、クローラーのオーナーは、問題の解決に役立つトラブルシューティングのヒントを含むメール通知を受け取ります。クローラーは24時間後に再試行します。メモ:Zendesk/External-Contentは、Webクローラーのユーザーエージェントです。ファイアウォールがリクエストをブロックすることでクローラーが失敗しないようにするには、Zendesk/External-Contentを許可リストに登録します。
- ヘルプセンター検索の場合は、ヘルプセンターの検索結果に含めるコンテンツと除外するコンテンツを選択する必要があります。詳しくは「ヘルプセンターの検索結果に外部コンテンツを含める方法」を参照してください。
- エージェント向けのコンテキストパネルのナレッジベースセクションについて詳しくは「コンテキストパネルのナレッジベースの設定」を参照してください。