Dépannage du crawler Web

Suite, toutes les versions

Growth, Professional, Enterprise ou Enterprise Plus

Support avec

Guide Professional ou Enterprise

Avec la recherche fédérée Zendesk, vos utilisateurs finaux peuvent voir du contenu externe dans les résultats de recherche dans le centre d’aide, comme des bases de connaissances externes, des logiciels de gestion de l’apprentissage, des blogs et des pages de votre site Web. Vous pouvez implémenter la recherche fédérée par le biais de l’API Recherche fédérée Zendesk ou du crawler Web.

Le crawler Web est disponible dans les paramètres de votre centre d’aide et vous permet d’implémenter la recherche fédérée dans votre centre d’aide sans avoir recours aux ressources pour les développeurs (consultez Configuration du crawler de recherche). Vous pouvez utiliser cet article pour dépanner la configuration de votre crawler et les erreurs de page que vous pouvez rencontrer lors de la configuration du crawler Web dans votre application.

Cet article aborde les sujets suivants :

Erreurs de configuration du crawler
Erreurs d’enregistrement
Erreurs robots.txt

Erreurs de configuration du crawler

Les erreurs de configuration du crawler sont générées quand le crawler de recherche ne s’exécute pas correctement à cause d’erreurs lors de la vérification du propriétaire du domaine ou de traitement du plan du site. Les erreurs de configuration du crawler génèrent une notification par e-mail, envoyée au propriétaire du crawler défini pendant la configuration du crawler Web.

Le propriétaire du domaine n’a pas pu être vérifié

Le crawler Web essaie de vérifier le propriétaire du domaine chaque fois qu’il s’exécute. Cela peut prendre jusqu’à 24 heures. Si la vérification du domaine échoue, le propriétaire du crawler est notifié par e-mail et la page Crawlers affiche le statut « Échec de la vérification du domaine ».

Pour résoudre les erreurs de vérification du domaine, vérifiez les points suivants :

Le page d’accueil de votre site Web (aussi appelée page d’indexage ou page racine) fonctionne et est disponible publiquement. La page ne doit pas être restreinte par connexion de l’utilisateur, mot de passe, restrictions des adresses IP ou autres exigences d’authentification.
Vous devez confirmer que vous êtes le propriétaire de votre domaine. Cliquez sur le menu des options () de la page Crawlers, puis sélectionnez Modifier pour retourner à la configuration du crawler pour confirmer que vous êtes le propriétaire de votre domaine.. Consultez Configuration de la recherche fédérée dans votre centre d’aide à l’aide d’un crawler de recherche ou de l’API.

Le traitement du plan du site a échoué

Le crawler Web utilise le plan du site défini au moment de la configuration du crawler chaque fois qu’il s’exécute. Si le traitement du plan du site échoue, le propriétaire du crawler reçoit une notification par e-mail et le crawler ne s’exécute pas. Si cela se produit, vérifiez les points suivants :

Le crawler Web pointe vers la bonne URL de plan du site et arrive à la trouver. Vous pouvez modifier le crawler pour voir l’URL de plan du site actuelle. Consultez Gestion des crawlers de recherche.
Le plan du site est servi et disponible publiquement. La page ne doit pas être restreinte par connexion de l’utilisateur, mot de passe, restrictions des adresses IP ou autres exigences d’authentification.
Le plan du site a une URL XML conforme au protocole XML des plans de site.

Erreurs d’enregistrement

Les erreurs d’enregistrement surviennent quand il n’y a pas d’erreurs de configuration, mais que le crawler Web ne parvient pas à explorer et indexer les pages définies dans le plan du site du crawler (consultez Configuration du crawler de recherche). Quand une erreur d’enregistrement survient, le propriétaire du crawler reçoit une notification par e-mail contenant un lien vers un fichier CSV répertoriant les pages concernées et les erreurs associées.

Locale not detected

L’erreur « Locale not detected » indique que le crawler Web n’a pas réussi à détecter de langue ou que la langue détectée ne correspond à aucune des langues des centres d’aide actuelles.

Pour déterminer la langue d’un enregistrement, le crawler essaie les approches suivantes : la première stratégie réussie détermine la langue des enregistrements.

Il extrait la langue de l’attribut lang du marqueur <html>.
Il extrait la langue de l’en-tête Content-Language.
Il extrait la langue du marqueur <meta>.
Il effectue une analyse textuelle du contenu (CLD - Compact Language Detection).

L’erreur « Locale not detected » provient de l’un des problèmes suivants :

La langue identifiée est différente de celles qui sont configurées dans les centres d’aide de votre compte. Pour voir quelles langues sont configurées dans chaque centre d’aide de votre compte, consultez Configuration du centre d’aide pour la prise en charge de plusieurs langues. Vous trouverez les codes pour les langues que vous avez configurées dans Langues prises en charge par Zendesk par produit.
Le crawler Web n’a pas réussi à déterminer une langue.

Pour résoudre ce problème, vérifiez les points suivants :

L’attribut lang du marqueur html correspond à une langue du centre d’aide.
L’en-tête HTTP Content-Language correspond à une langue du centre d’aide.
L’élément meta avec le jeu Content-Language dans l’attribut http-equiv correspond à une langue du centre d’aide.

Consultez Langues du crawler de recherche.

Title not detected

L’erreur « Title not detected » indique que le crawler Web n’a pas réussi à détecter le titre d’un enregistrement. Pour déterminer le titre d’un enregistrement, le crawler Web essaie les approches suivantes :

Il extrait le contenu du marqueur <title>.
Il extrait le contenu du marqueur <h1>.
Il extrait le contenu textuel du marqueur <body>.

la première stratégie réussie détermine la langue des enregistrements. Le crawler indexe uniquement les 255 premiers caractères du contenu extrait. L’enregistrement n’est pas indexé si les stratégies ci-dessus n’ont pas déterminé de contenu.

Pour résoudre ce problème, vérifiez que la page concernée contient bien l’un des marqueurs mentionnés ci-dessus.

Body not found

L’erreur « Body not found » indique que le crawler Web n’a pas réussi à détecter le corps d’une page. Pour résoudre cette erreur, vérifiez que la page concernée contient bien le marqueur <body>.

HTTP [code de statut]

Si le champ de code d’erreur du fichier CSV pour un enregistrement contient HTTP et un code de statut, cela indique que l’indexage de la page a échoué, car le crawler n’a pas pu y accéder. Si l’indexage de la page a réussi (HTTP 2xx), vous ne recevrez pas d’erreur de code de statut HTTP.

Voici les codes d’erreur les plus courants :

404 - Page introuvable - La page n’existe pas ou a été déplacée vers une autre URL. Pour résoudre ce problème, vérifiez que le plan du site qu’utilise le crawler est à jour et que toutes les URL du plan du site pointent vers des pages existantes.
403 - Accès interdit - Un mécanisme de contrôle d’accès empêche le crawler d’accéder à la page (p. ex., la page exige la connexion ou utilise la restriction des adresses IP). Pour résoudre ce problème, vérifiez les points suivants :
- Vous avez ajouté Zendesk/External-Content, l’agent utilisateur du crawler Web, à votre liste autorisée.
- Les pages que vous voulez indexer sont accessibles publiquement (en effet, le crawler ne peut pas explorer les pages avec un accès restreint). Si vous ne pouvez pas rendre les pages que vous voulez explorer et indexer accessibles publiquement, envisagez de les indexer en utilisant l’API Recherche fédérée (contenu externe). Consultez Configuration de l’API Recherche fédérée Zendesk.
5xx - Erreur de serveur - Le crawler n’a pas pu explorer la page à cause d’une erreur de serveur. Il est possible que le plan du site soit temporairement indisponible. Pour résoudre ce problème, consultez une ou plusieurs des pages avec cette erreur pour vérifier que le site fonctionne. Si le site ne fonctionne pas, contactez l’administrateur du site. Une fois l’erreur résolue, attendez que le crawler s’exécute à nouveau à sa fréquence habituelle (toutes les 12-24 heures).

Invalid URL domain

L’erreur « Invalid URL domain » indique que l’URL de la page répertoriée dans le plan du site ne figure pas dans le domaine que vous avez configuré pendant la configuration du crawler.

Pour résoudre ce problème, vérifiez que le domaine de la page qui a engendré l’erreur se trouve sur le domaine qui est défini dans le crawler de recherche. Si la page liée dans le plan du site pointe vers une page hébergée sur un domaine différent de celui qui a été configuré pendant la configuration du crawler, vous pouvez prendre l’une des mesures suivantes :

Configurez un nouveau crawler Web pour la page concernée.
Déplacez la page du domaine externe vers le domaine configuré pour le crawler Web.

Undetermined

L’erreur « Undetermined » peut être due à l’un ou plusieurs des problèmes suivants :

Vous avez dépassé la limite d’enregistrements externes pour votre instance - Si vous dépassez la limite d’enregistrements externes, les enregistrements externes les plus récents au-delà de cette limite ne sont pas indexés ni mis à jour. Pour résoudre ce problème, prenez une ou plusieurs des mesures suivantes :
- Supprimez certains de vos crawlers : ainsi, les enregistrements externes de ces pages sont supprimés de votre instance et les pages qui n’avaient pas pu être indexées à cause de cette limite seront indexées. Consultez Gestion des crawlers de recherche.
- Supprimez des enregistrements individuels en utilisant l’API Recherche fédérée. Cependant, si le crawler qui indexe cette page est toujours actif ou si une intégration API personnalisée qui ajoute cette page est active, la page réapparaîtra à la prochaine exécution du crawler ou à la prochaine synchronisation de l’intégration.
- Supprimez les pages qu’un ou plusieurs crawlers utilisent du plan du site. À la prochaine exécution du crawler, il réindexera les pages restantes et supprimera celles qui ont été supprimées du plan du site.
- Pointez un ou plusieurs crawlers vers un plan du site avec moins de pages. À la prochaine exécution du crawler, il réindexera les pages restantes et supprimera celles qui ont été supprimées du plan du site.
La page utilise les redirections JavaScript - Le crawler Web ne traite pas les redirections JavaScript. Si la page utilise les redirections JavaScript, le crawler ne peut pas accéder à son contenu.
Pour résoudre ce problème, prenez l’une des mesures suivantes :
- Vérifiez que le plan du site pointe directement vers la page que vous voulez indexer.
- Implémentez les redirections HTTP.

Erreurs robots.txt

Un fichier robots.txt indique au crawler les parties du site Web auquel il a le droit d’accéder. Il sert principalement à éviter de surcharger un site Web avec des demandes d’exploration trop nombreuses.

Au lieu d’une étape de configuration, le fichier robots.txt sert de directives qui indiquent au crawler s’il peut explorer l’intégralité du site Web ou seulement certaines sections. Les clients n’ont pas d’interactions avec robots.txt, sauf si le crawler est bloqué ou si le fichier robots.txt file est invalide. Dans ces cas, le système génère l’une des erreurs suivantes qui doivent être résolues pour que le site puisse être exploré ou synchronisé.

Exploration bloquée par le site Web

Cette erreur se produit quand le fichier robots.txt est configuré pour empêcher tous les agents utilisateurs, y compris le crawler, d’accéder au site.

Pour vous assurer que le crawler Zendesk a la permission d’accéder au site tout en bloquant facultativement les autres crawlers, vous pouvez ajouter une règle de préséance au fichier robots.txt afin d’autoriser le crawler Zendesk.

Exemple 1 : autorisez uniquement Zendesk/External-Content

User-agent: Zendesk/External-Content
Allow: /

Exemple 2 : bloquez Googlebot

User-agent: Googlebot
Disallow: /

Fichier robots.txt non valide

Cette erreur se produit quand le fichier robots.txt existe, mais contient des erreurs de syntaxe ou des règles non valides, ce qui le rend illisible par les crawlers qui risquent alors d’ignorer ou d’annuler l’exploration.

Pour résoudre ce problème, vérifiez et corrigez votre fichier robots.txt pour qu’il respecte la syntaxe correcte et spécifie avec précision les permissions du crawler. Utilisez des outils en ligne, comme l’outil de test Robots de Google, pour valider votre fichier robots.txt.