Dépannage du crawler de recherche

Disponible avec les éditions Suite Enterprise et supérieures

Disponible avec les éditions Guide Enterprise

Avec la recherche fédérée Zendesk, vos utilisateurs finaux peuvent voir du contenu externe dans les résultats de recherche dans le centre d’aide, comme des bases de connaissances externes, des logiciels de gestion de l’apprentissage, des blogs et des pages de votre site Web. Vous pouvez implémenter la recherche fédérée par le biais de l’API Recherche fédérée Zendesk ou du crawler de recherche.

Le crawler de recherche est disponible dans les paramètres de votre centre d’aide et vous permet d’implémenter la recherche fédérée dans votre centre d’aide sans avoir recours aux ressources pour les développeurs (consultez Configuration du crawler de recherche). Vous pouvez utiliser cet article pour dépanner la configuration de votre crawler et les erreurs de page que vous pouvez rencontrer lors de la configuration du crawler de recherche dans votre application.

Cet article aborde les sujets suivants :

Erreurs de configuration du crawler
Erreurs d’enregistrement

Erreurs de configuration du crawler

Les erreurs de configuration du crawler sont générées quand le crawler de recherche ne s’exécute pas correctement à cause d’erreurs lors de la vérification du propriétaire du domaine ou de traitement du plan du site. Les erreurs de configuration du crawler génèrent une notification par e-mail, envoyée au propriétaire du crawler défini pendant la configuration du crawler de recherche.

Le propriétaire du domaine n’a pas pu être vérifié

Le crawler de recherche essaie de vérifier le propriétaire du domaine chaque fois qu’il s’exécute. Cela peut prendre jusqu’à 24 heures. Le propriétaire du crawler est notifié par e-mail en cas d’échec de la vérification du domaine, mais vous pouvez aussi effectuer cette vérification instantanément à la page de modification du crawler de recherche. Consultez Gestion des crawlers de recherche.

Pour résoudre les erreurs de vérification du domaine, vérifiez les points suivants :

Le page d’accueil de votre site Web (aussi appelée page d’indexage ou page racine) fonctionne et est disponible publiquement. La page ne doit pas être restreinte par connexion de l’utilisateur, mot de passe, restrictions des adresses IP ou autres exigences d’authentification.
Vous avez implémenté le bon marqueur pour votre crawler. Vous n’avez pas fait de faute de frappe et il se trouve dans la section <head> de la page d’accueil du site Web que vous voulez explorer. Le marqueur de vérification du domaine doit toujours se trouver sur la page d’accueil du site, même si votre crawler est configuré pour explorer un sous-ensemble de pages. Vous pouvez modifier le crawler pour voir les informations de vérification du domaine actuelles. Consultez Gestion des crawlers de recherche.
Remarque – Vous pouvez avoir plusieurs marqueurs de vérification pour différents crawlers dans le même domaine.

Exemple

L’exemple suivant illustre l’implémentation correcte du marqueur de vérification du domaine sur votre site.

<html>
<head>
 <meta name="zd-site-verification" content="crawler-verification-token">
 <title>Title</title>
<style>
 <!-- style info here -->
 </style>
 </head>
 <body>
 <!-- body of the page here -->
 </body>
</html>

Le traitement du plan du site a échoué

Le crawler de recherche utilise le plan du site défini au moment de la configuration du crawler chaque fois qu’il s’exécute. Si le traitement du plan du site échoue, le propriétaire du crawler reçoit une notification par e-mail et le crawler ne s’exécute pas. Si cela se produit, vérifiez les points suivants :

Le crawler de recherche pointe vers la bonne URL de plan du site et arrive à la trouver. Vous pouvez modifier le crawler pour voir l’URL de plan du site actuelle. Consultez Gestion des crawlers de recherche.
Le plan du site est servi et disponible publiquement. La page ne doit pas être restreinte par connexion de l’utilisateur, mot de passe, restrictions des adresses IP ou autres exigences d’authentification.
Le plan du site a une URL XML conforme au protocole XML des plans de site.

Erreurs d’enregistrement

Les erreurs d’enregistrement surviennent quand il n’y a pas d’erreurs de configuration, mais que le crawler de recherche ne parvient pas à explorer et indexer les pages définies dans le plan du site du crawler (consultez Configuration du crawler de recherche). Quand une erreur d’enregistrement survient, le propriétaire du crawler reçoit une notification par e-mail contenant un lien vers un fichier CSV répertoriant les pages concernées et les erreurs associées.

Locale not detected

L’erreur « Locale not detected » indique que le crawler de recherche n’a pas réussi à détecter de langue ou que la langue détectée ne correspond à aucune des langues des centres d’aide actuelles.

Pour déterminer la langue d’un enregistrement, le crawler essaie les approches suivantes : la première stratégie réussie détermine la langue des enregistrements.

Il extrait la langue de l’attribut lang du marqueur <html>.
Il extrait la langue de l’en-tête Content-Language.
Il extrait la langue du marqueur <meta>.
Il effectue une analyse textuelle du contenu (CLD - Compact Language Detection)

L’erreur « Locale not detected » provient de l’un des problèmes suivants :

La langue identifiée est différente de celles qui sont configurées dans les centres d’aide de votre compte. Pour voir quelles langues sont configurées dans chaque centre d’aide de votre compte, consultez Configuration du centre d’aide pour la prise en charge de plusieurs langues. Vous trouverez les codes pour les langues que vous avez configurées dans Langues prises en charge par Zendesk par produit.
Le crawler de recherche n’a pas réussi à déterminer une langue.

Pour résoudre ce problème, vérifiez les points suivants :

L’attribut lang du marqueur html correspond à une langue du centre d’aide.
L’en-tête HTTP Content-Language correspond à une langue du centre d’aide.
L’élément meta avec le jeu Content-Language dans l’attribut http-equiv correspond à une langue du centre d’aide.

Consultez Langues du crawler de recherche.

Title not detected

L’erreur « Title not detected » indique que le crawler de recherche n’a pas réussi à détecter le titre d’un enregistrement. Pour déterminer le titre d’un enregistrement, le crawler essaie les approches suivantes :

Il extrait le contenu du marqueur <title>.
Il extrait le contenu du marqueur <h1>.
Il extrait le contenu textuel du marqueur <body>.

la première stratégie réussie détermine la langue des enregistrements. Le crawler indexe les 255 premiers caractères du contenu extrait comme titre de l’enregistrement si la première ou la deuxième approche réussit. Si ces stratégies ne lui permettent pas de déterminer un titre, l’enregistrement n’est pas indexé.

Pour résoudre ce problème, vérifiez que la page concernée contient bien l’un des marqueurs mentionnés ci-dessus.

Body not found

L’erreur « Body not found » indique que le crawler de recherche n’a pas réussi à détecter le corps d’une page. Pour résoudre cette erreur, vérifiez que la page concernée contient bien le marqueur <body>.

HTTP [code de statut]

Si le champ de code d’erreur du fichier CSV pour un enregistrement contient HTTP et un code de statut, cela indique que l’indexage de la page a échoué car le crawler n’a pas pu y accéder. Si l’indexage de la page a réussi (HTTP 2xx), vous ne recevrez pas d’erreur de code de statut HTTP.

Voici les codes d’erreur les plus courants :

404 - Page introuvable - La page n’existe pas ou a été déplacée vers une autre URL. Pour résoudre ce problème, vérifiez que le plan du site qu’utilise le crawler est à jour et que toutes les URL du plan du site pointent vers des pages existantes.
403 - Accès interdit - Un mécanisme de contrôle d’accès empêche le crawler d’accéder à la page (p. ex., la page exige la connexion ou utilise la restriction des adresses IP). Pour résoudre ce problème, vérifiez les points suivants :
- Vous avez ajouté Zendesk/External-Content, l’agent utilisateur du crawler de recherche, à votre liste autorisée.
- Les pages que vous voulez indexer sont accessibles publiquement (en effet, le crawler ne peut pas explorer les pages avec un accès restreint). Si vous ne pouvez pas rendre les pages que vous voulez explorer et indexer accessibles publiquement, envisagez de les indexer en utilisant l’API Recherche fédérée (contenu externe). Consultez Configuration de l’API Recherche fédérée Zendesk.
5xx - Erreur de serveur - Le crawler n’a pas pu explorer la page à cause d’une erreur de serveur. Il est possible que le plan du site soit temporairement indisponible. Pour résoudre ce problème, consultez une ou plusieurs des pages avec cette erreur pour vérifier que le site fonctionne. Si le site ne fonctionne pas, contactez l’administrateur du site. Une fois l’erreur résolue, attendez que le crawler s’exécute à nouveau à sa fréquence habituelle (toutes les 12-24 heures).

Invalid URL domain

L’erreur « Invalid URL domain » indique que l’URL de la page répertoriée dans le plan du site ne figure pas dans le domaine que vous avez configuré pendant la configuration du crawler.

Pour résoudre ce problème, vérifiez que le domaine de la page qui a engendré l’erreur se trouve sur le domaine qui est défini dans le crawler de recherche. Si la page liée dans le plan du site pointe vers une page hébergée sur un domaine différent de celui qui a été configuré pendant la configuration du crawler, vous pouvez prendre l’une des mesures suivantes :

Configurez un nouveau crawler de recherche pour la page concernée.

Déplacez la page du domaine externe vers le domaine configuré pour le crawler de recherche.

Undetermined

L’erreur « Undetermined » peut être due à l’un ou plusieurs des problèmes suivants :

Vous avez dépassé la limite d’enregistrements externes pour votre instance - Le crawler de recherche a une limite de 50 000 enregistrements externes. Si vous dépassez cette limite, les enregistrements externes les plus récents au-delà de cette limite ne sont pas indexés ni mis à jour. Pour connaître le nombre d’enregistrements externes qu’a utilisés votre crawler, consultez les informations sur le crawler de recherche. Consultez Gestion des crawlers de recherche. Pour résoudre ce problème, prenez une ou plusieurs des mesures suivantes :
- Supprimez certains de vos crawlers : ainsi, les enregistrements externes de ces pages sont supprimés de votre instance et les pages qui n’avaient pas pu être indexées à cause de cette limite seront indexées. Consultez Gestion des crawlers de recherche.
- Supprimez des enregistrements individuels en utilisant l’API Recherche fédérée. Cependant, si le crawler qui indexe cette page est toujours actif ou si une intégration API personnalisée qui ajoute cette page est active, la page réapparaîtra à la prochaine exécution du crawler ou à la prochaine synchronisation de l’intégration.
- Supprimez les pages qu’un ou plusieurs crawlers utilisent du plan du site. À la prochaine exécution du crawler, il réindexera les pages restantes et supprimera celles qui ont été supprimées du plan du site.
- Pointez un ou plusieurs crawlers vers un plan du site avec moins de pages. À la prochaine exécution du crawler, il réindexera les pages restantes et supprimera celles qui ont été supprimées du plan du site.
La page utilise les redirections JavaScript - Le crawler de recherche ne traite pas les redirections JavaScript. Si la page utilise les redirections JavaScript, le crawler ne peut pas accéder à son contenu.
Pour résoudre ce problème, prenez l’une des mesures suivantes :
- Vérifiez que le plan du site pointe directement vers la page que vous voulez indexer.
- Implémentez les redirections HTTP.