Dépannage des problèmes liés aux importations du crawler Web pour les agents IA - Avancé

Module supplémentaire

Agents IA - Avancé

Vous pouvez utiliser un crawler Web pour importer du contenu dans votre agent IA - Avancé. Cela permet à votre agent IA de créer des réponses générées par IA basées sur les informations de sites Web externes.

Cet article vous aidera à résoudre les problèmes que vous pouvez rencontrer lors de l’utilisation d’un crawler Web pour importer du contenu pour un agent IA - Avancé.

Cet article aborde les sujets suivants :

Échec de l'exploration car le délai a expiré
Il manque des pages dans l’exploration
L’exploration inclut les pages inutiles
L’exploration inclut les bonnes pages, mais le mauvais contenu

Échec de l'exploration car le délai a expiré

Si une exploration du Web échoue après plusieurs heures, cela est généralement dû à un délai d’expiration. Par défaut, les explorations sont limitées à 5 heures. Si l’échec est survenu cinq heures après le début de l’importation, il y a de fortes chances qu’il s’agisse d’un délai d’expiration.

Si cela se produit, voici quelques étapes de résolution que vous pouvez essayer :

Si le site Web n’utilise pas JavaScript, configurez le type de crawler sur Raw HTTP client (CHEerio), un crawler beaucoup plus rapide, et réessayez.
Si vous savez que le site inclut du contenu dont vous n’avez pas besoin, consultez les conseils que vous trouverez dans L’exploration du site : pages inutiles.
Vous pouvez diviser l’exploration en deux ou plusieurs explorations indépendantes (en utilisant les paramètres Inclure les URL ou Exclure des URL ) qui n’explorent que des parties du site Web.

Il manque des pages dans l’exploration

Si des URL ou des articles entiers manquent dans l’exploration, élargissez la portée de votre exploration en utilisant Commencer des URL et Inclure des URL. Si vous êtes sûr que les paramètres sont corrects, mais qu’il vous manque encore des articles, vérifiez le nombre de pages explorées dans le résumé de l’importation. Si vous avez environ le nombre maximum de pages par défaut à explorer (4 000), essayez d’accroître ce paramètre.

L’exploration inclut les pages inutiles

Si l’exploration inclut plus de pages ou d’articles que nécessaire (par exemple, du contenu répétitif ou inapplicable, comme les pages en anglais quand vous n’avez besoin que de l’espagnol, ou du contenu dont votre agent IA n’a pas besoin pour répondre aux questions des clients), utilisez le paramètre Exclure des URL .

L’une des choses à éviter est l’exclusion accidentelle de certaines sous-pages. Les URL de départ définissent l’endroit où commencera le crawler. Il suivra ensuite tous les liens de cette page et des pages suivantes, jusqu’à la profondeur maximale d’explorationspécifiée. Cependant, si vous excluez des pages, les pages qui sont liées uniquement à partir de pages exclues ne seront jamais explorées, sauf si elles sont spécifiées séparément comme URL de départ.

Regardez le diagramme ci-dessous pour voir un exemple. Chaque cercle représente une page et chaque flèche représente un lien à partir de cette page. Si l’exploration commence à la page d’accueil (comme dans, c’est la seule URL de départ) et la page blanche est exclue, alors les critères suivants sont vrais :

La page rouge ne peut pas être explorée.
Toutes les pages jaunes sont explorées.
La page verte sera elle aussi explorée, même si elle est liée à la page violette exclue, car elle est également liée à l’une des pages jaunes incluses.

L’exploration inclut les bonnes pages, mais le mauvais contenu

Si le crawler renvoie les bonnes pages, mais renvoie le mauvais contenu dans ces pages, les paramètres du crawler avancé incluent des outils qui permettent de trouver et d’inclure ou d’exclure ce contenu. Vous devez trouver le bon sélecteur CSS pour l’élément que vous voulez inclure ou exclure, puis l’insérer dans le bon paramètre. Pour ce faire, il est important de comprendre ce qu’est un sélecteur CSS et comment le trouver.

Cette section aborde les sujets suivants :

Comprendre et trouver les sélecteurs CSS
L'exploration ignore le contenu de la page
L’exploration renvoie trop de contenu de page ou le contenu est confus

Comprendre et trouver les sélecteurs CSS

Cette section présente les sélecteurs CSS et vous explique comment trouver le bon sélecteur. Si vous connaissez déjà ces informations, passez directement aux sections de dépannage ci-dessous.

Cette section aborde les sujets suivants :

À propos des sélecteurs CSS
Trouver un sélecteur CSS
Vérification d’un sélecteur CSS

À propos des sélecteurs CSS

Les sélecteurs CSS sont des schémas utilisés pour sélectionner et cibler des éléments HTML spécifiques sur une page Web. Ils vous permettent de trouver et d’extraire plus facilement les données dont vous avez besoin à partir de pages Web complexes.

Avec l’exploration et l’extraction Web, les sélecteurs CSS aident à extraire les données en identifiant les parties exactes de la structure d’une page, comme <div>Mise à jour par : , <span>, ou des éléments avec certaines classes et ID. Par exemple, le sélecteur .product-title cible tous les éléments avec la classe "product-title". Le signe dièse (#) sert à sélectionner des éléments par ID unique. Par exemple : #main-header sélectionne l’élément avec id="main-header".

Trouver un sélecteur CSS

Vous devez commencer par trouver le sélecteur CSS que vous voulez utiliser. Les instructions suivantes supposent que vous utilisez le navigateur Web Chrome. Cependant, il est probable que les étapes soient semblables pour les autres navigateurs.

Pour trouver un sélecteur CSS

Cherchez le texte ou l’élément cliquable sur la page web que vous voulez cibler.
Cliquez directement sur cet élément avec le bouton droit de la souris et sélectionnez Inspecter.
Le volet des Outils de développement Chrome s’ouvre et le code correspondant est mis en surbrillance.
Dans le volet DevTools, cliquez avec le bouton droit sur le code en surbrillance et sélectionnez Copy. > Copier le sélecteur.
Le sélecteur CSS est copié dans votre presse-papiers.

Vérification d’un sélecteur CSS

Une fois que vous avez trouvé votre sélecteur CSS, il est conseillé de le vérifier.

Pour vérifier le sélecteur CSS

Laissez l’outil de développement logiciel ouvert et appuyez sur Ctrl+F (Windows ou Linux) ou Cmd+F (Mac).
Cela active une barre de recherche dans l’onglet Éléments du panneau DevTools.
Collez le sélecteur CSS que vous venez de copier dans ce champ de recherche.
Vérifiez que les éléments en surbrillance dans le code HTML et sur la page (souvent avec un contour en couleur) correspondent à ce que vous attendez.

Si seul l’élément souhaité est en surbrillance, votre sélecteur est précis. Si trop d’éléments ou les mauvais éléments sont mis en surbrillance, essayez un élément parent ou modifiez votre sélection.

Vous pouvez aussi tester différents sélecteurs. Parfois, les sélecteurs plus courts ou plus spécifiques fonctionnent mieux. Vous pouvez cliquer sur les éléments parent ou enfant dans le code HTML pour voir leurs classes CSS ou leurs ID et essayer de copier ces sélecteurs.

Les deux sections suivantes vous expliquent comment utiliser ces sélecteurs pour cibler le contenu que vous voulez explorer ou non.

L'exploration ignore le contenu de la page

Si votre crawler inclut les bonnes pages, mais qu’il manque du contenu sur ces pages, les paramètres avancés du crawler suivants peuvent vous aider :

Transformateur HTML Au départ, le crawler extrait tout le code HTML d’une page, puis applique un transformateur HTML pour supprimer le contenu inutile. Parfois, le transformateur peut aller trop loin et supprimer le contenu que vous voulez conserver. Donc, la première chose à essayer quand du contenu manque est de configurer ce paramètre sur Aucun pour qu’aucun contenu ne soit supprimé, puis de consulter le résumé de l’importation.
Conserver les éléments HTML Ne conservez que des éléments HTML spécifiques en fournissant un ou plusieurs sélecteurs CSS. Tout le reste du contenu est ignoré, ce qui vous aide à vous concentrer sur les informations pertinentes.
Développer les éléments cliquables Utilisez cette option pour capturer le contenu derrière les accordéons et les listes déroulantes. Le paramètre par défaut est conçu pour couvrir les pages Web qui suivent la pratique de développement Web standard et définit les listes déroulantes comme aria=false. Cela signifie que si le crawler rencontre un tel élément, l’utilisateur cliquera pour l’ouvrir. saisissez un sélecteur CSS pour tous les éléments sur lesquels vous devriez cliquer, comme les boutons ou les liens qui permettent de développer le contenu masqué. Cela aide le crawler à capturer tout le texte. Vérifiez que le sélecteur est valide.
Rendre les conteneurs collants Si le contenu développable se ferme quand quelqu’un clique sur un autre élément, vous pouvez utiliser ce paramètre pour vous assurer que cet élément reste ouvert après chaque clic. Entrez un sélecteur CSS pour chaque élément sur lequel vous voulez cliquer et restez ouvert, même une fois que vous avez cliqué sur d’autres éléments, comme les boutons ou les liens qui permettent de développer le contenu masqué.
Attente réversible pendant le sélecteur et Attente provisoire pour le sélecteur : Si la page contient du contenu dynamique qui ne s’affiche qu’après un laps de temps donné, le crawler peut le manquer, sauf s’il est spécifié à attendre. Il y a deux façons de demander au crawler d’attendre avec un sélecteur CSS.
- Le paramètre Attente du contenu dynamique détermine le temps d’attente du crawler. Si le sélecteur est introuvable avant la limite de temps, la demande est considérée comme ayant échoué et nous réessaierons plusieurs fois.
- Le sélecteur d’attente provisoire pendant combien de temps attend le crawler, mais garantit également que le crawler continue d’explorer la page si le sélecteur est introuvable, ce qui évite les échecs.
- Ces paramètres ne fonctionnent pas avec le type de crawler client HTTP Raw (CHEerio) car ils ne reçoivent pas de contenu JavaScript.
Hauteur de défilement maximale : Certaines pages sont si longues que le crawler abandonne avant la fin. S’il vous manque du contenu en dessous d’un certain point, vous pouvez utiliser ce paramètre pour forcer le crawler à faire défiler un nombre de pixels spécifié.

L’exploration renvoie trop de contenu de page ou le contenu est confus

Si votre crawler a les bonnes pages, mais a du contenu supplémentaire ou inutile sur ces pages (par exemple, du texte marketing, la navigation, en-têtes ou pieds de page, voire des cookies) que vous suspectez d’interférer avec les réponses de l’agent IA , utilisez le crawler avancé suivant : pour exclure ce contenu :

Conserver les éléments HTML Ne conservez que des éléments HTML spécifiques en fournissant un ou plusieurs sélecteurs CSS. Tout le reste du contenu est ignoré, ce qui vous aide à vous concentrer sur les informations pertinentes. Pour de nombreux centres d’aide, c’est l’approche la plus simple pour s’assurer que le contenu principal est ciblé, tout en évitant la navigation, les articles connexes et les bannières et en-têtes inutiles.
Retirer des éléments HTML Utilisez des sélecteurs CSS pour spécifier les éléments HTML à supprimer de l’exploration. C’est le moyen le plus précis et le plus efficace d’exclure le contenu connu et spécifié.

Traduction - exonération : cet article a été traduit par un logiciel de traduction automatisée pour permettre une compréhension élémentaire de son contenu. Des efforts raisonnables ont été faits pour fournir une traduction correcte, mais Zendesk ne garantit pas l’exactitude de la traduction.

Si vous avez des questions quant à l’exactitude des informations contenues dans l’article traduit, consultez la version anglaise de l’article, qui représente la version officielle.