¿Qué plan tengo?
Complemento Agentes IA – Avanzado

Puede usar un rastreador web para importar contenido a su agente IA avanzada. Esto le da al agente IA la capacidad de crear respuestas generadas por IA a las preguntas de los clientes en función de la información en sitios web externos.

Este artículo le ayudará a resolver los problemas que puede encontrar al usar un rastreador web para importar contenido para un agente IA avanzada.

En este artículo se tratan los siguientes temas:

  • El rastreo falló porque se agotó el tiempo de espera
  • Al rastreo le faltan páginas
  • El rastreo incluye páginas innecesarias
  • El rastreo incluye las páginas correctas pero el contenido incorrecto

Artículos relacionados:

  • Mejores prácticas para usar un rastreador web para importar contenido para agentes IA avanzada
  • Administrar las fuentes de conocimiento importadas para los agentes IA avanzada

Falló el rastreo porque se agotó el tiempo de espera

Si un rastreo web falla después de varias horas, por lo general es causado por un tiempo máximo de inactividad. Los rastreos tienen un límite de cinco horas de manera predeterminada. Si la falla ocurrió cinco horas después de que comenzó la importación, lo más probable es que se agote el tiempo de espera.

Si esto sucede, estos son algunos pasos de resolución que puede probar:

  • Si el sitio web no depende de JavaScript, establezca el tipo de rastreador en Cliente HTTP sin procesar (Cheerio), un rastreador mucho más rápido, y vuelva a intentarlo.
  • Si sabe que el sitio incluye contenido que en realidad no necesita, consulte la guía en El rastreo incluye páginas innecesarias.
  • Divida el rastreo en dos o más rastreos separados (usando la configuración Incluir URL o Excluir URL) que cada uno raspa solo partes del sitio web.

Faltan páginas en el rastreo

Si faltan URL o artículos completos en el rastreo, aumente el alcance del rastreo usando URL de inicio e Incluya URL. Si está seguro de que la configuración es correcta pero aún le faltan artículos, verifique el número de páginas rastreadas en el resumen de importación. Si está alrededor de las máximas páginas predeterminadas (4.000), intente aumentar esta configuración.

El rastreo incluye páginas innecesarias

Si el rastreo incluye más páginas o artículos de lo necesario (por ejemplo, contenido repetitivo o inaplicable, como páginas en inglés cuando solo se necesita español, o contenido que el agente IA no necesita para responder las preguntas de los clientes), utilice la opción Excluir URL.

Algo que se debe evitar es excluir accidentalmente ciertas subpáginas. Los URL de inicio definen dónde comenzará el rastreador. Luego seguirá todos los vínculos de esa página y las páginas subsiguientes, hasta la profundidad máxima especificada. Sin embargo, si se excluyen páginas, nunca se rastrearán las páginas que estén vinculadas solo desde páginas excluidas a menos que se especifique por separado como URL de inicio.

Vea el siguiente diagrama como ejemplo. Cada círculo representa una página y cada flecha representa un vínculo de esa página. Si el rastreo comienza en la página superior (como en, es el único URL de inicio) y se excluye la página morada, se cumple lo siguiente:

  • No se puede rastrear la página roja.
  • Se rastrean todas las páginas amarillas.
  • La página verde will también se rastrea, aunque esté vinculada desde la página púrpura excluida, porque también está vinculada desde una de las páginas amarillas incluidas.

El rastreo incluye las páginas correctas pero el contenido incorrecto

Si el rastreo devuelve las páginas correctas, pero devuelve el contenido incorrecto dentro de esas páginas, la configuración avanzada del rastreador incluye herramientas para buscar e incluir o excluir dicho contenido. Debe encontrar el selector CSS correcto para el elemento que desea incluir o excluir y luego insertarlo en la configuración correcta. Para ello, es útil comprender qué es un selector CSS y cómo encontrarlo.

En esta sección se tratan los siguientes temas:

  • Comprender y encontrar los selectores CSS
  • El rastreo es omitir contenido de la página
  • El rastreo está devolviendo demasiado o contenido desordenado de la página

Comprender y encontrar selectores CSS

En esta sección se presentan los selectores CSS y se explica cómo encontrar el correcto. Si ya conoce esta información, vaya directamente a las secciones de resolución de problemas a continuación.

En esta sección se tratan los siguientes temas:

  • Acerca de los selectores CSS
  • Buscar un selector CSS
  • Verificar un selector CSS

Acerca de los selectores CSS

Los selectores CSS son patrones que se usan para seleccionar y dirigir elementos HTML específicos en una página web. Hacen que sea más fácil encontrar y extraer exactamente los datos que se necesitan de páginas web complejas.

En el rastreo web y el raspado, los selectores CSS ayudan a extraer datos porque identifican las partes exactas de la estructura de una página, como <div>, <span> o elementos con ciertas clases e ID. Por ejemplo, el .product-title selector selecciona todos los elementos que tienen la "product-title" de clase. El signo de libra (#) se usa para seleccionar elementos por su ID única. Por ejemplo, #main-header selecciona el elemento con id="main-header".

Buscar un selector CSS

Primero, debe buscar el selector CSS que desea usar. Las siguientes instrucciones suponen que está usando el navegador web Chrome. Sin embargo, es probable que los pasos sean similares para otros navegadores.

Para buscar un selector CSS

  1. Ubique el texto o el elemento en el que se puede hacer clic en la página web a la que desea dirigirse.
  2. Haga clic derecho directamente en ese elemento y seleccione Inspeccionar.

    Se abre el panel Chrome DevTools y se resalta el fragmento de código coincidente.

  3. En el panel DevTools, haga clic con el botón derecho del mouse en el código resaltado y seleccione Copiar selector Copiar >.

    Ahora tiene el selector CSS copiado en el portapapeles.

Verificar un selector CSS

Después de encontrar el selector CSS, es una buena idea verificarlo.

Para verificar el selector CSS

  1. Con DevTools todavía abierto, presione Ctrl+F (en Windows o Linux) o Cmd+F (en Mac).

    Esto activa una barra de búsqueda dentro de la pestaña Elementos del panel Herramientas de desarrollo.

  2. Pegue el selector CSS que acaba de copiar en este cuadro de búsqueda.
  3. Verifique que los elementos resaltados en el HTML y en la propia página (a menudo con un contorno de color) coincidan con lo que espera.

Si solo se resalta el elemento que desea, el selector es preciso. Si hay demasiados elementos resaltados o incorrectos, pruebe con un elemento principal o ajuste su selección.

Opcionalmente, puede probar distintos selectores. A veces, los selectores más cortos o más específicos funcionan mejor. Puede hacer clic en los elementos principales o secundarios en el HTML para ver sus clases CSS o ID e intentar copiar esos selectores también.

Las dos secciones siguientes explican cómo usar estos selectores para seleccionar el contenido que desea rastrear o no.

El rastreo está omitiendo el contenido de la página

Si el rastreador tiene las páginas correctas, pero le falta contenido en esas páginas, la siguiente configuración avanzada puede ser útil:

  • Transformador HTML: El rastreador inicialmente raspa todo el HTML de una página y luego aplica un transformador de HTML para eliminar el contenido extraño. A veces el transformador puede ir demasiado lejos y eliminar el contenido que en realidad desea conservar. Por lo tanto, lo primero que debe intentar cuando falta contenido es cambiar esta configuración a Ninguno para que no se elimine contenido y luego verificar el resumen de la importación.
  • Conservar elementos HTML: Mantenga solo elementos HTML específicos proporcionando uno o más selectores de CSS. El resto del contenido se ignora para que pueda concentrarse en la información pertinente.
  • Ampliar elementos en los que se puede hacer clic: Utilice esta opción para capturar el contenido detrás de los acordeones y los menús desplegables. La configuración predeterminada está pensada para incluir las páginas web que siguen la práctica de desarrollo web estándar y definen los menús desplegables como aria=false. Eso quiere decir que si el rastreador encuentra ese elemento, se hará clic para abrirlo. Ingrese un selector CSS para cualquier elemento en el que se deba hacer clic, como botones o vínculos que amplíen el contenido oculto. Esto ayuda al rastreador a capturar todo el texto. Asegúrese de que el selector sea válido.
  • Hacer que los contenedores sean pegajosos: Si el contenido ampliable se cierra cuando se hace clic en un elemento diferente, se puede usar esta configuración para asegurarse de que dichos elementos permanezcan abiertos después de hacer clic en ellos. De nuevo, ingrese un selector CSS para cualquier elemento en el que se debe hacer clic y luego permanezca abierto incluso después de que se haya hecho clic en otros elementos, como botones o vínculos que amplían el contenido oculto.
  • Selector Esperar y Selector Esperar suave: Si la página tiene contenido dinámico que aparece solo después de cierto tiempo, es posible que el rastreador la pase por alto a menos que se le indique que espere. Hay dos maneras de decirle al rastreador que espere con un selector CSS.
    • La opción Esperar contenido dinámico determina la cantidad de tiempo que espera el rastreador. Si el selector no se encuentra antes del límite de tiempo, se considera una solicitud fallida y se volverá a intentar un par de veces.
    • El selector Suave espera cuánto tiempo espera el rastreador, pero también se asegura de que el rastreador continúe rastreando la página si no se encuentra el selector, lo que evita fallas.
    • Esta configuración no funciona con el tipo de rastreador de cliente HTTP sin procesar (Cheerio) porque no obtiene contenido de JavaScript.
  • Altura máxima de desplazamiento: Algunas páginas son tan largas que el rastreador se da por vencido antes del final. Si falta contenido por debajo de un punto determinado, puede usar esta configuración para forzar al rastreador a desplazarse por un número específico de píxeles.

El rastreo está devolviendo demasiado contenido de la página o está desordenado

Si su rastreo tiene las páginas correctas, pero tiene contenido adicional o innecesario en esas páginas (por ejemplo, texto de marketing, navegación, encabezados o pies de página, o incluso cookies) que sospecha que está interfiriendo con las respuestas del agente IA, utilice la siguiente configuración avanzada del rastreador para excluir ese contenido:

  • Conservar elementos HTML: Mantenga solo elementos HTML específicos proporcionando uno o más selectores de CSS. El resto del contenido se ignora para que pueda concentrarse en la información pertinente. Para muchos centros de ayuda, este es el método más sencillo para asegurarse de que el contenido del artículo principal esté dirigido a la vez que se evita la navegación, los artículos relacionados y las pancartas y encabezados innecesarios.
  • Eliminar elementos HTML: Utilice selectores CSS para especificar qué elementos HTML eliminar del rastreo. Esta es la manera más precisa y potente de excluir contenido especificado y conocido.

Descargo de responsabilidad de la traducción: Este artículo ha sido traducido usando software de traducción automática para proporcionar una idea básica del contenido. Se han realizado esfuerzos razonables para proporcionar una traducción exacta, sin embargo, Zendesk no garantiza la exactitud de la traducción.

Si surge alguna pregunta relacionada con la exactitud de la información incluida en el artículo traducido, consulte la versión en inglés del artículo, que es la versión oficial.

Tecnología de Zendesk