Qual é o meu plano?
Complemento Agentes de IA – Avançado

Você pode usar um rastreador da web para importar conteúdo para o seu agente de IA avançada. Isso dá ao seu agente de IA a capacidade de criar respostas geradas por IA às perguntas dos clientes com base em informações em sites externos.

Este artigo ajuda você a solucionar problemas que podem ocorrer ao usar um rastreador da web para importar conteúdo para um agente de IA avançada.

Este artigo contém os seguintes tópicos:

  • O rastreamento falhou porque expirou
  • Páginas ausentes no rastreamento
  • O rastreamento inclui páginas desnecessárias
  • O rastreamento inclui as páginas certas, mas o conteúdo errado.

Artigos relacionados:

  • Práticas recomendadas para o uso de um rastreador da web para importar conteúdo para agentes de IA avançados
  • Gerenciamento de fontes de conhecimento importadas para agentes de IA avançados

O rastreamento falhou porque expirou

Se um rastreamento da web falhar após várias horas, geralmente é causado por um tempo limite. Por padrão, os rastreamentos são limitados a cinco horas. Se a falha ocorreu cinco horas após o início da importação, é provável que seja um tempo limite.

Se isso acontecer, estas são algumas etapas de resolução que você pode tentar:

  • Se o site não depende de JavaScript, defina o tipo de rastreador como Cliente HTTP Raw (Cheerio), um rastreador muito mais rápido, e tente novamente.
  • Se você sabe que o site inclui conteúdo que não precisa, consulte as orientações em O rastreamento inclui páginas desnecessárias.
  • Divida o rastreamento em dois ou mais rastreamentos separados (usando as configurações Incluir URLs ou Excluir URLs) que separam apenas partes do site.

Não há páginas no rastreamento

Se não houver URLs ou artigos inteiros no rastreamento, aumente o escopo do rastreamento usando URLs iniciais e Incluir URLs. Se você tem certeza de que as configurações estão corretas, mas ainda não tem artigos, verifique o número de páginas rastreadas no resumo da importação. Se estiver perto do máximo de páginas para rastrear padrão (4.000), tente aumentar essa configuração.

O rastreamento inclui páginas desnecessárias

Se o rastreamento incluir mais páginas ou artigos do que o necessário (por exemplo, conteúdo repetitivo ou inaplicável, como páginas em inglês quando você precisa apenas de espanhol ou conteúdo que seu agente de IA não precisa responder às perguntas dos clientes), use a configuração Excluir URLs.

Uma coisa a evitar é excluir acidentalmente determinadas subpáginas. As URLs iniciais definem onde o rastreador começará. Em seguida, ele seguirá todos os links dessa página e páginas subsequentes, até a profundidade de rastreamento máxima especificada. No entanto, se você excluir páginas, as páginas que estão vinculadas apenas de páginas excluídas nunca serão rastreadas, a menos que especificadas separadamente como URLs iniciais.

Veja o diagrama a seguir como exemplo. Cada círculo representa uma página e cada seta representa um link dessa página. Se o rastreamento começar na página superior (como em, é a única URL inicial) e a página roxa for excluída, então o seguinte é verdadeiro:

  • A página vermelha não pode ser rastreada.
  • Todas as páginas amarelas são rastreadas.
  • A página verde também será rastreada, mesmo que esteja vinculada da página roxa excluída, pois também está vinculada de uma das páginas amarelas incluídas.

O rastreamento inclui as páginas certas, mas o conteúdo errado

Se o rastreamento retornar as páginas corretas, mas retornar o conteúdo errado nessas páginas, as configurações avançadas do rastreador incluem ferramentas para encontrar e incluir ou excluir esse conteúdo. Você precisa encontrar o seletor CSS correto para o elemento que deseja incluir ou excluir e inseri-lo na configuração certa. Para fazer isso, é útil entender o que é um seletor CSS e como encontrá-lo.

Esta seção contém os tópicos a seguir:

  • Compreensão e localização de seletores CSS
  • O rastreamento está ignorando o conteúdo da página
  • O rastreamento está retornando conteúdo da página demais ou confuso.

Noções básicas e localização de seletores CSS

Esta seção apresenta os seletores CSS e orienta você a encontrar o correto. Se você já estiver familiarizado com essas informações, pule para as seções de solução de problemas abaixo.

Esta seção contém os tópicos a seguir:

  • Sobre seletores CSS
  • Encontrando um seletor CSS
  • Verificação de um seletor CSS

Sobre seletores CSS

Seletores CSS são padrões usados para selecionar e segmentar elementos HTML específicos em uma página da web. Eles facilitam a localização e a extração exatamente dos dados necessários de páginas da web complexas.

No rastreamento e rascunho da web, os seletores CSS ajudam a extrair dados identificando as partes exatas da estrutura de uma página, como <div>, <span> ou elementos com determinadas classes e IDs. Por exemplo, o seletor .product-title tem como alvo todos os elementos com a classe "product-title". O sinal de ponto (#) é usado para selecionar elementos por sua ID exclusiva. Por exemplo, o #main-header seleciona o elemento com id="main-header".

Localização de um seletor CSS

Primeiro, você precisa encontrar o seletor CSS que deseja usar. As instruções a seguir presumem que você está usando o navegador Chrome. No entanto, as etapas são provavelmente semelhantes para outros navegadores.

Para encontrar um seletor CSS

  1. Localize o texto ou o item clicável na página da web que você deseja segmentar.
  2. Clique com o botão direito do mouse diretamente no elemento e selecione Inspectar.

    O painel do Chrome DevTools é aberto e o código correspondente é destacado.

  3. No painel DevTools, clique com o botão direito do mouse no código destacado e selecione Copiar > Selecionador de cópia.

    Agora, o seletor CSS está copiado para a área de transferência.

Verificação de um seletor CSS

Depois de encontrar o seletor CSS, é uma boa ideia verificá-lo.

Para verificar o seletor CSS

  1. Com o DevTools ainda aberto, pressione Ctrl+F (no Windows ou Linux) ou Cmd+F (no Mac).

    Isso ativa uma barra de pesquisa dentro da aba Elementos do painel DevTools.

  2. Cole o seletor CSS que você acabou de copiar nesta caixa de pesquisa.
  3. Verifique se os elementos destacados no HTML e na própria página (geralmente com um contorno colorido) correspondem ao que você espera.

Se apenas o elemento desejado for destacado, seu seletor estará correto. Se forem muitos ou os elementos errados forem destacados, tente um elemento principal ou ajuste sua seleção.

Como opção, você pode testar seletores diferentes. Às vezes, seletores mais curtos ou mais específicos funcionam melhor. Você pode clicar nos elementos principais ou dependentes no HTML para ver suas classes ou IDs de CSS e tentar copiar esses seletores também.

As próximas duas seções orientarão você sobre como usar esses seletores para segmentar o conteúdo que você rastreou ou não.

O rastreamento está ignorando o conteúdo da página

Se o seu rastreamento tiver as páginas certas, mas não houver conteúdo nessas páginas, as seguintes configurações avançadas do rastreador podem ajudar:

  • Transformador HTML: O rastreador inicialmente extrai todo o HTML de uma página e depois aplica um transformador HTML para remover conteúdo estranho. Às vezes, o transformador pode ir muito longe e remover o conteúdo que você realmente deseja manter. Portanto, a primeira coisa a tentar quando o conteúdo estiver ausente é alterar essa configuração para Nenhum para que nenhum conteúdo seja removido e, em seguida, verifique o resumo da importação.
  • Manter elementos HTML: Mantenha apenas elementos HTML específicos fornecendo um ou mais seletores de CSS. Todos os outros conteúdos são ignorados, ajudando você a se concentrar nas informações relevantes.
  • Expandir elementos clicáveis: Use essa opção para capturar o conteúdo por trás de acordeões e lista suspensa. A configuração padrão destina-se a cobrir páginas da web que seguem a prática padrão de desenvolvimento da web e definem lista suspensa como aria=false. Isso significa que, se o rastreador encontrar esse elemento, ele será clicado para ser aberto. Insira um seletor CSS para qualquer elemento que deve ser clicado, como botões ou links que expandem conteúdo oculto. Isso ajuda o rastreador a capturar todo o texto. Verifique se o seletor é válido.
  • Fixar contêineres: Se o conteúdo expansível for fechado quando um elemento diferente for clicado, você pode usar essa configuração para garantir que esses elementos permaneçam abertos após o clique. Então, novamente, insira um seletor CSS para qualquer elemento que deve ser clicado e permaneça aberto mesmo depois que outros elementos forem clicados, como botões ou links que expandem conteúdo oculto.
  • Espere pelo seletor e Espere suavemente pelo seletor: Se a página tem conteúdo dinâmico que aparece apenas após um certo tempo, ela pode ser perdida pelo rastreador, a menos que seja direcionada para esperar. Há duas maneiras de dizer ao rastreador para aguardar com um seletor CSS.
    • A configuração Espera por conteúdo dinâmico determina o tempo de espera do rastreador. Se o seletor não for encontrado antes do limite de tempo, ele será considerado uma solicitação com falha e tentará novamente algumas vezes.
    • O seletor de espera reversível quanto tempo o rastreador espera, mas também garante que o rastreador continue rastreando a página se o seletor não for encontrado, o que evita falhas.
    • Essas configurações não funcionam com o tipo de rastreador do cliente HTTP Raw (Cheerio), pois ele não recebe nenhum conteúdo JavaScript.
  • Altura máxima do rolamento: Algumas páginas são tão longas que o rastreador desiste antes do fim. Se você não tiver conteúdo abaixo de um determinado ponto, pode usar essa configuração para forçar o rastreador a rolar um número específico de pixels.

O rastreamento está retornando muito ou conteúdo da página confuso

Se seu rastreamento tem as páginas certas, mas tem conteúdo extra ou desnecessário nessas páginas (por exemplo, texto de marketing, navegação, cabeçalhos ou rodapés ou até mesmo cookies) que você suspeita estar interferindo nas respostas do agente de IA, use as seguintes configurações avançadas do rastreador para excluir esse conteúdo:

  • Manter elementos HTML: Mantenha apenas elementos HTML específicos fornecendo um ou mais seletores de CSS. Todos os outros conteúdos são ignorados, ajudando você a se concentrar nas informações relevantes. Para muitas centrais de ajuda, essa é a abordagem mais simples para garantir que o conteúdo principal do artigo seja direcionado, evitando a navegação, os artigos relacionados e os cabeçalhos e banners desnecessários.
  • Remover elementos HTML: Use seletores CSS para especificar quais elementos HTML devem ser removidos do rastreamento. Essa é a maneira mais precisa e poderosa de excluir conteúdo conhecido e especificado.

Aviso sobre a tradução: este artigo foi traduzido por um software de tradução automática para oferecer a você uma compreensão básica do conteúdo. Medidas razoáveis foram tomadas para fornecer uma tradução precisa, no entanto, a Zendesk não garante a precisão da tradução.

Em caso de dúvidas relacionadas à precisão das informações contidas no artigo traduzido, consulte a versão oficial do artigo em inglês.

Powered by Zendesk