Uso di un web crawler per indicizzare contenuti esterni

Tutte le suite

Team, Growth, Professional, Enterprise o Enterprise Plus

Support con

Guide Professional o Enterprise

Il web crawler consente di eseguire la scansione e l’indicizzazione di contenuti esterni da usare nella ricerca del centro assistenza e nella ricerca generativa. Il web crawler ti consente di implementare la ricerca federata senza disporre delle risorse per sviluppatori. Puoi configurare più crawler per eseguire la scansione e indicizzare contenuti diversi nello stesso sito web o in siti web diversi.

Quando gli utenti eseguono una ricerca nel centro assistenza, i contenuti esterni pertinenti individuati dal crawler vengono classificati e presentati nella pagina dei risultati della ricerca, dove gli utenti possono filtrare i risultati e fare clic sui link per visualizzare i contenuti esterni in un'altra scheda del browser.

Questo articolo include i seguenti argomenti:

Informazioni sul web crawler
Configurazione di un web crawler

Informazioni sul web crawler

Puoi configurare uno o più web crawler per eseguire la scansione e l’indicizzazione di contenuti esterni nello stesso sito web o in diversi siti web che vuoi rendere disponibili per la ricerca nel centro assistenza e la ricerca generativa. I siti esterni in cui eseguire la ricerca devono avere una mappa del sito che elenca le pagine per il web crawler. Inoltre, le pagine in cui effettuare la ricerca devono essere pubbliche (ossia accessibili senza autenticazione).

Una volta configurati, i crawler, in base alla pianificazione, entrano in esecuzione una volta ogni 30 minuti, visitando le pagine nella mappa del sito specificata durante la configurazione e importando contenuti da tali origini negli indici di ricerca centro assistenza . I web crawler indicizzano i contenuti che si trovano nell’origine della pagina caricata inizialmente, anche se sono nascosti da un elemento dell’interfaccia utente, come un pannello accordion. Tuttavia, poiché non eseguono JavaScript, i crawler non ricercano i contenuti di cui viene eseguito il rendering tramite JavaScript o altri contenuti di cui viene eseguito il rendering dinamico dopo il caricamento iniziale della pagina.

Inoltre, i web crawler non scansionano i link nelle pagine che visitano; visitano solo le pagine della mappa del sito che sono stati configurati per utilizzare. Se il crawler non riesce a raccogliere informazioni da un sito web durante una scansione pianificata regolarmente (ad esempio, se il sito web è inattivo o se ci sono problemi di rete), il centro assistenza conserverà i risultati della scansione precedente, che continueranno a essere ricercabili nel centro assistenza.

Configurazione di un web crawler

Il web crawler ti consente di implementare la ricerca federata nel centro assistenza senza risorse per gli sviluppatori. Puoi configurare più crawler nel centro assistenza per eseguire la scansione e indicizzare contenuti diversi nello stesso sito web o in siti web diversi.

Quando configuri un web crawler, tieni in considerazione quanto segue:

Il web crawler non funziona con i siti web che usano la codifica di compressione dei file gzip. Non vedrai i risultati delle ricerche in questi siti.
Un ritardo di crawl non verrà rispettato dal web crawler se impostato sui record robots.txt del sito esterno.
Il tag changefreq non influisce in alcun modo sul web crawler.

Nota: è tua responsabilità usare il web crawler del centro assistenza nel rispetto di tutte le leggi in vigore e dei termini e condizioni dei siti web pertinenti. Aggiungi solo le mappe dei siti di cui sei titolare del dominio associato ad esse. Usando il web crawler del centro assistenza confermi di essere il titolare dei domini di tutte le mappe dei siti aggiunte al crawler e di avere il diritto di eseguire la scansione di tali siti web.

Per configurare il web crawler

In Amministratore Knowledge, fai clic su Impostazioni () nella barra laterale.
Fai clic su Impostazioni di ricerca.
In Crawler, fai clic su Gestisci.
Fai clic su Aggiungi crawler.
In Assegna un nome a questo crawler, inserisci quanto segue:
- Nome che vuoi assegnare al crawler. Questo è un nome interno che identifica il web crawler nell’elenco di gestione dei crawler.
- Proprietario: amministratore Knowledge responsabile della manutenzione e della risoluzione dei problemi del crawler. Per impostazione predefinita, il proprietario del crawler è l’utente che lo crea. Tuttavia, puoi cambiare questo nome in qualsiasi amministratore Knowledge.
  I proprietari del crawler ricevono notifiche email sia quando il crawler viene eseguito correttamente sia quando sono presenti notifiche di errore, come problemi con la verifica del dominio, l’elaborazione della mappa del sito o la scansione delle pagine.
In Aggiungi il sito web di cui vuoi eseguire la scansione, configura quanto segue:
- URL sito web: inserisci l’URL del sito web di cui vuoi eseguire la scansione.
- Confermo di avere l’autorizzazione per eseguire la scansione di questo sito web: leggi le informazioni sotto questa casella di spunta, quindi seleziona per confermare di avere l’autorizzazione per eseguire la scansione di questo sito web.
In Aggiungi una mappa del sito, in URL mappa del sito, inserisci l’URL della mappa del sito che il crawler deve usare durante la scansione del sito.
La mappa del sito deve seguire il protocollo XML delle mappe dei siti e contenere un elenco di tutte le pagine del sito di cui eseguire la scansione. La mappa del sito può essere la mappa del sito standard contenente tutte le pagine del sito oppure una mappa del sito dedicata che elenca le pagine di cui vuoi effettuare la scansione. Tutte le mappe dei siti devono essere ospitate nel dominio per il quale il crawler è configurato. Il web crawler non supporta gli indici delle mappe del sito.

Puoi configurare più crawler sullo stesso sito, ciascuno dei quali usa mappe del sito diverse che definiscono le pagine di cui il web crawler deve eseguire la scansione.
In Aggiungi filtri per aiutare le persone a trovare questi contenuti, configura i filtri origine e tipo usati per filtrare i risultati della ricerca in base agli utenti finali. L’origine si riferisce all’origine del contenuto esterno, come un forum, un sistema di monitoraggio dei problemi o un sistema di gestione dell’apprendimento. Il tipo si riferisce al tipo di contenuto, come post del blog, nota tecnica o segnalazione di bug.
- Origine: fai clic sulla freccia, quindi seleziona un’origine dall’elenco oppure seleziona + Crea nuova origine per aggiungere un nome che descriva la posizione di questo contenuto.
- Tipo: fai clic sulla freccia, quindi seleziona un tipo dall’elenco oppure seleziona + Crea nuovo tipo per aggiungere un nome che descriva il tipo di contenuto.
Fai clic su Fine.
Il web crawler è creato ed è in attesa. Entro 24 ore il crawler verificherà la proprietà del dominio, quindi recupererà e analizzerà la mappa del sito specificata. Una volta completata l’elaborazione della mappa del sito, il crawler inizia a eseguire la scansione delle pagine e a indicizzarne il contenuto. In caso di errori durante la verifica del dominio o l’elaborazione della mappa del sito da parte del crawler, il titolare del crawler riceverà una notifica email con suggerimenti per risolvere il problema. Il crawler proverà a eseguire nuovamente l’operazione nelle 24 ore successive.
Nota: Zendesk/External-Content è lo user agent per il web crawler. Per evitare errori del crawler dovuti al blocco delle richieste da parte del firewall, inserisci Zendesk/External-Content alla whitelist (o all’elenco consentiti).

Se stai configurando un web crawler per inserire contenuti esterni per:

Ricerca nel centro assistenza, devi selezionare i contenuti da includere ed escludere nei risultati di ricerca del centro assistenza. Consulta Come includere contenuti esterni nei risultati di ricerca del centro assistenza.
Sezione Knowledge del Pannello del contesto per gli agenti, consulta Configurazione di Knowledge nel Pannello del contesto.