Risoluzione dei problemi del web crawler

Tutte le suite

Team, Growth, Professional, Enterprise o Enterprise Plus

Support con

Guide Professional o Enterprise

Il web crawler ti consente di eseguire la scansione e l’indicizzazione di contenuti esterni da usare ovunque utilizzi contenuti esterni nel tuo account Zendesk senza risorse per gli sviluppatori (consulta Configurazione del web crawler). Puoi fare riferimento a questo articolo per risolvere i problemi di configurazione del crawler e gli errori di pagina che potresti riscontrare durante la configurazione del web crawler nell’applicazione.

Questo articolo include i seguenti argomenti:

Errori di configurazione del crawler
Errori nei record
Errori Robot.txt

Errori di configurazione del crawler

Gli errori di configurazione del crawler vengono generati quando il web crawler non può essere eseguito correttamente. Gli errori di configurazione del crawler generano una notifica email che viene inviata al proprietario del crawler configurato durante la configurazione del web crawler.

Impossibile verificare la titolarità del dominio

Il web crawler tenta di verificare la titolarità del dominio ogni volta che viene eseguito, operazione che può richiedere fino a 24 ore. Se la verifica del dominio non riesce, il proprietario del crawler riceve una notifica via email e la pagina dei crawler mostrerà lo stato di scansione "Verifica dominio non riuscita".

Per risolvere gli errori di verifica del dominio, controlla che la home page del tuo sito web (altrimenti nota come pagina principale o indice) sia attiva e disponibile al pubblico. La pagina non deve richiedere l’inserimento di nome utente e password e non deve essere soggetta a restrizioni IP o altri requisiti di autenticazione.

Impossibile elaborare la mappa del sito

Il web crawler usa la mappa del sito definita durante la configurazione del crawler ogni volta che viene eseguito. Se la mappa del sito non può essere elaborata, il proprietario del crawler riceverà una notifica email e il crawler non verrà eseguito. In questo caso, verifica che:

Il web crawler punta all’URL della mappa del sito corretto ed è in grado di individuarlo. Puoi modificare il crawler per visualizzare l’URL della mappa del sito corrente. Consulta Gestione dei web crawler.
La mappa del sito sia disponibile e accessibile a tutti. La pagina non deve richiedere l’inserimento di nome utente e password e non deve essere soggetta a restrizioni IP o altri requisiti di autenticazione.
La mappa del sito è una mappa del sito URL XML che segue il protocollo XML delle mappe dei siti.

Errori nei record

Gli errori nei record si verificano quando non ci sono errori di configurazione, ma il web crawler non può analizzare e indicizzare correttamente le pagine definite nella mappa del sito del crawler (consulta Come impostare il web crawler). Quando si verifica un errore nei record, viene inviata una notifica email al proprietario del crawler con un link a un file CSV che elenca le pagine interessate e gli errori associati.

Impostazioni locali non rilevate

L’errore “Impostazioni locali non rilevate” indica che il web crawler non è stato in grado di rilevare alcuna impostazione locale o che le impostazioni locali rilevate non corrispondono a nessuna delle attuali impostazioni locali del centro assistenza.

Per determinare le impostazioni locali di un record, il crawler prova i seguenti approcci. La prima strategia che ha successo determina le impostazioni locali dei record.

Estrazione delle impostazioni locali dall’attributo lang nel tag <html>.
Estrazione delle impostazioni locali dall’intestazione Content-Language-
Estrazione delle impostazioni locali dal tag <meta>.
Analisi testuale del contenuto (CLD - Compact Language Detection).

L’errore “Impostazioni locali non rilevate” è causato da uno dei seguenti problemi:

Le impostazioni locali o la lingua identificate non corrispondono alle impostazioni locali o alla lingua configurate in nessuno dei centri assistenza nel tuo account. Per vedere quali lingue sono configurate in ciascuno dei centri assistenza nel tuo account, consulta Configurazione del centro assistenza per supportare più lingue. Individua i codici delle impostazioni locali per le lingue configurate in Supporto linguistico Zendesk per prodotto.
Il web crawler non è stato in grado di determinare le impostazioni locali o la lingua.

Per risolvere il problema, verifica che:

L’attributo lang nel tag html corrisponda a una lingua del centro assistenza.
L’intestazione HTTP Content-Language corrisponda a una lingua del Centro assistenza.
Il metaelemento con Content-Language impostato nell’attributo http-equiv corrisponda a una lingua del centro assistenza.

Consulta Informazioni sulle impostazioni locali del web crawler.

Titolo non rilevato

L’errore “Titolo non rilevato” indica che il web crawler non è stato in grado di rilevare il titolo di un record. Il web crawler usa gli approcci seguenti per determinare il titolo di un record:

Estrazione del contenuto del tag <title>.
Estrazione del contenuto del tag <h1>.
Estrazione del contenuto testuale dal tag <body>.

La prima strategia che ha successo determina le impostazioni locali dei record. Il crawler indicizza solo i primi 255 caratteri del contenuto estratto. Il record non viene indicizzato se le strategie precedenti non hanno determinato alcun contenuto.

Per risolvere il problema, assicurati che la pagina interessata presenti uno dei tag elencati sopra.

Corpo non trovato

L’errore “Corpo non trovato” indica che il web crawler non è stato in grado di rilevare il corpo di una pagina. Per risolvere questo errore, assicurati che la pagina interessata sia contrassegnata correttamente con il tag <body>.

HTTP [codice di stato]

Se il campo del codice di errore nel CSV di un record contiene HTTP e un codice di stato, significa che non è stato possibile indicizzare la pagina perché non è stato possibile accedervi. Se la pagina può essere indicizzata correttamente (HTTP 2xx), non riceverai alcun errore di codice di stato HTTP.

I codici di errore più comuni sono:

404 - Pagina non trovata: la pagina non esiste o è stata spostata a un altro URL. Per risolvere il problema, assicurati che la mappa del sito usata dal crawler sia aggiornata e che tutti gli URL nella mappa del sito rimandino a pagine esistenti.
403 - Accesso non consentito: il crawler non può accedere alla pagina a causa di un meccanismo di controllo dell’accesso, quale una restrizione di login o una restrizione basata sull’indirizzo IP. Per risolvere il problema, verifica che:
- Sia stato aggiunto Zendesk/External-Content, lo user agent del web crawler, all’elenco consentito.
- Che le pagine da indicizzare siano accessibili pubblicamente, in quanto il crawler non può eseguire la scansione di pagine con accesso limitato. Se le pagine di cui vuoi eseguire la scansione e l’indicizzazione non possono essere rese pubblicamente accessibili, ti consigliamo di indicizzarle usando l’API di ricerca federata (per contenuti esterni). Consulta Configurazione dell’API di ricerca federata Zendesk.
5xx - Errore del server: impossibile eseguire la scansione della pagina a causa di un errore del server. Il sito potrebbe essere temporaneamente non disponibile. Per risolvere il problema, visita una o più pagine con questo errore per assicurarti che il sito sia attivo. Se il sito non è disponibile, contatta l’amministratore del sito. Una volta corretto l’errore, attendi che il crawler venga eseguito di nuovo entro il solito intervallo di tempo (ogni 12-24 ore).

Dominio URL non valido

L’errore “Dominio URL non valido” indica che l’URL della pagina elencata nella mappa del sito non si trova nel dominio configurato durante la configurazione del crawler.

Per risolvere il problema, verifica che il dominio della pagina che ha generato l’errore si trovi nello stesso dominio definito per il web crawler. Se la pagina collegata nella mappa del sito punta a una pagina ospitata in un dominio diverso da quello configurato durante la configurazione del crawler, puoi procedere in uno dei modi seguenti:

Configura un nuovo web crawler per la pagina interessata.
Sposta la pagina dal dominio esterno al dominio configurato per il web crawler.

Non specificato

L’errore “Non specificato” può essere causato da uno o più dei seguenti motivi:

Hai superato il limite di record esterni per la tua istanza: se hai superato il limite di record esterni, gli ultimi record esterni che superano il limite non verranno indicizzati o aggiornati. Per risolvere il problema, puoi effettuare una o più delle seguenti operazioni:
- Elimina alcuni crawler, in modo che il record esterno di tali pagine venga eliminato nell’istanza e le pagine che non sono state indicizzate in quanto eccedenti il limite possano essere indicizzate. Consulta Gestione dei web crawler.
- Elimina i singoli record tramite l’API di ricerca federata. Tuttavia, se il crawler che indicizza la pagina è ancora attivo o se è attiva un’integrazione API personalizzata che aggiunge la pagina, la pagina verrà visualizzata nuovamente alla successiva esecuzione del crawler o alla sincronizzazione dell’integrazione.
- Rimuovi dalla mappa del sito le pagine usate da uno o più crawler. Alla successiva esecuzione del crawler, le pagine rimanenti verranno reindicizzate e le pagine rimosse dalla mappa del sito verranno eliminate.
- Reindirizza uno o più crawler a una mappa del sito con meno pagine. Alla successiva esecuzione del crawler, le pagine rimanenti verranno reindicizzate e le pagine rimosse dalla mappa del sito verranno eliminate.
La pagina usa i reindirizzamenti JavaScript: il web crawler non osserva i reindirizzamenti JavaScript. Se la pagina usa i reindirizzamenti JavaScript, il crawler non può raggiungere il contenuto della pagina.
Per risolvere il problema, procedi in uno dei modi seguenti:
- Assicurati che la mappa del sito punti direttamente alla pagina da indicizzare.
- Implementa reindirizzamenti HTTP.

Errori Robot.txt

Un file robots.txt indica al crawler a quali parti di un sito web è consentito accedere. Il suo scopo principale è evitare di sovraccaricare un sito web con richieste di scansione eccessive.

Invece di essere un passaggio di configurazione, robots.txt agisce come una serie di linee guida che informano il crawler se può eseguire la scansione dell’intero sito o di sezioni specifiche. L’unico momento in cui i clienti hanno bisogno di interagire con robots.txt è quando il crawler è bloccato o il file robots.txt non è valido. In questi casi, il sistema genera uno dei seguenti errori che deve essere risolto prima che il sito possa essere scansionato e sincronizzato correttamente.

Scansione bloccata dal sito web

Questo errore si verifica quando il file robots.txt è configurato in modo da impedire a tutti gli user agent, incluso il crawler, di accedere al sito.

Per garantire che il crawler Zendesk disponga dell’autorizzazione ad accedere al sito bloccando al contempo altri crawler, puoi aggiungere una regola di sostituzione al file robots.txt per consentire il crawler Zendesk.

Esempio 1: Consenti solo Zendesk/External-Content

User-agent: Zendesk/External-Content
Allow: /

Esempio 2: Blocca Googlebot

User-agent: Googlebot
Disallow: /

File robots.txt non valido

Questo errore si verifica quando il file robots.txt esiste ma contiene errori di sintassi o regole non valide, il che lo rende illeggibile dai crawler e fa sì che la scansione venga ignorata o annullata.

Per risolvere il problema, controlla e correggi il file robots.txt per assicurarti che aderisca alla sintassi corretta e specifichi accuratamente le autorizzazioni del crawler. Usa strumenti online, come lo strumento di testing robot di Google, per convalidare il file robots.txt.