Search Crawler – Fehlerbehebung

Suite

Enterprise oder Enterprise Plus

Support mit

Guide Enterprise

Bei Suite Enterprise Plus-Plänen und höher verfügbar

Bei Guide Enterprise-Plänen verfügbar

Bei einer Zendesk-Verbundsuche im Help Center werden dem Endbenutzer auch Ergebnisse angezeigt, die nicht aus Ihrem Help Center stammen, sondern aus externen Quellen wie Wissensdatenbanken, Lernmanagementsystemen, Blogs oder Seiten Ihrer Website. Sie können die Verbundsuche entweder mit der Zendesk Federated Search API oder mit dem Such-Crawler implementieren.

Der Such-Crawler kann in den Sucheinstellungen in Guide konfiguriert werden und ermöglicht Ihnen, die Verbundsuche ganz ohne Entwicklerressourcen in Ihrem Help Center zu implementieren (siehe Einrichten des Such-Crawlers). In diesem Beitrag erfahren Sie, wie Sie Fehler bei der Einrichtung des Crawlers und der Verarbeitung von Webseiten in Ihrer Anwendung beheben.

In diesem Beitrag werden folgende Themen behandelt:

Einrichtungsfehler
Datensatzfehler

Einrichtungsfehler

Einrichtungsfehler treten auf, wenn der Such-Crawler aufgrund von Fehlern bei der Bestätigung des Domäneninhabers oder der Verarbeitung der Sitemap nicht erfolgreich ausgeführt werden kann. Im Falle eines Crawler-Einrichtungsfehlers wird eine E-Mail-Benachrichtigung an den bei der Einrichtung des Crawlers angegebenen Crawler-Inhaber gesendet.

Domäneninhaberschaft konnte nicht bestätigt werden

Der Such-Crawler versucht bei jedem Aufruf, die Inhaberschaft der Domäne zu bestätigen. Dies kann bis zu 24 Stunden dauern. Der Crawler-Inhaber wird benachrichtigt, wenn die Domänenverifizierung fehlschlägt, Sie können die Verifizierung auf der Bearbeitungsseite des Such-Crawlers aber auch sofort überprüfen. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern.

Wenn bei der Domänenverifizierung Fehler auftreten, überprüfen Sie folgende Punkte:

Ist die Homepage Ihrer Website online und öffentlich zugänglich? Diese Seite wird auch als Indexseite oder Startseite bezeichnet und sollte keine IP-Beschränkungen aufweisen und keine Benutzeranmeldung, Kennworteingabe oder sonstige Authentifizierung erfordern.
Haben Sie das korrekte Tag aus Ihrem Crawler implementiert? Dieses Tag darf keine Tippfehler enthalten und muss im <head>-Abschnitt der Homepage der Website enthalten sein, die Sie crawlen möchten. Dies gilt auch, wenn der Crawler so konfiguriert ist, dass er nur einen Teil der Seiten dieser Website indiziert. Sie können den Crawler bearbeiten um die aktuellen Domänenverifizierungsinformationen anzuzeigen. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern.
Hinweis: In einer Domäne können mehrere Crawler mit jeweils unterschiedlichen Bestätigungs-Tags eingerichtet sein.

Beispiel

Das folgende Beispiel zeigt die korrekte Implementierung des Domänenbestätigungs-Tags in Ihrer Website.

<html>
<head>
 <meta name="zd-site-verification" content="crawler-verification-token">
 <title>Title</title>
<style>
 <!-- style info here -->
 </style>
 </head>
 <body>
 <!-- body of the page here -->
 </body>
</html>

Sitemap konnte nicht verarbeitet werden

Der Such-Crawler verwendet bei jedem Aufruf die bei der Einrichtung des Crawlers festgelegte Sitemap. Wenn die Sitemap nicht verarbeitet werden kann, wird der Inhaber des Crawlers per E-Mail benachrichtigt und der Crawler nicht ausgeführt. Überprüfen Sie in diesem Fall folgende Punkte:

Ist der Such-Crawler auf die richtige Sitemap-URL eingestellt und kann er sie lokalisieren? Sie können den Crawler bearbeiten, um die aktuelle Sitemap-URL anzuzeigen. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern.
Ist die Sitemap online und öffentlich zugänglich? Diese Seite sollte keine IP-Beschränkungen aufweisen und keine Benutzeranmeldung, Kennworteingabe oder sonstige Authentifizierung erfordern.
Liegt die Sitemap im XML URL-Format vor und entspricht sie dem XML-Protokoll für Sitemaps?

Datensatzfehler

Datensatzfehler treten auf, wenn kein Einrichtungsfehler vorliegt, aber der Such-Crawler die in der Sitemap definierten Seiten (siehe Einrichten des Such-Crawlers) nicht erfolgreich analysieren und indizieren kann. Wenn ein Datensatzfehler auftritt, erhält der Inhaber des Crawlers eine E-Mail-Benachrichtigung mit dem Link zu einer CSV-Datei, in der die betroffenen Seiten und die jeweils aufgetretenen Fehler aufgeführt sind.

Locale not detected

Der Fehler „Locale not detected“ zeigt an, dass der Search Crawler kein Gebietsschema erkennen konnte oder das erkannte Gebietsschema mit keinem der aktuellen Gebietsschemata des Help Centers übereinstimmt.

Der Crawler probiert verschiedene Möglichkeiten durch, um das Gebietsschema eines Datensatzes zu bestimmen. Die erste erfolgreiche Strategie bestimmt das Gebietsschema der Datensätze.

Extrahieren des Gebietsschemas auf dem lang-Attribut im <html>-Tag
Extrahieren des Gebietsschemas aus dem Content-Language-Header
Extrahieren des Gebietsschemas aus dem <meta>-Tag
Durchführen einer Textanalyse des Inhalts (CLD – Compact Language Detection)

Der Fehler „Locale not detected“ wird durch eines der folgenden Probleme verursacht:

Das erkannte Gebietsschema oder die erkannte Sprache stimmt mit keinem Gebietsschema bzw. keiner Sprache in der Konfiguration eines der in Ihrem Konto konfigurierten Help Center überein. Wie Sie feststellen, welche Sprachen in den einzelnen Help Centern Ihres Kontos konfiguriert sind, erfahren Sie im Beitrag Konfigurieren des Help Centers für die Unterstützung mehrerer Sprachen. Die Gebietsschemacodes für Ihre konfigurierten Sprachen finden Sie unter Zendesk-Sprachunterstützung nach Produkt.
Der Such-Crawler konnte kein Gebietsschema oder keine Sprache erkennen.

Überprüfen Sie in diesem Fall folgende Punkte:

Stimmt das lang-Attribut im <html>-Tag mit einem im Help Center eingestellten Gebietsschema überein?
Stimmt der HTTP Content-Language-Header mit einem im Help Center festgelegten Gebietsschema überein?
Stimmt die im Meta-Element mit dem http-equiv-Attribut festgelegte Content-Language mit einem im Help Center eingestellten Gebietsschema überein?

Weitere Informationen finden Sie im Beitrag Überblick über Search-Crawler-Gebietsschemas.

Title not detected

Der Fehler „Title not detected“ zeigt an, dass der Such-Crawler den Titel eines Datensatzes nicht erkennen konnte. Der Crawler probiert verschiedene Möglichkeiten durch, um den Titel eines Datensatzes zu bestimmen.

Extrahieren des Inhalts des <title>-Tags
Extrahieren des Inhalts des <h1>-Tags
Extrahieren des Textinhalts aus dem <body>-Tag

Die erste erfolgreiche Strategie bestimmt das Gebietsschema der Datensätze. Wenn eine der beiden ersten Methoden erfolgreich ist, indiziert der Crawler die ersten 255 Zeichen des extrahierten Inhalts als Datensatztitel. Wenn sich mit keiner dieser Strategien ein Titel bestimmen lässt, wird der Datensatz nicht indiziert.

Um dieses Problem zu beheben, stellen Sie sicher, dass die betreffende Seite eines der oben aufgeführten Tags aufweist.

Body not found

Der Fehler „Body not found“ zeigt an, dass der Such-Crawler den Text einer Seite nicht erkennen konnte. Um dieses Problem zu beheben, stellen Sie sicher, dass die betreffende Seite ordnungsgemäß mit dem <body>-Tag gekennzeichnet ist.

HTTP [Statuscode]

Wenn das Feld für den Fehlercode in der CSV-Datei zu einem Datensatz den Eintrag „HTTP“ gefolgt von einem Statuscode enthält, konnte die Seite nicht indiziert werden, weil der Seitenaufruf fehlgeschlagen ist. Wenn die Seite erfolgreich indiziert werden konnte (HTTP 2xx), wird kein HTTP-Statuscodefehler zurückgegeben.

Die häufigsten Fehlercodes sind:

404 – Page not Found – Die Seite existiert nicht oder ihre URL wurde geändert. Um dieses Problem zu beheben, stellen Sie sicher, dass der Crawler die aktuelle Sitemap verwendet und alle URLs in der Sitemap auf vorhandene Seiten verweisen.
403 – Forbidden – Der Crawler kann nicht auf die Seite zugreifen, weil sie durch einen Zugriffssteuerungsmechanismus (z. B. eine Benutzeranmeldung oder IP-Adressbeschränkung) geschützt ist. Überprüfen Sie in diesem Fall folgende Punkte:
- Haben Sie den User Agent des Search-Crawlers Zendesk/External-Content in Ihre Zulassungsliste eingetragen?
- Sind die Seiten, die Sie indizieren möchten, öffentlich zugänglich? Zugriffsbeschränkte Seiten können vom Crawler nicht analysiert werden. Wenn Sie die Seiten, die Sie crawlen und indizieren möchten, nicht öffentlich zugänglich machen können, sollten Sie versuchen, sie mithilfe der Federated Search API als externe Inhalte zu indizieren. Weitere Informationen finden Sie unter Einrichten der Zendesk Federated Search API.
5xx – Server error – Die Seite konnte aufgrund eines Serverfehlers nicht verarbeitet werden. Möglicherweise ist die Website vorübergehend nicht verfügbar. Versuchen Sie, andere Seiten derselben Website aufzurufen, um zu prüfen, ob die Website online ist. Wenn die Website nicht online ist, wenden Sie sich an den zuständigen Administrator. Nachdem der Fehler beheben wurde, wird der Crawler wieder in seinem regulären Intervall (12-24 Stunden) ausgeführt.

Invalid URL domain

Der Fehler „Invalid URL domain“ zeigt an, dass die URL der in der Sitemap aufgeführten Seite nicht zu der bei der Einrichtung des Crawlers konfigurierten Domäne gehört.

Um dieses Problem zu beheben, überprüfen Sie, ob die Domäne der Seite, die den Fehler ausgelöst hat, mit der für Ihren Such-Crawler definierten Domäne übereinstimmt. Wenn der betreffende Link in Ihrer Sitemap auf eine Seite verweist, die zu einer anderen als der bei der Einrichtung des Crawlers konfigurierten Domäne gehört, haben Sie zwei Möglichkeiten:

Richten Sie für die betreffende Seite einen neuen Such-Crawler ein.

Verschieben Sie die Seite aus der externen Domäne in die für den Such-Crawler konfigurierte Domäne.

Undetermined

Der Fehler „Undetermined“ kann durch einen der folgenden Grunde verursacht werden:

Sie haben das Limit für externe Datensätze Ihrer Instanz überschritten – Der Such-Crawler hat ein Limit von 50.000 externen Datensätzen. Wenn Sie das Limit von 50.000 externen Datensätzen überschreiten, werden die zuletzt hinzugefügten überzähligen externen Datensätze nicht indiziert oder aktualisiert. Die aktuelle Anzahl externer Datensätze für Ihren Crawler ist in den Such-Crawler-Informationen angegeben. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern. Um dieses Problem zu beheben, können Sie eine oder mehrere der folgenden Maßnahmen ergreifen:
- Löschen Sie nicht benötigte Crawler. Dadurch werden die externen Datensätze dieser Seiten aus Ihrer Instanz entfernt und die aufgrund des Limits zuvor nicht indizierten Seiten können verarbeitet werden. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern.
- Löschen Sie einzelne Datensätze mithilfe der Federated Search API. Wenn der Crawler, der diese Seite indiziert, oder eine angepasste API-Integration, die diese Seite hinzufügt, aktiv ist, wird die Seite allerdings beim nächsten Aufruf des Crawlers oder bei der nächsten Synchronisierung der Integration wieder hinzugefügt.
- Entfernen Sie Seiten, die einer oder mehrere Ihrer Crawler verwenden, aus der Sitemap. Bei seinem nächsten Aufruf wird der Crawler die verbleibenden Seiten neu indizieren und die aus der Sitemap entfernten Seiten löschen.
- Stellen Sie einen oder mehrere Ihrer Crawler auf eine Sitemap mit weniger Seiten ein. Bei seinem nächsten Aufruf wird der Crawler die verbleibenden Seiten neu indizieren und die aus der Sitemap entfernten Seiten löschen.
Die Seite verwendet JavaScript-Standortumleitungen – Der Search-Crawler unterstützt keine JavaScript-Standortumleitungen. Wenn die Seite JavaScript-Standortumleitungen verwendet, kann der Crawler nicht auf den Inhalt der Seite zugreifen.
Um dieses Problem zu beheben, können Sie eine der folgenden Maßnahmen ergreifen:
- Stellen Sie sicher, dass die Sitemap direkt auf die Seite verweist, die Sie indizieren möchten.
- Implementieren Sie HTTP-Umleitungen.