Beheben von Crawler-Fehlern

Suite, alle Versionen

Growth, Professional, Enterprise oder Enterprise Plus

Support mit

Guide Professional oder Enterprise

Bei einer Zendesk-Verbundsuche im Help Center werden dem Endbenutzer auch Ergebnisse angezeigt, die nicht aus Ihrem Help Center, sondern aus externen Quellen wie Wissensdatenbanken, Lernmanagementsystemen, Blogs oder Seiten Ihrer Website stammen. Sie können die Verbundsuche entweder mit der Zendesk Federated Search API oder mit dem Webcrawler implementieren.

Der Webcrawler kann in den Sucheinstellungen in Guide konfiguriert werden und ermöglicht Ihnen, die Verbundsuche ganz ohne Entwicklerressourcen in Ihrem Help Center zu implementieren (siehe Einrichten eines Webcrawlers). In diesem Beitrag erfahren Sie, wie Sie Fehler bei der Einrichtung des Webcrawlers und der Verarbeitung von Webseiten in Ihrer Anwendung beheben.

In diesem Beitrag werden folgende Themen behandelt:

Einrichtungsfehler
Datensatzfehler
Robots.txt-Fehler

Einrichtungsfehler

Einrichtungsfehler treten auf, wenn der Such-Crawler aufgrund von Fehlern bei der Bestätigung des Domäneninhabers oder der Verarbeitung der Sitemap nicht erfolgreich ausgeführt werden kann. Im Falle eines Crawler-Einrichtungsfehlers wird eine E-Mail-Benachrichtigung an den bei der Einrichtung des Webcrawlers angegebenen Crawler-Inhaber gesendet.

Domäneninhaberschaft konnte nicht bestätigt werden

Der Webcrawler versucht bei jedem Aufruf, die Inhaberschaft der Domäne zu bestätigen. Dies kann bis zu 24 Stunden dauern. Wenn die Domänenverifizierung fehlschlägt, wird der Inhaber des Crawlers per E-Mail benachrichtigt und auf der Seite „Crawler“ der Crawl-Status „Domänenverifizierung fehlgeschlagen“ angezeigt.

Wenn bei der Domänenverifizierung Fehler auftreten, überprüfen Sie folgende Punkte:

Ist die Homepage Ihrer Website online und öffentlich zugänglich? Diese Seite wird auch als Indexseite oder Startseite bezeichnet und sollte keine IP-Beschränkungen aufweisen und keine Benutzeranmeldung, Kennworteingabe oder sonstige Authentifizierung erfordern.
Sind Sie als Inhaber der Domäne bestätigt? Klicken Sie auf der Seite „Crawler“ auf das Optionsmenü () und dann auf Bearbeiten, um zur Crawler-Einrichtung zurückzukehren und Ihre Domäneninhaberschaft zu bestätigen. Weitere Informationen finden Sie unter Einrichten eines Webcrawlers.

Sitemap konnte nicht verarbeitet werden

Der Webcrawler verwendet bei jedem Aufruf die bei der Einrichtung festgelegte Sitemap. Wenn die Sitemap nicht verarbeitet werden kann, wird der Inhaber des Crawlers per E-Mail benachrichtigt und der Crawler nicht ausgeführt. Überprüfen Sie in diesem Fall folgende Punkte:

Ist der Webcrawler auf die richtige Sitemap-URL eingestellt und kann er sie lokalisieren? Sie können den Crawler bearbeiten, um die aktuelle Sitemap-URL anzuzeigen. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern.
Ist die Sitemap online und öffentlich zugänglich? Diese Seite sollte keine IP-Beschränkungen aufweisen und keine Benutzeranmeldung, Kennworteingabe oder sonstige Authentifizierung erfordern.
Liegt die Sitemap im XML-URL-Format vor und entspricht sie dem XML-Protokoll für Sitemaps?

Datensatzfehler

Datensatzfehler treten auf, wenn kein Einrichtungsfehler vorliegt, aber der Webcrawler die in der Sitemap definierten Seiten (siehe Einrichten eines Webcrawlers) nicht erfolgreich analysieren und indizieren kann. Wenn ein Datensatzfehler auftritt, erhält der Inhaber des Crawlers eine E-Mail-Benachrichtigung mit dem Link zu einer CSV-Datei, in der die betroffenen Seiten und die jeweils aufgetretenen Fehler aufgeführt sind.

Locale not detected

Der Fehler „Locale not detected“ zeigt an, dass der Webcrawler kein Gebietsschema erkennen konnte oder das erkannte Gebietsschema mit keinem der aktuellen Gebietsschemas des Help Centers übereinstimmt.

Der Crawler probiert verschiedene Möglichkeiten durch, um das Gebietsschema eines Datensatzes zu bestimmen. Die erste erfolgreiche Strategie bestimmt das Gebietsschema der Datensätze.

Extrahieren des Gebietsschemas aus dem Attribut „lang“ im <html>-Tag
Extrahieren des Gebietsschemas aus dem Content-Language-Header
Extrahieren des Gebietsschemas aus dem <meta>-Tag
Durchführen einer Textanalyse des Inhalts (CLD – Compact Language Detection)

Der Fehler „Locale not detected“ wird durch eines der folgenden Probleme verursacht:

Das erkannte Gebietsschema oder die erkannte Sprache stimmt mit keinem Gebietsschema bzw. keiner Sprache in der Konfiguration eines der in Ihrem Konto konfigurierten Help Center überein. Wie Sie feststellen, welche Sprachen in den einzelnen Help Centern Ihres Kontos konfiguriert sind, erfahren Sie im Beitrag Konfigurieren des Help Centers für die Unterstützung mehrerer Sprachen. Die Gebietsschemacodes für Ihre konfigurierten Sprachen finden Sie unter Zendesk-Sprachunterstützung nach Produkt.
Der Webcrawler konnte kein Gebietsschema oder keine Sprache erkennen.

Überprüfen Sie in diesem Fall folgende Punkte:

Stimmt das lang-Attribut im <html>-Tag mit einem im Help Center eingestellten Gebietsschema überein?
Stimmt der HTTP Content-Language-Header mit einem im Help Center festgelegten Gebietsschema überein?
Stimmt die im Meta-Element mit dem http-equiv-Attribut festgelegte Content-Language mit einem im Help Center eingestellten Gebietsschema überein?

Weitere Informationen finden Sie im Beitrag Überblick über Search-Crawler-Gebietsschemas.

Title not detected

Der Fehler „Title not detected“ zeigt an, dass der Webcrawler den Titel eines Datensatzes nicht erkennen konnte. Der Webcrawler probiert verschiedene Möglichkeiten durch, um den Titel eines Datensatzes zu bestimmen:

Extrahieren des Inhalts des <title>-Tags
Extrahieren des Inhalts des <h1>-Tags
Extrahieren des Textinhalts aus dem <body>-Tag

Die erste erfolgreiche Strategie bestimmt das Gebietsschema der Datensätze. Der Webcrawler indiziert nur die ersten 255 Zeichen des extrahierten Inhalts. Wenn sich mit keiner der oben genannten Strategien ein Inhalt bestimmen lässt, wird der Datensatz nicht indiziert.

Um dieses Problem zu beheben, stellen Sie sicher, dass die betreffende Seite eines der oben aufgeführten Tags aufweist.

Body not found

Der Fehler „Body not found“ zeigt an, dass der Webcrawler den Text einer Seite nicht erkennen konnte. Um dieses Problem zu beheben, stellen Sie sicher, dass die betreffende Seite ordnungsgemäß mit dem <body>-Tag gekennzeichnet ist.

HTTP [Statuscode]

Wenn das Feld für den Fehlercode in der CSV-Datei zu einem Datensatz den Eintrag „HTTP“ gefolgt von einem Statuscode enthält, konnte die Seite nicht indiziert werden, weil der Seitenaufruf fehlgeschlagen ist. Wenn die Seite erfolgreich indiziert werden konnte (HTTP 2xx), wird kein HTTP-Statuscodefehler zurückgegeben.

Die häufigsten Fehlercodes sind:

404 – Page not Found – Die Seite existiert nicht oder ihre URL wurde geändert. Um dieses Problem zu beheben, stellen Sie sicher, dass der Crawler die aktuelle Sitemap verwendet und alle URLs in der Sitemap auf vorhandene Seiten verweisen.
403 – Forbidden – Der Crawler kann nicht auf die Seite zugreifen, weil sie durch einen Zugriffssteuerungsmechanismus (z. B. eine Benutzeranmeldung oder IP-Adressbeschränkung) geschützt ist. Überprüfen Sie in diesem Fall folgende Punkte:
- Haben Sie den User Agent des Webcrawlers „Zendesk/External-Content“ in Ihre Zulassungsliste eingetragen?
- Sind die Seiten, die Sie indizieren möchten, öffentlich zugänglich? Zugriffsbeschränkte Seiten können vom Crawler nicht analysiert werden. Wenn Sie die Seiten, die Sie crawlen und indizieren möchten, nicht öffentlich zugänglich machen können, sollten Sie versuchen, sie mithilfe der Federated Search API als externe Inhalte zu indizieren. Weitere Informationen finden Sie unter Einrichten der Zendesk Federated Search API.
5xx – Server error – Die Seite konnte aufgrund eines Serverfehlers nicht verarbeitet werden. Möglicherweise ist die Website vorübergehend nicht verfügbar. Versuchen Sie, andere Seiten derselben Website aufzurufen, um zu prüfen, ob die Website online ist. Wenn die Website nicht online ist, wenden Sie sich an den zuständigen Administrator. Nachdem der Fehler beheben wurde, wird der Crawler wieder in seinem regulären Intervall (12-24 Stunden) ausgeführt.

Invalid URL domain

Der Fehler „Invalid URL domain“ zeigt an, dass die URL der in der Sitemap aufgeführten Seite nicht zu der bei der Einrichtung des Crawlers konfigurierten Domäne gehört.

Um dieses Problem zu beheben, überprüfen Sie, ob die Domäne der Seite, die den Fehler ausgelöst hat, mit der für Ihren Such-Crawler definierten Domäne übereinstimmt. Wenn der betreffende Link in Ihrer Sitemap auf eine Seite verweist, die zu einer anderen als der bei der Einrichtung des Crawlers konfigurierten Domäne gehört, haben Sie zwei Möglichkeiten:

Richten Sie für die betreffende Seite einen neuen Webcrawler ein.
Verschieben Sie die Seite aus der externen Domäne in die für den Webcrawler konfigurierte Domäne.

Undetermined

Der Fehler „Undetermined“ kann durch einen der folgenden Grunde verursacht werden:

Sie haben das Limit für externe Datensätze in Ihrer Instanz überschritten – Bei einer Überschreitung des Limits für externe Datensätze werden die jüngsten überzähligen externen Datensätze nicht indiziert oder aktualisiert. Um dieses Problem zu beheben, können Sie eine oder mehrere der folgenden Maßnahmen ergreifen:
- Löschen Sie nicht benötigte Crawler. Dadurch werden die externen Datensätze dieser Seiten aus Ihrer Instanz entfernt und die aufgrund des Limits zuvor nicht indizierten Seiten können verarbeitet werden. Weitere Informationen finden Sie unter Verwalten von Such-Crawlern.
- Löschen Sie einzelne Datensätze mithilfe der Federated Search API. Wenn der Crawler, der diese Seite indiziert, oder eine angepasste API-Integration, die diese Seite hinzufügt, aktiv ist, wird die Seite allerdings beim nächsten Aufruf des Crawlers oder bei der nächsten Synchronisierung der Integration wieder hinzugefügt.
- Entfernen Sie Seiten, die einer oder mehrere Ihrer Crawler verwenden, aus der Sitemap. Bei seinem nächsten Aufruf wird der Crawler die verbleibenden Seiten neu indizieren und die aus der Sitemap entfernten Seiten löschen.
- Stellen Sie einen oder mehrere Ihrer Crawler auf eine Sitemap mit weniger Seiten ein. Bei seinem nächsten Aufruf wird der Crawler die verbleibenden Seiten neu indizieren und die aus der Sitemap entfernten Seiten löschen.
Die Seite verwendet JavaScript-Standortweiterleitungen – Der Webcrawler unterstützt keine JavaScript-Standortweiterleitungen. Wenn die Seite JavaScript-Standortumleitungen verwendet, kann der Crawler nicht auf den Inhalt der Seite zugreifen.
Um dieses Problem zu beheben, können Sie eine der folgenden Maßnahmen ergreifen:
- Stellen Sie sicher, dass die Sitemap direkt auf die Seite verweist, die Sie indizieren möchten.
- Implementieren Sie HTTP-Umleitungen.

Robots.txt-Fehler

Eine robots.txt-Datei teilt dem Crawler mit, auf welche Teile einer Website er zugreifen darf. Ihr Zweck besteht vor allem darin, eine Überlastung der Website durch zu viele Crawler-Anfragen zu verhindern.

Die robots.txt-Datei enthält keine Konfigurationsdaten, sondern eine Reihe von Richtlinien, die dem Crawler mitteilen, ob er die gesamte Website oder nur bestimmte Bereiche crawlen darf. Kunden müssen sich nur dann mit der robots.txt-Datei befassen, wenn diese ungültig oder der Crawler blockiert ist. In diesen Fällen generiert das System einen der folgenden Fehler, der behoben werden muss, bevor die Website erfolgreich gecrawlt und synchronisiert werden kann.

Von der Website blockiertes Crawling

Dieser Fehler tritt auf, wenn die robots.txt-Datei so konfiguriert ist, dass der Zugriff auf die Website für alle Benutzer – einschließlich des Crawlers – gesperrt ist.

Um sicherzustellen, dass der Zendesk-Crawler auf die Website zugreifen kann, während andere Crawler gegebenenfalls blockiert werden, können Sie zur robots.txt-Datei eine Override-Regel hinzufügen, die den Zendesk-Crawler zulässt.

Beispiel 1: Nur Zendesk/External-Content zulassen

User-agent: Zendesk/External-Content
Allow: /

Beispiel 2: Googlebot blockieren

User-agent: Googlebot
Disallow: /

Ungültige robots.txt-Datei

Dieser Fehler tritt auf, wenn die robots.txt-Datei vorhanden ist, aber Syntaxfehler oder ungültige Regeln enthält, weshalb der Crawler die Datei nicht lesen kann und sie ignoriert oder den Crawl abbricht.

Um dieses Problem zu beheben, überprüfen und korrigieren Sie die Syntax und die Crawler-Berechtigungen in Ihrer robots.txt-Datei. Verwenden Sie Online-Tools wie das Robots Testing Tool von Google, um Ihre robots.txt-Datei zu validieren.