Beheben von Problemen mit Webcrawler-Importen für Fortschrittliche KI Agenten

Add-on

AI Agents – Advanced

Sie können Inhalte mit einem Webcrawler in Ihren Fortschrittlichen KI Agenten importieren. Auf diese Weise kann Ihr AI Agent basierend auf Informationen auf externen Websites KIgenerierte Antworten auf Kundenfragen erstellen.

In diesem Beitrag erfahren Sie, wie Sie Probleme beheben, die auftreten können, wenn Sie Inhalte mit einem Webcrawler für einen Fortschrittlichen KI Agenten importieren.

In diesem Beitrag werden folgende Themen behandelt:

Der Crawler ist fehlgeschlagen, weil er das Timeout erreicht hat.
Im Crawl fehlen Seiten
Der Crawler enthält unnötige Seiten
Der Crawler enthält die richtigen Seiten, aber die falschen Inhalte

Verwandte Beiträge:

Fehler beim Crawlen, da das Timeout abgelaufen ist

Wenn ein Webcrawler nach mehreren Stunden fehlschlägt, wird er in der Regel durch einen Timeout verursacht. Crawling ist standardmäßig auf fünf Stunden begrenzt. Wenn der Fehler fünf Stunden nach Beginn des Importvorgangs aufgetreten ist, ist es wahrscheinlich, dass es ein Timeout ist.

In diesem Fall können Sie folgende Lösungsschritte ausprobieren:

Wenn die Website kein JavaScript verwendet, setzen Sie den Crawler-Typ auf Raw HTTP client (Cheerio), einen deutlich schnelleren Crawler, und versuchen Sie es erneut.
Wenn Sie wissen, dass die Website Inhalte enthält, die Sie eigentlich nicht benötigen, lesen Sie die Anweisungen unter Das Crawling enthält unnötige Seiten.
Teilen Sie den Crawler in zwei oder mehr separate Crawler (mit den Einstellungen URLs einschließen oder URLs ausschließen) auf, die jeweils nur Teile der Website abbilden.

Im Crawl fehlen Seiten

Wenn im Crawl ganze URLs oder Beiträge fehlen, erweitern Sie den Umfang des Crawls mit Start-URLs und URLs einschließen. Wenn Sie sicher sind, dass die Einstellungen richtig sind, aber noch Beiträge fehlen, überprüfen Sie die Anzahl der Seiten, die in der Importübersicht gecrawlt wurden. Wenn es sich um die Standard-Max-Seiten zum Crawlen handelt (4.000), versuchen Sie, diese Einstellung zu erhöhen.

Der Crawl enthält unnötige Seiten

Wenn das Crawling mehr Seiten oder Beiträge enthält als erforderlich (z. B. wiederholte oder nicht anwendbare Inhalte, z. B. englische Seiten, wenn Sie nur Spanisch brauchen, oder Inhalte, die Ihr AI Agent nicht benötigt, um Kundenfragen zu beantworten), verwenden Sie die Einstellung URLs ausschließen.

Bestimmte Unterseiten sollten versehentlich ausgeschlossen werden. Start-URLs bestimmen, wo der Crawler beginnt. Sie folgt dann allen Links von dieser Seite und den nachfolgenden Seiten bis zur angegebenen maximalen Crawling-Tiefe. Wenn Sie jedoch Seiten ausschließen, werden alle Seiten, die nur von ausgeschlossenen Seiten aus verlinkt sind, nur dann gecrawlt, wenn sie separat als Start-URLs angegeben sind.

Das folgende Diagramm zeigt ein Beispiel. Jeder Kreis repräsentiert eine Seite und jeder Pfeil einen Link von dieser Seite. Wenn der Crawler auf der oberen Seite beginnt (wie in – es ist die einzige Start-URL) und die lila Seite ausgeschlossen wird, gilt Folgendes:

Die rote Seite kann nicht gecrawlt werden.
Alle gelben Seiten werden gecrawlt.
Die grüne Seite wird ebenfalls gecrawlt, obwohl sie von der ausgeschlossenen lila Seite aus verlinkt ist, da sie auch von einer der enthaltenen gelben Seiten aus verlinkt ist.

Der Crawler enthält die richtigen Seiten, aber die falschen Inhalte

Wenn der Crawler die richtigen Seiten, aber die falschen Inhalte auf diesen Seiten zurückgibt, enthalten die erweiterten Crawler-Einstellungen Tools zum Auffinden und Ein- oder Ausschließen solcher Inhalte. Sie müssen den richtigen CSS-Selector für das Element finden, das Sie ein- oder ausschließen möchten, und ihn dann in die richtige Einstellung einfügen. Hierzu müssen Sie wissen, was ein CSS-Selektor ist und wie er zu finden ist.

In diesem Abschnitt werden folgende Themen behandelt:

Überblick über und Auffinden von CSS-Selektoren
Der Crawler überspringt Seiteninhalte
Der Crawler gibt zu viele oder unordentliche Seiteninhalte zurück

Überblick über und Auffinden von CSS-Selektoren

In diesem Abschnitt werden die CSS-Selektoren und die Suche nach der richtigen CSS-Selektoren beschrieben. Wenn Sie mit diesen Informationen bereits vertraut sind, springen Sie stattdessen zu den Abschnitten zur Fehlerbehebung unten.

In diesem Abschnitt werden folgende Themen behandelt:

Überblick über CSS-Selektoren
Suchen nach einem CSS-Selector
Bestätigen einer CSS-Auswahl

Überblick über CSS-Selektoren

CSS-Selektoren sind Muster, die verwendet werden, um bestimmte HTML-Elemente auf einer Webseite auszuwählen und gezielt anzusprechen. Sie erleichtern das Auffinden und Extrahieren genau der Daten, die Sie auf komplexen Webseiten benötigen.

Beim Web-Crawling und -Scraping helfen CSS-Selektoren, Daten zu extrahieren, indem sie die genauen Teile der Struktur einer Seite wie <div>, <span> oder Elemente mit bestimmten Klassen und IDs identifizieren. Die Selektor-.product-title zielt beispielsweise auf alle Elemente mit der Klasse "product-title" ab. Das Stampfzeichen (#) wird verwendet, um Elemente anhand ihrer eindeutigen ID auszuwählen. #main-header wählt beispielsweise das Element mit id="main-header" aus.

Suchen nach einem CSS-Auswähler

Zuerst müssen Sie die gewünschte CSS-Auswahl auswählen. In den folgenden Anweisungen wird davon ausgegangen, dass Sie den Chrome-Webbrowser verwenden. Die Schritte sind jedoch wahrscheinlich bei anderen Browsern ähnlich.

So finden Sie eine CSS-Auswahl

Machen Sie den Text oder das anklickbare Element auf der gewünschten Webseite ausfindig.
Klicken Sie mit der rechten Maustaste direkt auf dieses Element und wählen Sie Prüfen aus.
Das Chrome DevTools-Fenster wird geöffnet und der passende Code hervorgehoben.
Klicken Sie im DevTools-Bereich mit der rechten Maustaste auf den hervorgehobenen Code und wählen Sie Copy > Copy aus.
Jetzt haben Sie den CSS-Selektor in die Zwischenablage kopiert.

Bestätigen einer CSS-Auswahl

Nachdem Sie den CSS-Auswahlbereich gefunden haben, sollten Sie ihn verifizieren.

So bestätigen Sie die CSS-Auswahl

Lassen Sie DevTools geöffnet und drücken Sie Strg+F (Windows oder Linux) bzw. Befehl+F (Mac).
Dadurch wird eine Suchleiste in der Registerkarte Elemente des DevTools-Bereichs aktiviert.
Fügen Sie den soeben kopierten CSS-Selektor in dieses Suchfeld ein.
Stellen Sie sicher, dass die hervorgehobenen Elemente im HTML-Code und auf der Seite selbst (häufig mit farbigem Umriss) mit den Erwartungen übereinstimmen.

Wenn nur das gewünschte Element hervorgehoben ist, ist die Auswahl korrekt. Wenn zu viele oder falsche Elemente hervorgehoben sind, versuchen Sie es mit einem übergeordneten Element oder passen Sie die Auswahl an.

Optional können Sie verschiedene Selektoren testen. Manchmal sind kürzere oder spezifischere Selektoren besser geeignet. Sie können auf übergeordnete oder untergeordnete Elemente im HTML-Code klicken, um ihre CSS-Klassen oder IDs anzuzeigen und zu versuchen, auch diese Selektoren zu kopieren.

In den nächsten zwei Abschnitten erfahren Sie, wie Sie mit diesen Selektoren Inhalte gezielt ansprechen, die Sie crawlen möchten oder nicht.

Der Crawler überspringt Seiteninhalte

Wenn Ihr Crawler die richtigen Seiten aufweist, aber Inhalte von diesen Seiten fehlen, können die folgenden erweiterten Crawler-Einstellungen hilfreich sein:

HTML-Transformator: Der Crawler entfernt zunächst alle HTML-Elemente von einer Seite und wendet dann einen HTML-Transformator an, um fremde Inhalte zu entfernen. Manchmal kann der Transformator zu weit gehen und Inhalte entfernen, die Sie tatsächlich beibehalten möchten. Wenn Inhalte fehlen, sollten Sie diese Einstellung zuerst auf Keine setzen, damit keine Inhalte entfernt werden, und dann die Importzusammenfassung überprüfen.
HTML-Elemente beibehalten: Behalten Sie nur bestimmte HTML-Elemente bei, indem Sie eine oder mehrere CSS-Auswahlen angeben. Alle anderen Inhalte werden ignoriert, damit Sie sich auf die relevanten Informationen konzentrieren können.
Anklickbare Elemente erweitern: Verwenden Sie diese Option, um den Inhalt hinter Akkordeons und Dropdownlisten zu erfassen. Die Standardeinstellung bezieht sich auf Webseiten, die der gängigen Webentwicklungspraxis folgen, und definiert Dropdowns als aria=false. Wenn der Crawler also auf ein solches Element stößt, wird es geöffnet. Geben Sie eine CSS-Auswahl für Elemente ein, die angeklickt werden sollen, z. B. Schaltflächen oder Links, die ausgeblendete Inhalte erweitern. Auf diese Weise kann der Crawler den gesamten Text erfassen. Stellen Sie sicher, dass der Selektor gültig ist.
Inhalt von Containern beibehalten: Wenn der erweiterbare Inhalt geschlossen wird, wenn auf ein anderes Element geklickt wird, können Sie mit dieser Einstellung sicherstellen, dass diese Elemente nach dem Klicken geöffnet bleiben. Geben Sie also für jedes Element, auf das Sie klicken möchten, eine CSS-Auswahl ein und bleiben Sie auch nach dem Klicken auf andere Elemente geöffnet, z. B. Schaltflächen oder Links, die ausgeblendete Inhalte erweitern.
Warten auf Selektor und Soft Wait auf Selektor: Wenn die Seite dynamischer Inhalte enthält, die erst nach einer bestimmten Zeit angezeigt werden, kann es vorkommen, dass sie vom Crawler übersehen wird, es sei denn, er wartet. Es gibt zwei Möglichkeiten, dem Crawler mitzuteilen, dass er mit einem CSS-Selektor warten soll.
- Die Einstellung Warten auf dynamischer Inhalt bestimmt, wie lange der Crawler wartet. Wenn der Selektor vor Ablauf des Zeitlimits nicht gefunden wird, gilt er als fehlgeschlagene Anfrage und wird mehrmals wiederholt.
- Die Soft-Wartezeit für Selektor, die angibt, wie lange der Crawler wartet, aber auch dafür sorgt, dass der Crawler die Seite weiterhin crawlt, wenn der Selektor nicht gefunden wird. Dadurch werden Fehler verhindert.
- Diese Einstellungen funktionieren nicht mit dem Crawler-Typ Raw HTTP client (Cheerio), da er keine JavaScript-Inhalte abruft.
Maximale Bildlaufhöhe: Manche Seiten sind so lang, dass der Crawler vor dem Ende aufgibt. Wenn Inhalte unter einem bestimmten Punkt fehlen, können Sie mit dieser Einstellung den Crawler zwingen, eine bestimmte Anzahl von Pixeln zu scrollen.

Der Crawler gibt zu viele oder unordentliche Seiteninhalte zurück

Wenn Ihr Crawler die richtigen Seiten hat, aber zusätzliche oder unnötige Inhalte auf den Seiten enthält (z. B. Marketingtext, Navigation, Kopf- oder Fußzeilen oder sogar Cookies), die die Antworten des AI Agent stören, verwenden Sie die folgenden erweiterten Crawler-Einstellungen, um diese Inhalte auszuschließen:

HTML-Elemente beibehalten: Behalten Sie nur bestimmte HTML-Elemente bei, indem Sie eine oder mehrere CSS-Auswahlen angeben. Alle anderen Inhalte werden ignoriert, damit Sie sich auf die relevanten Informationen konzentrieren können. In vielen Help Centern ist dies der einfachste Ansatz, um sicherzustellen, dass die Hauptinhalte von Beiträgen zielgerichtet sind, ohne die Navigation, verwandte Beiträge und unnötige Banner und Kopfzeilen zu verwenden.
HTML-Elemente entfernen: Geben Sie mit CSS-Selektoren an, welche HTML-Elemente aus dem Crawl entfernt werden sollen. Dies ist die präziseste und effektivste Methode, bestimmte bekannte Inhalte auszuschließen.

Hinweis zur Übersetzung: Dieser Beitrag wurde mit automatischer Übersetzungssoftware übersetzt, um dem Leser ein grundlegendes Verständnis des Inhalts zu vermitteln. Trotz angemessener Bemühungen, eine akkurate Übersetzung bereitzustellen, kann Zendesk keine Garantie für die Genauigkeit übernehmen.

Sollten in Bezug auf die Genauigkeit der Informationen im übersetzten Beitrag Fragen auftreten, beziehen Sie sich bitte auf die englische Version des Beitrags, die als offizielle Version gilt.