Tools zum Erfassen und Konvertieren des Webs

Web Scraper-Dokumentation

Um ein Web-Scrape zu erstellen, müssen Sie fünf Arten von Informationen angeben, die auf die folgenden Registerkarten verteilt sind.

  1. Kratzoptionen
  2. Ziel-Websites
  3. Kratzanleitung
  4. Exportoptionen
  5. Planen Sie Scrape

Kratzoptionen

Alle folgenden Funktionen stehen zur Verfügung, um ein Web-Scrape auf der Registerkarte Scrape-Optionen anzupassen.

Scrape Name der Name des Kratzers.

Folgen Sie Links Bietet die folgenden Optionen, wie der Schaber Links folgen soll:

  • nach Bedarf - die Standardeinstellung und die sicherste Option. Dadurch folgt der Schaber nur den Links, auf die er angewiesen ist
  • Alle Seiten - Der Scraper folgt jedem gefundenen Link
  • erste Seite - folgen Sie nur den Links auf der ersten Seite, die als Ziel angegeben wurden
  • bis zu n Seiten von der ersten Seite - folgen Sie nur den Links auf den Seiten mit der angegebenen Anzahl von Klicks von der ersten Seite
  • in Frames - Folgen Sie den Links in Frames und Iframes

Robots.txt-Datei ignorieren Wenn diese Option aktiviert ist, kann der Scraper die Webseiten besuchen, die normalerweise vom Websitebesitzer nicht gecrawlt werden.

Dateidownloads ignorieren Einmal gesetzte Links, die beim Besuch einen Dateidownload verursachen, werden nicht heruntergeladen.

Duplikate ignorieren Wenn diese Option aktiviert ist, werden Seiten ignoriert, die der von Ihnen festgelegten Ähnlichkeit entsprechen oder diese überschreiten. Sie können beispielsweise Seiten ignorieren, die 95% gleich sind.

Schrammen begrenzen Mit dieser Option können Sie festlegen, wie viele Seiten der Web Scraper vor dem Anhalten schaben soll.

Meine Zeitzone verwenden Wenn gesetzt, zeigt dies an, dass der Web Scraper versuchen soll, alle Daten, die er kratzt, zu konvertieren into Ihre lokale Zeitzone. Ihre Zeitzone kann auf der Kontoseite eingestellt werden.

Adresse Der geografische Ort, von dem aus der Web Scraper das Scrape ausführt. Dies kann hilfreich sein, wenn die Zielwebsite ortsabhängige Einschränkungen aufweist.

Standard-Datumsformat Wenn Sie Daten konvertieren, bei denen das Datumsformat nicht bestimmt werden kann, verwendet der Web Scraper standardmäßig dieses ausgewählte Format.

Verzögerung beim Laden der Seite Dies ist die Zeit in Millisekunden, die der Web Scraper warten sollte, bevor eine Seite analysiert wird. Dies ist sehr nützlich, wenn eine Seite viel AJAX enthält oder langsam geladen wird.

Ziel-Websites

Ziel-Websites

Auf der Registerkarte Zielwebsites geben Sie Websites an, aus denen Sie Daten extrahieren möchten. Um das Scrape-Tool anzuweisen, Daten von einer Website zu extrahieren, müssen Sie zuerst die Haupt-URL angeben, die Sie sind interested in zB http://www.example.com/shop/ An dieser Stelle beginnt der Scraper mit dem Scrape. Es kann sich um eine normale Webseite, ein PDF-Dokument, ein XML-Dokument, ein JSON-Dokument, einen RSS-Feed oder eine Sitemap handeln. Wenn es sich nicht um eine Webseite oder ein PDF-Dokument handelt, findet der Scraper alle Links in der Datei und ruft sie auf.

Um nur den Links zu folgen, die in der Ziel-URL enthalten sind, und nicht den nachfolgenden Seiten, können Sie festlegen, dass Folgen Sie Links Kratzoption zu auf der ersten Seite. Dadurch wird die Ziel-URL nur verwendet, um den Rest des Scrapes zu sortieren.

Standardmäßig folgt der Web Scraper jedem Link, den er auf jeder von ihm besuchten Webseite entdeckt. Wenn Sie einschränken möchten, welche Links die Web Scraper Im Folgenden wird eine einfache Möglichkeit beschrieben, ein URL-Muster anzugeben. Dies funktioniert, indem eine URL mit dem Stern als Platzhalter angegeben wird, um anzuzeigen, dass in diesem Teil des Musters beliebige Zeichen vorhanden sein können. Zum Beispiel http://www.example.com/*/articles/* Alle URLs mit Artikeln als zweitem Verzeichnis werden aus dem Stammverzeichnis der Website entfernt.

Die URL kann auch eine URL mit Parametern für den POST angeben, beispielsweise ein Anmeldeformular. Geben Sie dazu die Formular-URL in das Textfeld Ziel-URL ein und fügen Sie die erforderlichen zu verwendenden Post-Parameter hinzu. Post-Variablenwerte können auch spezielle GrabzIt-Variablen enthalten, z.

  • {{day}} - Tag als zweistelliger Wert
  • {{month}} - Monat als zweistelliger Wert
  • {{year}} - Jahr als vierstelliger Wert
  • {{hour}} - Stunde als zweistelliger Wert
  • {{minute}} - Minute als zweistelliger Wert
  • {{second}} - Sekunde als zweistelliger Wert

Schließlich können Sie angeben Seed-URLs um sicherzustellen, dass diese URLs gelöscht werden.

Seed-URLs

Seed-URLs ermöglichen es einem Benutzer, eine Liste von URLs anzugeben, die vom Web Scraper gecrawlt werden müssen. Wenn nur die Seed-URLs gelöscht werden sollen, legen Sie die fest Folgen Sie Links Kratzoptionen zu keine seiten in der Registerkarte Scrape-Optionen.

Um Seed-URLs auf der Registerkarte Zielwebsites festzulegen, klicken Sie auf die Schaltfläche Ziel hinzufügen und aktivieren Sie das Kontrollkästchen Set Seed URLs (Seed-URLs festlegen). Geben Sie dann jede URL an, die in einer separaten Zeile angezeigt werden soll.

Erstellen Sie Start-URLs aus einer Vorlagen-URL

Alternativ können Sie Start-URLs mithilfe einer Vorlagen-URL automatisch generieren. Hierbei handelt es sich um eine einzelne URL, die eine URL-Variable enthält. Eine URL-Variable gibt einen Zahlenbereich an, über den iteriert werden soll.

{{start number|finish number|iterate number}}

  • Startnummer Die Nummer, bei der die URL-Variable beginnt
  • Endnummer Die Nummer, an der die URL-Variable endet
  • Nummer iterieren Die Zahl, um die die URL-Variable iteriert

Die Startnummer ist die Nummer, bei der die URL-Variable mit dem Zählen beginnen soll, die Endnummer ist die Nummer, bei der die URL-Variable mit dem Zählen aufhört, die Iterationsnummer ist die Nummer, die die Nummer bei jeder Iteration der URL-Variablen erhöht.

Zum Beispiel für die folgende Vorlagen-URL http://www.example.com/search?pageNo={{1|3|1}}

Dadurch werden die folgenden Start-URLs erstellt:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Kratzanleitung

Scrape-Anweisungen teilen dem Web Scraper mit, welche Aktionen beim Scraping der Zielwebsite ausgeführt werden sollen. Auf der Registerkarte Kratzanweisungen wird standardmäßig der Kratzassistent angezeigt, mit dem Sie die benötigten Kratzanweisungen einfach hinzufügen können. Ein gutes Beispiel für die Verwendung dieses Assistenten finden Sie in der Tutorial zur Produktliste und zum Scraping von Details.

Sobald Sie bereit sind, mit dem Schaben zu beginnen, drücken Sie die Taste Neue Scrape-Anweisung hinzufügen Link.

Dadurch wird der Assistent geöffnet und die Ziel-URL wird automatisch geladen, sodass Sie sofort auswählen können, was gescrappt werden soll. Wenn eine Webseite oder ein PDF-Dokument geladen wurde, können Sie auf einen beliebigen Link klicken, um wie gewohnt zu navigieren, z. B. zu einer anderen Webseite. Bis Sie eine der Aktionen am unteren Rand des Bildschirms an diesem Punkt auswählenint Wenn Sie auf den Inhalt klicken, wird das HTML-Element ausgewählt, das Sie extrahieren oder bearbeiten möchten.

Das Erste, was Sie über Scrape-Anweisungen wissen müssen, ist, dass sie standardmäßig auf jeder Webseite ausgeführt werden. Der Weg, dies zu stoppen, führt über die Verwendung von Vorlagen. Eine Vorlage kann zugewiesen werden, wenn eine Aktion ausgeführt wird, z. B. ein Klick auf einen Link. Wenn der Scraper diesen Link besucht oder auf diese Schaltfläche klickt, erkennt er, dass sie zur zugewiesenen Vorlage gehört. Dadurch können verschiedene Seitentypen definiert werden. Beispielsweise haben Sie möglicherweise eine Produktkategorieseite, die einige Übersichtsinformationen enthält, und dann eine Detailseite, die die Produktinformationen enthält. Für beide Seiten sind wahrscheinlich andere Anweisungen zum Abkratzen erforderlich.

Schaberschablone

Wählen Sie zunächst die Klicken Sie Nachdem Sie die Elemente ausgewählt haben, für die Sie die Aktion ausführen möchten, klicken Sie auf Weiter Geben Sie den Namen der Vorlage in das Feld ein Erstellen Sie eine Vorlage Textfeld Wenn der Schaber diese Aktionen ausführt, ist die zurückgegebene Vorlage der Name, den Sie angegeben haben.

Um dann einer Kratzanweisung eine bestimmte Vorlage zuzuweisen, müssen Sie die gewünschte Vorlage aus der Liste auswählen Ausführen in Dropdown-Liste, die im Optionsfenster angezeigt wird, das unmittelbar vor dem Hinzufügen der Scrape-Anweisung angezeigt wird. Bei der Auswahl einer Vorlage stehen folgende drei Hauptoptionen zur Verfügung:

  • Alle Seiten - Verwenden Sie für diese Scrape-Anweisung keine Vorlage. Die Scrape-Anweisung wird auf allen Webseiten ausgeführt.
  • Standardvorlage - Verwenden Sie keine der benutzerdefinierten Vorlagen. Die Scrape-Anweisung wird auf jeder Webseite ausgeführt, auf der keine Vorlage angegeben ist.
  • Benutzerdefinierte Vorlage - Eine der Vorlagen, die Sie zur Identifizierung einer bestimmten Webseite oder Aktion definiert haben.

Sobald Sie eine dieser Optionen ausgewählt haben, wird die Scrape-Anweisung nur für die angegebene Vorlage ausgeführt.

Daten extrahieren

Sie werden das bemerken, wenn Sie das auswählen Extrahieren von Daten Aktion. In der unteren linken Ecke des Bildschirms können Sie entweder ein HTML-Element im obigen Fenster auswählen oder eine globale Seiteneigenschaft auswählen.

Klicken Sie auf, um eine globale Seiteneigenschaft zu verwenden globale Seiteneigenschaft Verknüpfung. Bestätigen Sie dann, dass Sie fortfahren möchten. Sie haben jetzt eine Liste von Eigenschaften, die direkt von der Seite extrahiert werden können. Zum Beispiel: Seitentitel.

Um eine auszuwählen, wählen Sie sie einfach aus der Liste der Optionen aus und klicken Sie auf Weiter um die Daten zu den Datensatz.

Wenn Sie Daten in bestimmten HTML-Elementen extrahieren möchten, anstatt zur gesamten Seite zu gehören, müssen Sie auf die entsprechenden HTML-Elemente klicken. Sie können einzelne oder mehrere Elemente auswählen. Wenn Sie jedoch mehrere Elemente auswählen, versuchen Sie, mehrere Elemente auszuwählen, die dann identisch sind, z. B. mehrere Zeilen in einer Spalte. Wenn der Scraper keine Regel erstellen kann, mit der die ausgewählte Datensammlung eindeutig identifiziert werden kann, wird eine Scrape-Anweisung dies nicht tun geschaffen werden können. Wenn die mehreren Elemente, auf die Sie klicken, von unserem Web Scraper-Assistenten als sich wiederholende Daten identifiziert wurden, werden alle sich wiederholenden Daten in derselben Gruppe automatisch ausgewählt. Nachdem Sie alle Ihre einzelnen oder mehreren Elemente ausgewählt haben, wählen Sie unten links auf dem Bildschirm ein zu extrahierendes Attribut aus und klicken Sie dann auf Weiter.

Einen Datensatz erstellen

Auf dem Datensatzbildschirm können Sie ändern, wie die Daten verarbeitet werden. Sie können beispielsweise den Datensatz und die darin enthaltenen Spalten umbenennen, indem Sie einfach auf den Namen klicken, um ihn umzubenennen. Wenn Sie einer Datenmenge eine Spalte hinzufügen, müssen Sie auch die Vorlage auswählen, in der sie ausgeführt werden soll. Sie können dies ändern, indem Sie auf die Dropdown-Liste unter dem Spaltennamen klicken.

Beim Extrahieren von Daten kommt es häufig vor, dass sich wiederholende Elemente inkonsistent wiederholen, um sicherzustellen, dass die richtigen Zeilen immer noch miteinander verknüpft sind Spalten verknüpfen Kriterien, um die inkonsistenten Spalten mit der konsistentesten Spalte im Dataset zu verknüpfen.

Um weitere Daten zum Datensatz hinzuzufügen, klicken Sie auf oder klicken Sie auf die Schaltfläche um Daten aus dem Datensatz zu entfernen, oder um den gesamten Datensatz zu löschen. Mit dem Datensatz können auch verschiedene Kriterien auf die Daten angewendet werden. Wählen Sie dazu die gewünschte Aktion von oben aus und klicken Sie dann auf die entsprechende Spalte, um die Kriterien anzuwenden. Wenn Sie beim Hinzufügen von Kriterien einen Fehler gemacht haben, klicken Sie einfach auf .

Hier ist die Liste der verschiedenen Kriterienarten und deren Verwendung:

  • Zeilen begrenzen - Dadurch wird die Anzahl der von der Webseite extrahierten Zeilen auf die von Ihnen festgelegte Anzahl begrenzt. Klicken Sie, um zu verwenden und klicken Sie dann auf die Zeile dahinter, die Sie abschneiden möchten.
  • Wiederholen - Wiederholt Spaltenelemente, bis die Spalte der Länge der längsten Spalte entspricht. Zum Benutzen einfach anklicken Klicken Sie anschließend auf die Spalte, für die Sie die Elemente wiederholen möchten.
  • Einzigartig machen - Entfernt alle doppelten Werte für alle eingegebenen Werte into eine Spalte. Zum Benutzen einfach anklicken und klicken Sie dann auf die Spalte, die Sie eindeutig machen möchten.
  • Werte extrahieren - Geben Sie ein Muster an, um nur die übereinstimmenden Datenelemente aus einem Textblock zu extrahieren. Zum Benutzen einfach anklicken , wählen Sie die entsprechende Spalte aus und befolgen Sie die Anweisungen, um ein Muster zu erstellen, das die relevanten Daten von der zurückgibt string.
  • Werte anpassen - Geben Sie ein Muster an, um redundanten Text zu entfernen. Zum Benutzen einfach anklicken Wählen Sie die entsprechende Spalte aus und befolgen Sie die Anweisungen, um ein Muster zu erstellen, mit dem der Text abgeschnitten wird.
  • Spalten verknüpfen - Ermöglicht die Verknüpfung von Spalten. Damit beim Extrahieren von Daten Datensätze in derselben Zeile wie die relative Zeile in der verknüpften Spalte angezeigt werden, selbst wenn die Anzahl der Ergebnisse nicht übereinstimmt. Zum Benutzen einfach anklicken Wählen Sie die zu verknüpfende Spalte und dann die zu verknüpfende Spalte aus.
  • Spalte ausblenden - Manchmal möchten Sie eine Spalte einschließen, nach der gefiltert werden soll, aber die Werte nicht in das Endergebnis aufnehmen. Klicken Sie dazu einfach auf Wählen Sie die Spalte aus, die Sie ausschließen möchten.
  • Aufsteigend sortieren - Sortiert nach der Spalte aufsteigend. Klicken Sie, um zu verwenden und wählen Sie dann die Spalte aus, nach der sortiert werden soll.
  • Absteigend sortieren - Sortiert nach der Spalte absteigend. Klicken Sie, um zu verwenden und wählen Sie dann die Spalte aus, nach der sortiert werden soll.
  • Enthält - Schließen Sie nur Werte ein, die den definierten Wert enthalten. Klicken Sie, um zu verwenden Wählen Sie die gewünschte Spalte aus und geben Sie den Wert ein, den die Spaltenwerte enthalten sollen.
  • Gleich - Schließen Sie nur Werte ein, die dem definierten Wert entsprechen. Klicken Sie, um zu verwenden Wählen Sie die gewünschte Spalte aus und geben Sie den Wert ein, dem die Spaltenwerte entsprechen sollen.
  • Nicht gleichzusetzen mit - Schließen Sie nur Werte ein, die nicht dem definierten Wert entsprechen. Klicken Sie, um zu verwenden Wählen Sie die gewünschte Spalte aus und geben Sie den Wert ein, mit dem die Spalte nicht übereinstimmen soll.
  • Weniger als - Schließen Sie nur Werte ein, die kleiner als der definierte Wert sind. Klicken Sie, um zu verwenden Um die gewünschte Spalte auszuwählen, geben Sie den Wert ein, den die Spalte unterschreiten soll.
  • Größer als - Schließen Sie nur Werte ein, die größer als der festgelegte Wert sind. Klicken Sie, um zu verwenden Um die gewünschte Spalte auszuwählen, geben Sie den Wert ein, den die Spalte überschreiten soll.

Wenn Sie eine der oben genannten Operationen ausgewählt haben, die mehrere Spalten betreffen kann, werden Sie gefragt, ob Sie zulassen möchten, dass nur eine Teilmenge der Spalten oder alle davon betroffen sind. In den meisten Fällen soll es sich auf alle Spalten auswirken. Unter bestimmten Umständen ist es jedoch sinnvoll, die betroffenen Spalten einzuschränken. Zum Beispiel, wenn Sie eine Reihe von auswählen Bezeichnungen und Werte, die die Position auf allen Webseiten ändern, können Sie alle Bezeichnungen und Werte auswählen. Verwenden Sie dann in der Datenmenge die Gleichheitsoperation, um sie auf die gewünschte Beschriftung zu beschränken, und geben Sie an, dass nur die Beschriftungs- und Wertspalten betroffen sein sollen. Dadurch wird sichergestellt, dass die anderen Spalten nicht von dem Löschen von Zeilen betroffen sind. Aus Gründen der Vollständigkeit ist es hilfreich, die Beschriftungsspalte auszublenden.

Wenn Sie alles geändert haben, was Sie möchten, klicken Sie auf Weiter und Ihre Kratzanweisungen werden dem Kratzer hinzugefügt. Sie haben dann die Möglichkeit, weitere Kratzanweisungen hinzuzufügen, wenn Sie dies wünschen.

Bearbeiten einer Webseite

Eine Webseite kann vor dem Scrapen bearbeitet werden, indem Sie auf klicken, Werte eingeben und aus Dropdown-Listen auswählen. Es ist wichtig zu bedenken, dass die Scrape-Anweisungen nicht neu gestartet werden, bis alle zutreffenden Scrape-Anweisungen ausgeführt wurden, obwohl dies dazu führen kann, dass eine neue Webseite geladen wird.

Um eine Webseite zu manipulieren, wählen Sie entweder die Klicken Sie auf Element, Schwebendes Element, Scrollen, Text eingeben or Wählen Sie Dropdown-Listenwert Aktionen. Wenn Sie eine Klickaktion ausführen, können Sie auf eine beliebige Anzahl von Elementen auf einer Webseite klicken. Andernfalls müssen Sie ein geeignetes HTML-Element auswählen. Beispielsweise sollte Text in ein Textfeld eingegeben werden. Dann klick Weiter. Dadurch wird ein Optionsfeld geöffnet, in dem Sie die Aktion ausführen können. Beim Eingeben von Text und Auswählen aus einer Dropdown-Liste müssen die Daten ausgewählt werden, die eingegeben oder ausgewählt werden sollen. Ansonsten sind die Optionen für alle drei Aktionen gleich.

Wenn Sie möchten, können Sie die Vorlage auswählen, in der diese Aktion ausgeführt werden soll, und für die Klickaktion, welche Vorlage angewendet wird, sobald die Klickaktion abgeschlossen ist. Das Zuweisen einer neuen Vorlage zu einer Klickaktion, die mehrere Klicks auf derselben Seite ausführt, ist jedoch keine gute Idee, z. B. das Öffnen von Inline-Popups oder das Anzeigen von Objekten auf dem Bildschirm. Dies liegt daran, dass, wenn die Klickaktion nur für bestimmte Vorlagen ausgeführt wird, die neue Vorlage, die durch den ersten Klick zugewiesen wurde, nicht zurückgesetzt wird. Abhängig davon, wie das Scrape geschrieben wurde, kann dies dazu führen, dass zukünftige Klicks auf derselben Seite nicht ausgeführt werden. Sie können auch festlegen, ob diese Aktion nur einmal ausgeführt werden soll. Dies ist hilfreich, wenn Sie sich beispielsweise anmelden into eine Website.

Mit den Aktionen Text eingeben oder Dropdown-Listenwert auswählen können Sie mehrere Textelemente eingeben oder mehrere Auswahlfelder auswählen. Diese können durch Klicken auf die Kratzanweisungen bearbeitet werden Variablen ändern oder anzeigen Schaltfläche, wie im Screenshot links gezeigt.

Dies kann wichtig sein, wenn Sie beispielsweise eine Liste mit Namen in ein Suchfeld eingeben möchten. Um sicherzustellen, dass ein Formular nur gesendet wird, wenn das Suchfeld einen Wert enthält, kann bei jeder erfolgreichen Texteingabe eine Vorlage festgelegt werden into Das Textfeld und die Klickaktion auf eine Schaltfläche werden nur ausgeführt, wenn diese Vorlage festgelegt ist. Nachdem die Klickaktion ausgeführt wurde, müsste die Vorlage in etwas anderes geändert werden, um die Prozedur zurückzusetzen.

Nach dem Ausführen von Aktionen, die Websites manipulieren, ist es hilfreich, eine Weile zu warten, bis die AJAX-Funktionalität durch die Aktionen ausgelöst wurde, damit der AJAX-Inhalt geladen werden kann, bevor Sie mit dem Scrape fortfahren. Sie können dies tun, indem Sie eine Verzögerung in die hinzufügen Nach der Ausführung warten Textfeld ein.

Möglicherweise möchten Sie direkt zu einer anderen URL springen, sobald eine Bedingung erfüllt ist. Verwenden Sie dazu die Gehe zu URL Aktion, die nur angezeigt wird, wenn im Scrape mindestens eine Vorlage definiert wurde und wenn sie erstellt wurde, einer Vorlage zugewiesen werden muss, um Endlosschleifen zu vermeiden.

Schließlich können Sie alle Capture-APIs von GrabzIt in Ihren Web-Scrapes verwenden. Wählen Sie einfach die Aktion "Capture Webpage" und wählen Sie das gewünschte Capture aus. Sie können dies einschränken, um bestimmte Webseiten innerhalb des Scrapes zu erfassen, indem Sie eine Vorlage angeben, die ausgeführt werden soll, sobald Sie die auswählen Weiter .

Nachdem jede Kratzanweisung hinzugefügt wurde, wird sie im Kratzanweisungsfeld angezeigt. Das Kreuz neben jeder Kratzanweisung ermöglicht das Löschen der Kratzanweisung. Wenn eine Kratzanweisung gelöscht wird, die von anderen Kratzanweisungen benötigt wird, werden diese Anweisungen ebenfalls gelöscht. Sie können die Reihenfolge der Kratzanweisungen ändern, indem Sie die Kratzanweisungen mit dem Greifersymbol ziehen.

Manuelles Schreiben von Kratzanweisungen

Wenn Sie die Scrape-Anweisungen genauer anpassen müssen oder Code ausführen möchten vor oder nach Kratzern Sie müssen die Kratzanweisungen manuell ändern.

Die Scrape-Anweisungen basieren auf JavaScript und der Code-Editor wird mit einer Syntaxprüfung, Auto-Vervollständigung und QuickInfos geliefert, um dies so einfach wie möglich zu gestalten.

Web Scraper-Anweisungen Auf die Kernfunktionen des Code-Editors kann über die Menüoptionen zugegriffen werden, wie im Screenshot dargestellt. Der Zweck der einzelnen Funktionen wird im Folgenden separat erläutert. Während etwaige Syntaxfehler in Ihren Scrape-Anweisungen in der linken Leiste des Code-Editors angezeigt werden.

Zauberer Mit dem Assistenten können Sie Teile der Seite auswählen, die Sie extrahieren möchten, und andere allgemeine Aufgaben ausführen, z. B. Web-Captures erstellen.

Kratzanweisungen anzeigen Zeigt dem Benutzer den Kratzanweisungscode an.

Alle Anweisungen löschen löscht alle Scrape-Anweisungen.

Webseitenfunktionen gibt das Seitenschlüsselwort ein into die Kratzanleitung und öffne die Auto-Vervollständigung, die alles Mögliche enthält Seitenfunktionen. Mit den Seitenfunktionen können Sie Daten von der Webseite extrahieren.

Datenfunktionen Geben Sie das Schlüsselwort Data ein into die Kratzanleitung. Datenfunktionen können Sie save Informationen.

Navigationsfunktionen gibt das Schlüsselwort Navigation ein into den Code-Editor. Das Navigationsfunktionen Mit dieser Option können Sie steuern, wie der Web Scraper auf der Zielwebsite navigiert.

Globale Funktionen gibt das globale Schlüsselwort ein into die Kratzanleitung. Dies gibt Ihnen Zugriff auf Funktionen Das kann Daten zwischen dem Parsen verschiedener Webseiten speichern. Beachten Sie beim Schreiben von Scrape-Anweisungen, dass der Status von JavaScript-Variablen in den Scrape-Anweisungen nicht beibehalten wird, wenn sich der Scraper zwischen Webseiten bewegt, es sei denn, Sie verwenden die globalen Funktionen für save Variablen, wie unten gezeigt.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Um eine persistente globale Variable zu erstellen, übergeben Sie true an den Parameter persist in der Methode Global.set (siehe unten).

Global.set("myvariable", "hello", true);

Dienstprogrammfunktionen gibt das Utility-Schlüsselwort ein into die Kratzanleitung. Dies ermöglicht es Ihnen, zu verwenden gemeinsame Funktionen Dies erleichtert das Schreiben von Scrapes, z. B. das Hinzufügen oder Entfernen von Abfragenstring Parameter von URLs.

Kriterienfunktionen gibt das Schlüsselwort Kriterien ein into die Kratzanleitung. Diese Funktionen Mit dieser Option können Sie die während des Scrapens extrahierten Daten verfeinern, z. B. um doppelte Daten zu entfernen.

Filtern Ermöglicht das einfache Erstellen eines Filters. Dies ist für einige Funktionen erforderlich, um ein bestimmtes HTML-Element innerhalb einer Webseite auszuwählen. Wählen Sie einfach die Attribute aus, die Ihr Zielelement haben soll, und / oder die Eltern des Elements sollen dieses Element auswählen. Stellen Sie sicher, dass sich der Cursor an der richtigen Stelle in der Funktion befindet, bevor Sie auf diese Option klicken, um auch den Filter zu passieren.

Screenshot-Funktionen Hier können Sie Screenshot-Optionen einstellen. Platzieren Sie den Cursor einfach an der richtigen Stelle der Funktion, wie im Tooltip angegeben, und klicken Sie auf die Screenshot-Optionen. Wählen Sie dann alle gewünschten Optionen und fügen Sie den Befehl ein.

Aktionen vor oder nach einem Scrape ausführen

Sie können Befehle vor oder nach einem Scrape ausführen, indem Sie die Dropdown-Liste der Optionen oben auf der Registerkarte Scrape Instructions verwenden. Alle eingegebenen Befehle, wenn Nach Kratzen ausführen ausgewählt ist, wird ausgeführt, nachdem das Kratzen beendet ist. Während irgendwelche Befehle eingegeben wurden, wenn Vor dem Schaben ausführen wird ausgeführt, bevor das Scrape gestartet wurde.

In einem dieser beiden Spezialmodi ist jedoch nur eine Teilmenge der Kratzanweisungen verfügbar. Die verfügbaren Befehle sind die Daten-, Global- und Navigations-Scrape-Anweisungen.

Streicher

Strings werden in Scrape-Anweisungen zum Definieren von Text verwendet, wenn ein Web-Scrape ausgeführt wird. EIN string wird durch double (") oder einfache Anführungszeichen ('). Wenn ein string wird mit einem doppelten Anführungszeichen begonnen, muss es mit einem doppelten Anführungszeichen enden, wenn a string beginnt mit einem einfachen Anführungszeichen und muss mit einem einfachen Anführungszeichen enden. Zum Beispiel:

"my-class" und 'my-class'

Ein häufiger Fehler, der auftreten kann, ist der nicht geschlossene string Fehler, dies ist, wenn ein string hat kein schließendes Zitat wie oben gezeigt oder es gibt einen Zeilenumbruch in der string. Folgendes ist illegal strings:

"my
class"

"my class

Um diesen Fehler zu beheben, müssen Sie sicherstellen, dass sie keine Zeilenumbrüche und übereinstimmende Anführungszeichen enthalten.

"my class" und "my class"

Manchmal möchten Sie ein einfaches oder doppeltes Anführungszeichen in einem string. Der einfachste Weg, dies zu tun, besteht darin, ein einfaches Anführungszeichen in a einzufügen string mit doppelten Anführungszeichen und einem doppelten Anführungszeichen in a string mit einfachen Anführungszeichen wie folgt abgegrenzt:

"Bob's shop" und '"The best store on the web"'

Alternativ können Sie einen Backslash verwenden, um ein Zitat wie folgt zu maskieren:

'test\'s'

Allgemeine manuelle Kratzaufgaben

Link Checker Erstellen Sie einen benutzerdefinierten Link Checker - Befolgen Sie diese einfachen Anweisungen, um herauszufinden, wie Sie einen benutzerdefinierten Link-Checker erstellen.
Bild herunterladen Laden Sie alle Bilder von einer Website herunter - Erfahren Sie, wie Sie alle Bilder von einer gesamten Website herunterladen können.
Datensatz erstellen Daten extrahieren und transformieren into ein Datensatz - Finden Sie heraus, wie Sie einen Datensatz von der Website erstellen, die Sie gerade bearbeiten.
Links extrahieren Extrahieren Sie Links von einer Website - Erfahren Sie, wie Sie alle HTML-Links von einer gesamten Website extrahieren und save sie in dem gewünschten Format.
Text auswählen Extrahieren von Werten aus Text mithilfe von Mustern - Erfahren Sie, wie Sie mithilfe von Mustern Werte aus Textblöcken extrahieren.
OCR Extrahieren Sie Text aus Bildern - Erfahren Sie, wie Sie in Bildern enthaltenen Text extrahieren können.
Datensatz So füllen Sie einen Datensatz auf - Formatieren Sie Ihre extrahierten Daten besser, indem Sie Auffüllen verwenden.
Feld Arrays manipulieren - Erfahren Sie, wie Sie mit den speziellen Array-Utility-Methoden Arrays innerhalb von Scrapes einfach handhaben können.
Aktion Führen Sie eine Aktion nur einmal während eines Kratzens aus - herausfinden, wie eine Aktion nur einmal während eines gesamten Kratzens ausgeführt werden kann.
Verfeinern Verfeinerung von verkratzten Daten - Erfahren Sie, wie Sie nicht benötigte Daten von Ihren Scrapes entfernen können.
E-Mail Adresse E-Mail-Adressen von einer Website entfernen - Erfahren Sie, wie Sie alle E-Mail-Adressen von einer Website entfernen.
Bildschirmfoto Screenshot der gesamten Website into PDFs oder Bilder - Erfahren Sie, wie Sie mit GrabzIt's Web Scraper jede Seite einer gesamten Website erfassen können.
Bildschirmfoto Extrahieren Sie strukturierte Informationen aus unstrukturiertem Text - Verwenden Sie GrabzIt, um Gefühle, Namen, Standorte und Organisationen zu extrahieren.

Scraping von anderen Inhalten als HTML

Wenn der Web Scraper auf PDFs, XML, JSON und RSS stößt, wird er in eine HTML-Annäherung konvertiert, sodass unser Web Scraper ihn korrekt analysieren kann und Sie auswählen können, welchen Inhalt Sie extrahieren möchten. Wenn Sie beispielsweise JSON-Daten analysieren möchten, werden die Daten konvertiert into Eine hierarchische HTML-Darstellung wie nebenstehend gezeigt. Auf diese Weise können Sie wie gewohnt Scrape-Anweisungen erstellen.

Auf ähnliche Weise wird die PDF-Datei konvertiert, wenn der Scraper ein PDF-Dokument lädt into HTML, damit Bilder, Hyperlinks, Text und Tabellen ausgewählt und bearbeitet werden können. Da eine PDF-Datei keine echte Struktur aufweist, werden Tabellen mithilfe von Heuristiken identifiziert und sind daher nicht immer genau.

Exportoptionen

Auf dieser Registerkarte können Sie auswählen, wie Sie Ihre Ergebnisse exportieren möchten. Dazu gehören Excel-Tabellen, XML-, JSON-, CSV-, SQL-Befehle oder HTML-Dokumente. Darüber hinaus können Sie auf dieser Registerkarte den Namen der gezippten Scrape-Ergebnisse festlegen. Wenn Sie nur Dateien herunterladen oder Web-Captures erstellen, müssen Sie keine Exportoption auswählen, da Sie nur eine ZIP-Datei mit den Ergebnissen erhalten. Auf dieser Registerkarte können Sie auch angeben, wie Sie die Ergebnisse senden möchten. Sie können die Ergebnisse über senden Amazon S3, Dropbox, Email Benachrichtigung, fTP und WebDav.

Die letzte Option ist eine Rückruf-URL, mit der die Scrape-Ergebnisse in Ihrer Anwendung mithilfe von verarbeitet werden können Scrape API.

Der Dateiname der komprimierten Ergebnisse oder jeder Datendatei, wenn Sie sie separat senden möchten, kann festgelegt werden, indem Sie die Option Use Default Filename deaktivieren und den gewünschten Dateinamen festlegen.

Sie können die Ergebnisse eines Kratzers auch anzeigen, indem Sie auf klicken Ergebnisse anzeigen Schaltfläche neben dein KratzenDies zeigt alle Echtzeit-Kratzergebnisse sowie die vorherigen, die innerhalb der letzten 48 Stunden durchgeführt wurden. .

Planen Sie Scrape

Beim Erstellen eines Web-Scrapes können Sie auf der Registerkarte Schedule Scrape festlegen, wann das Scrape gestartet werden soll und wie oft es wiederholt werden soll.

Überwachen und Debuggen von Scrapes

Sobald das Web Scrape startet, ändert sich das Statussymbol zu und die verarbeiteten Seiten beginnen mit der Zeit zuzunehmen. Ein Echtzeit-Schnappschuss des Scrap-Fortschritts wird regelmäßig erstellt, wobei eine Protokolldatei zusammen mit einem regulären Screenshot der letzten Webseite erstellt wird, auf die der Scraper gestoßen ist. So können Sie sehen, was während des Scrapens passiert. Um diese Informationen zu finden, klicken Sie auf das Erweiterungssymbol neben Ihrem Scrape und klicken Sie auf Zuschauer für das kratzen bist du intDies sollte detailliert angeben, ob Fehler aufgetreten sind, z. B. Probleme mit Ihren Kratzanweisungen.

Sobald das Scrape erfolgreich abgeschlossen wurde, wechselt das Statussymbol zu Wenn beim Öffnen des Viewers kein Ergebnis angezeigt wird, können Sie dem Protokoll und dem letzten Screenshot entnehmen, was falsch gelaufen ist.

Eines der häufigsten in den Protokollen gemeldeten Probleme ist, dass die Renderingverzögerung nicht ausreicht, um die Seite zu kratzen Verzögerung beim Laden der Seite in der gefunden Kratzoptionen Tab ist genug für die meisten Websites.