Tools zum Erfassen und Konvertieren des Webs

So kratzen Sie Produktlisten- und Detailseiten

Auf Websites gibt es häufig eine Suchseite, die eine Liste von Elementen enthält, wobei jedem Element eine zusammenfassende Beschreibung mit einem Link zu einer Detailseite mit detaillierten Informationen zu dem Element zugewiesen wird.

Da diese Struktur so häufig verwendet wird, müssen häufig einige Informationen zu den einzelnen Elementen von der Suchseite und der Rest von der Detailseite entfernt werden. Dieser Artikel enthält Anleitungen zum Entfernen solcher Informationen.

Geben Sie zuerst die URL der Produktlistenseite ein, die Sie durchsuchen möchten. Wählen Sie dann die gewünschten Informationen auf der Produktlistenseite aus. Stellen Sie sicher, dass alle Beispiele für die Daten ausgewählt sind.

Klicken Sie dann auf der Seite mit den Kratzanweisungen auf Kratzanleitung hinzufügen.

Das erste, was Sie beachten sollten, ist, dass unser Scraper genauso funktioniert wie ein Browser. Wenn also eine Cookie-Sicherheitsbenachrichtigung oder ein anderes Inline-Popup angezeigt wird, das Sie daran hindert, auf die Seite zu klicken, müssen Sie den Scraper anweisen, das Popup vor dem zu schließen Rest des Kratzens kann getan werden. Die meisten dieser Popups müssen nur einmal angeklickt werden, sodass Sie GrabzIt anweisen können, dasselbe zu tun. Verwenden Sie dazu die Klicken Sie auf Element Aktion und klicken Sie auf das gewünschte HTML-Element, um das Popup zu schließen. Klicken Sie dann auf die Option Einmalig Save und als nächstes.

Als nächstes wählen Sie die Extrahieren von Daten Wählen Sie dann die Daten aus, die Sie extrahieren möchten. Wenn Sie also den Titel eines Elements aus der Liste der Suchergebnisse auswählen möchten. Stellen Sie sicher, dass jeder Titel in dieser Liste ausgewählt ist.

Unser Assistent versucht, Datensätze automatisch zu identifizieren und wählt möglicherweise mehr Informationen aus, als Sie automatisch möchten. In diesem Fall klicken Sie einfach erneut auf die Elemente, die Sie nicht auswählen möchten, und sie werden nicht mehr angezeigt. Dies lehrt unseren Web Scraper, was zu extrahieren ist.

Wählen Sie nun das Attribut des Datenelements aus, das Sie extrahieren möchten. Wie "Text" und klicken Sie dann auf Weiter. Geben Sie auf dem nächsten Bildschirm einen Titel ein. Beachten Sie, dass hier alle Daten die Standardvorlage verwenden sollen. Dies liegt daran, dass die Daten immer dann extrahiert werden sollen, wenn sie sich nicht in einer speziellen Vorlage befinden.

Sobald Sie alle Artikeldaten ausgewählt haben, die Sie von der Produktsuchseite extrahieren möchten. Wählen Sie alle Links aus, um weitere Informationen auf der Produktdetailseite zu erhalten. Dies könnte zum Beispiel das Bild sein. Klicken Sie dann auf die Klicken Sie auf Element Aktion. Stellen Sie die Vorlage auf "Detail" ein, geben Sie eine Verzögerung von fünf Sekunden ein und klicken Sie auf "Weiter". Wenn Sie gefragt werden, ob Sie Daten von der neuen Seite extrahieren möchten, wählen Sie Ja. Wählen Sie nun wie zuvor die Daten aus, die Sie extrahieren möchten. Geben Sie diesmal jedoch an, dass es unter der Vorlage "detail" ausgeführt werden muss.

Fügen Sie eine weitere Kratzanweisung hinzu und kehren Sie zur Hauptseite zurück. Wählen Sie dieses Mal die nächste Schaltfläche unter den Paginierungslinks. Wenn die Klicken Sie auf Aktion Optionsfeld angezeigt wird, wählen Sie bitte die Schaltfläche "Nächste Seite" Möglichkeit. Auf diese Weise weiß der Schaber, dass es sich bei dieser Schaltfläche tatsächlich um eine Paginierungsschaltfläche handelt, und paginiert alle Ergebnisse. Bitte stellen Sie sicher, dass Sie diese Kratzanleitung zum letzten Mal haben. Wenn es nicht die letzte Kratzanweisung ist, kann sie bis zum Ende gezogen werden.

Gehen Sie dann zur Registerkarte "Zeitplan" und klicken Sie auf "Erstellen", um das Scrape zu starten. Sie können den Fortschritt des Scrapes in Echtzeit auf der Seite "Scrapes verwalten" verfolgen, indem Sie auf das Zeilensymbol und dann auf das Viewer-Symbol des Scrapes klicken.