Tools zum Erfassen und Konvertieren des Webs

Daten extrahieren und transformieren into ein Datensatz

Eine der häufigsten Anforderungen ist es, Daten von einer Website zu extrahieren und sie zu ändern into Eine tabellarische Struktur, die zur weiteren Verarbeitung exportiert werden kann. Aber was ist ein Datensatz und wie wird er verwendet? GrabzIt's Web Scraper?

Beispieldatensatz: Preisliste

Unten finden Sie die im Datensatz enthaltenen Tabellendaten PreislisteDie Tabelle besteht aus drei Spalten Artikelbezeichnung, Artikelbeschreibung und Stückpreis.

Artikelbezeichnung Artikelbeschreibung Stückpreis
Kamera Nimmt digitale Fotos auf $99.00

Um diesen Datensatz zu erstellen, müssen Sie die folgenden Kratzanweisungen verwenden.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

Dies nutzt die Data.save Methode zum Hinzufügen eines Datenwert zu einem bestimmten Datensatz und Überblick. Immer wenn die Data.save Die Methode wird mit denselben Parametern für Datensatz- und Spaltennamen aufgerufen, und dieser Spalte wird eine neue Zeile hinzugefügt. Die obigen Scrape-Anweisungen sind jedoch nicht sehr nützlich, da wir den Datensatz mit statischen Werten erstellen. Der folgende Code zeigt den HTML-Code einer Webseite. Anschließend schreiben wir Scrape-Anweisungen, um die Daten dynamisch von der Seite zu extrahieren und save it into ein Datensatz.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

Wir werden jetzt die Page.getTagValue Methode zum Extrahieren der Werte aus den span-Tags.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

Wie Sie sehen können Page.getTagValue Methoden verwenden einen Filter, der das HTML-Element eindeutig identifiziert, aus dem der Text extrahiert werden muss. In diesem Fall geben die Filter an, dass das HTML-Attribut id gleich sein soll spnLabel, spnDescription or spnPrice beziehungsweise. Sie können einfach einen Filter erstellen, indem Sie auf die Schaltfläche klicken Filtertaste Symbol, das einen Assistenten anzeigt, der den Aufbau des Filters vereinfacht.

Nachdem Sie Ihr Dataset wie hier gezeigt erstellt haben, können Sie entscheiden, wie Sie es in das exportieren möchten Exportoptionen Tab.