Tools zum Erfassen und Konvertieren des Webs

Daten extrahieren und transformieren into ein Datensatz

Eine der h├Ąufigsten Anforderungen ist es, Daten von einer Website zu extrahieren und sie zu ├Ąndern into Eine tabellarische Struktur, die zur weiteren Verarbeitung exportiert werden kann. Aber was ist ein Datensatz und wie wird er verwendet? GrabzIt's Web Scraper?

Beispieldatensatz: Preisliste

Unten finden Sie die im Datensatz enthaltenen Tabellendaten PreislisteDie Tabelle besteht aus drei Spalten Artikelbezeichnung, Artikelbeschreibung und St├╝ckpreis.

Artikelbezeichnung Artikelbeschreibung St├╝ckpreis
Kamera Nimmt digitale Fotos auf $ 99.00

Um diesen Datensatz zu erstellen, m├╝ssen Sie die folgenden Kratzanweisungen verwenden.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

Dies nutzt die Data.save Methode zum Hinzuf├╝gen eines Datenwert zu einem bestimmten Datensatz und ├ťberblick. Immer wenn die Data.save Die Methode wird mit denselben Parametern f├╝r Datensatz- und Spaltennamen aufgerufen, und dieser Spalte wird eine neue Zeile hinzugef├╝gt. Die obigen Scrape-Anweisungen sind jedoch nicht sehr n├╝tzlich, da wir den Datensatz mit statischen Werten erstellen. Der folgende Code zeigt den HTML-Code einer Webseite. Anschlie├čend schreiben wir Scrape-Anweisungen, um die Daten dynamisch von der Seite zu extrahieren und save it into ein Datensatz.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

Wir werden jetzt die Page.getTagValue Methode zum Extrahieren der Werte aus den span-Tags.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

Wie Sie sehen k├Ânnen Page.getTagValue Methoden verwenden einen Filter, der das HTML-Element eindeutig identifiziert, aus dem der Text extrahiert werden muss. In diesem Fall geben die Filter an, dass das HTML-Attribut id gleich sein soll spnLabel, spnDescription or spnPrice beziehungsweise. Sie k├Ânnen einfach einen Filter erstellen, indem Sie auf die Schaltfl├Ąche klicken Filtertaste Symbol, das einen Assistenten anzeigt, der den Aufbau des Filters vereinfacht.

Nachdem Sie Ihr Dataset wie hier gezeigt erstellt haben, k├Ânnen Sie entscheiden, wie Sie es in das exportieren m├Âchten Exportoptionen Tab.