Eine der häufigsten Anforderungen ist es, Daten von einer Website zu extrahieren und sie zu ändern into Eine tabellarische Struktur, die zur weiteren Verarbeitung exportiert werden kann. Aber was ist ein Datensatz und wie wird er verwendet? GrabzIt's Web Scraper?
Unten finden Sie die im Datensatz enthaltenen Tabellendaten PreislisteDie Tabelle besteht aus drei Spalten Artikelbezeichnung, Artikelbeschreibung und Stückpreis.
Artikelbezeichnung | Artikelbeschreibung | Stückpreis |
---|---|---|
Kamera | Nimmt digitale Fotos auf | $ 99.00 |
Um diesen Datensatz zu erstellen, müssen Sie die folgenden Kratzanweisungen verwenden.
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
Dies nutzt die Data.save
Methode zum Hinzufügen eines Datenwert zu einem bestimmten Datensatz und Überblick. Immer wenn die Data.save
Die Methode wird mit denselben Parametern für Datensatz- und Spaltennamen aufgerufen, und dieser Spalte wird eine neue Zeile hinzugefügt. Die obigen Scrape-Anweisungen sind jedoch nicht sehr nützlich, da wir den Datensatz mit statischen Werten erstellen. Der folgende Code zeigt den HTML-Code einer Webseite. Anschließend schreiben wir Scrape-Anweisungen, um die Daten dynamisch von der Seite zu extrahieren und save it into ein Datensatz.
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
Wir werden jetzt die Page.getTagValue
Methode zum Extrahieren der Werte aus den span-Tags.
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
Wie Sie sehen können Page.getTagValue
Methoden verwenden einen Filter, der das HTML-Element eindeutig identifiziert, aus dem der Text extrahiert werden muss. In diesem Fall geben die Filter an, dass das HTML-Attribut id gleich sein soll spnLabel, spnDescription or spnPrice beziehungsweise. Sie können einfach einen Filter erstellen, indem Sie auf die Schaltfläche klicken Symbol, das einen Assistenten anzeigt, der den Aufbau des Filters vereinfacht.
Nachdem Sie Ihr Dataset wie hier gezeigt erstellt haben, können Sie entscheiden, wie Sie es in das exportieren möchten Exportoptionen Tab.