Eine häufige Aufgabe besteht darin, Links von einer Website zu extrahieren, insbesondere HTML-Links. Glücklicherweise ist dies bei der Verwendung einfach GrabzIt's Web Scraper. Erstellen Sie zunächst einen neuen Scrape mit den normalen Details wie der Startseite des Scrapes und anderen Optionen.
Dann geh zum Kratzanleitung Registerkarte und klicken Sie auf die Taste. Dies wird die eingeben
Page
Stichwort into die Kratzanleitung und öffnet ein Dropdown. Wählen getTagAttributes
von der Liste. Nächstes hinzufügen 'href'
Als ersten Parameter weist dies den Web Scraper an, das href-Attribut zu extrahieren und dann ein Komma einzugeben.
Klicken Sie anschließend auf die Schaltfläche Auf diese Weise können Sie dem Web Scraper mitteilen, aus welchen Elementen das href-Attribut extrahiert werden soll. Stellen Sie im Filterfenster sicher, dass der Typ auf "Webseite" eingestellt ist und die Einschränkung "Tag-Name" und "Gleich" lautet. Dann treten Sie ein
a
Klicken Sie im Textfeld auf die Schaltfläche Hinzufügen und dann auf die Schaltfläche Filter einfügen. Beenden Sie die Anweisung, indem Sie am Ende der Zeile ein Semikolon einfügen.
Sie sollten mit so etwas wie dem, was unten gezeigt wird, belassen werden.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Der obige Code extrahiert alle Link-URLs von der Webseite, aber wir müssen es jetzt tun save diese Link-URLs. Dazu werden wir diesen Befehl abzüglich des Semikolons in ein Data.save
Befehl. Gehen Sie dazu an den Zeilenanfang und wählen Sie die Taste. Dann in der Dropdown-Liste auswählen
save
Gehen Sie dann zum Ende der Zeile und fügen Sie ein Komma hinzu. Fügen Sie dann das hinzu, was Sie den Datensatz nennen möchten, z. B. "Meine Website". Fügen Sie dann ein weiteres Komma und einen weiteren Parameter hinzu, um die Spalte zu beschreiben, z. B. "Links". Schließen Sie dann den Befehl mit einem )
vor dem Semikolon.
Sie sollten jetzt die folgenden Anweisungen zum Schaben haben.
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
Wenn Sie nun das Scrape ausführen, werden alle Links von der Website extrahiert. Dadurch wird eine Tabelle mit dem Namen "Meine Websites" und dem Spaltennamen "Links" erstellt, die dann exportiert werden können into viele verschiedene Formate wie XML, CSV oder eine Tabellenkalkulation. Dieses Tutorial kann auch mithilfe der Assistentenschaltfläche in der Symbolleiste mit den Kratzanweisungen erstellt werden.