Tools zum Erfassen und Konvertieren des Webs

Extrahieren Sie Links von einer Website

Dieses Beispiel gibt es auch als Vorlage.

Eine hĂ€ufige Aufgabe besteht darin, Links von einer Website zu extrahieren, insbesondere HTML-Links. GlĂŒcklicherweise ist dies bei der Verwendung einfach GrabzIt's Web Scraper. Erstellen Sie zunĂ€chst einen neuen Scrape mit den normalen Details wie der Startseite des Scrapes und anderen Optionen.

Dann geh zum Kratzanleitung Registerkarte und klicken Sie auf die SchaltflĂ€che "Webseite" Taste. Dies wird die eingeben Page Stichwort into die Kratzanleitung und öffnet ein Dropdown. WĂ€hlen getTagAttributes von der Liste. NĂ€chstes hinzufĂŒgen 'href' Als ersten Parameter weist dies den Web Scraper an, das href-Attribut zu extrahieren und dann ein Komma einzugeben.

Klicken Sie anschließend auf die SchaltflĂ€che Filtertaste Auf diese Weise können Sie dem Web Scraper mitteilen, aus welchen Elementen das href-Attribut extrahiert werden soll. Stellen Sie im Filterfenster sicher, dass der Typ auf "Webseite" eingestellt ist und die EinschrĂ€nkung "Tag-Name" und "Gleich" lautet. Dann treten Sie ein a Klicken Sie im Textfeld auf die SchaltflĂ€che HinzufĂŒgen und dann auf die SchaltflĂ€che Filter einfĂŒgen. Beenden Sie die Anweisung, indem Sie am Ende der Zeile ein Semikolon einfĂŒgen.

Sie sollten mit so etwas wie dem, was unten gezeigt wird, belassen werden.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

Der obige Code extrahiert alle Link-URLs von der Webseite, aber wir mĂŒssen es jetzt tun save diese Link-URLs. Dazu werden wir diesen Befehl abzĂŒglich des Semikolons in ein Data.save Befehl. Gehen Sie dazu an den Zeilenanfang und wĂ€hlen Sie die Datentaste Taste. Dann in der Dropdown-Liste auswĂ€hlen saveGehen Sie dann zum Ende der Zeile und fĂŒgen Sie ein Komma hinzu. FĂŒgen Sie dann das hinzu, was Sie den Datensatz nennen möchten, z. B. "Meine Website". FĂŒgen Sie dann ein weiteres Komma und einen weiteren Parameter hinzu, um die Spalte zu beschreiben, z. B. "Links". Schließen Sie dann den Befehl mit einem ) vor dem Semikolon.

Sie sollten jetzt die folgenden Anweisungen zum Schaben haben.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Wenn Sie nun das Scrape ausfĂŒhren, werden alle Links von der Website extrahiert. Dadurch wird eine Tabelle mit dem Namen "Meine Websites" und dem Spaltennamen "Links" erstellt, die dann exportiert werden können into viele verschiedene Formate wie XML, CSV oder eine Tabellenkalkulation. Dieses Tutorial kann auch mithilfe der AssistentenschaltflĂ€che in der Symbolleiste mit den Kratzanweisungen erstellt werden.