GrabzIt's Web Scraper Es ist sehr flexibel und ermöglicht die Ausführung einer Vielzahl von Online-Aufgaben, z. B. das Überprüfen von Website-Links und das Melden von Fehlern.
Das erste, was zu tun ist, ist, eine kratzen und weisen Sie die Ziel-Website zu, die Sie überprüfen möchten. Verwenden Sie dann den folgenden Code für die Scrape-Anweisungen.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
Die erste Zeile var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Extrahiert alle Hyperlink-URLs und fügt sie in das urls
Variable. In der nächsten Zeile wird der Utility.Array.unique Methode, um alle URLs eindeutig zu machen.
Die dritte Zeile stellt sicher, dass die Links nicht zweimal überprüft werden, um dies zu tun. Wir lesen die URLs, die zuvor waren saved und filtere die extrahierten Links danach. Wenn Sie möchten, dass auf jeder Seite ein Link unterbrochen wird, löschen Sie diese Zeile.
Nachdem die URL-Daten bereinigt wurden, durchlaufen wir jede verbleibende URL und speichern sie im Datensatz zusammen mit der aktuellen Seite, bevor Sie mithilfe der Taste prüfen, ob die URL vorhanden ist Utility.URL.exists
Methode. Das Ergebnis dieser Prüfung ist dann auch saved im Datensatz.
Alternativ können Sie überprüfen, ob Bilder einer Website vorhanden sind, indem Sie den Code ersetzen Page.getTagAttributes('href', {"tag":{"equals":"a"}});
mit Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.