Tools zum Erfassen und Konvertieren des Webs

Erstellen Sie einen benutzerdefinierten Link Checker

Dieses Beispiel gibt es auch als Vorlage.

GrabzIt's Web Scraper Es ist sehr flexibel und erm├Âglicht die Ausf├╝hrung einer Vielzahl von Online-Aufgaben, z. B. das ├ťberpr├╝fen von Website-Links und das Melden von Fehlern.

Das erste, was zu tun ist, ist, eine kratzen und weisen Sie die Ziel-Website zu, die Sie ├╝berpr├╝fen m├Âchten. Verwenden Sie dann den folgenden Code f├╝r die Scrape-Anweisungen.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

Die erste Zeile var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); Extrahiert alle Hyperlink-URLs und f├╝gt sie in das urls Variable. In der n├Ąchsten Zeile wird der Utility.Array.unique Methode, um alle URLs eindeutig zu machen.

Die dritte Zeile stellt sicher, dass die Links nicht zweimal ├╝berpr├╝ft werden, um dies zu tun. Wir lesen die URLs, die zuvor waren saved und filtere die extrahierten Links danach. Wenn Sie m├Âchten, dass auf jeder Seite ein Link unterbrochen wird, l├Âschen Sie diese Zeile.

Nachdem die URL-Daten bereinigt wurden, durchlaufen wir jede verbleibende URL und speichern sie im Datensatz zusammen mit der aktuellen Seite, bevor Sie mithilfe der Taste pr├╝fen, ob die URL vorhanden ist Utility.URL.exists Methode. Das Ergebnis dieser Pr├╝fung ist dann auch saved im Datensatz.

Alternativ k├Ânnen Sie ├╝berpr├╝fen, ob Bilder einer Website vorhanden sind, indem Sie den Code ersetzen Page.getTagAttributes('href', {"tag":{"equals":"a"}}); mit Page.getTagAttributes('src', {"tag":{"equals":"img"}});.