Tools zum Erfassen und Konvertieren des Webs

E-Mail-Adressen von einer Website entfernen

Die folgenden zwei Beispiele sind Teil desselben Vorlage.

GrabzIt's Web Scraper bietet verschiedene spezielle Dienstprogrammmethoden, mit denen das Extrahieren von E-Mail-Adressen von einer Website vereinfacht wird. Das folgende Beispiel ruft den gesamten HTML-Inhalt von einer Webseite ab und leitet ihn dann durch die Utility.Text.extractAddresses Methode, um alle gültigen E-Mail-Adressen zu finden, bevor die Adressen gespeichert werden intEin Datensatz, der dann an den Benutzer gesendet wird.

Alternativ kann auch nur die erste übereinstimmende E-Mail-Adresse mit der extrahiert werden Utility.Text.extractAddress Methode.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

E-Mail-Adressen aus PDF-Dokumenten entfernen

PDF-Dokumente können auch geschabt werden für E-Mail-Adressen in ähnlicher Weise wie Webseiten oben gekratzt werden. Wie Sie im folgenden Beispiel sehen können, ist der Prozess genau der gleiche, außer dass der PDF.getText() Methode wird anstelle von verwendet Page.getHtml() Methode.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Kratzt E-Mail-Adressen aus Bildern

GrabzIt hat die Fähigkeit zu Extrahieren Sie Text aus Bildern Dies bedeutet, dass diese Fähigkeit auch genutzt werden kann, um E-Mail-Adressen aus Bildern zu extrahieren. Das folgende Beispiel extrahiert alle E-Mail-Adressen aus allen Bildern auf einer Webseite.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

Während die folgenden Anweisungen zum Abkratzen E-Mail-Adressen aus Bildern extrahieren, die in PDF-Dokumenten gefunden wurden.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));