Tools zum Erfassen und Konvertieren des Webs

E-Mail-Adressen von einer Website entfernen

Die folgenden zwei Beispiele sind Teil desselben Vorlage.

GrabzIt's Web Scraper bietet verschiedene spezielle Dienstprogrammmethoden, mit denen das Extrahieren von E-Mail-Adressen von einer Website vereinfacht wird. Das folgende Beispiel ruft den gesamten HTML-Inhalt von einer Webseite ab und leitet ihn dann durch die Utility.Text.extractAddresses Methode, um alle gĂŒltigen E-Mail-Adressen zu finden, bevor die Adressen gespeichert werden intEin Datensatz, der dann an den Benutzer gesendet wird.

Alternativ kann auch nur die erste ĂŒbereinstimmende E-Mail-Adresse mit der extrahiert werden Utility.Text.extractAddress Methode.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

E-Mail-Adressen aus PDF-Dokumenten entfernen

PDF-Dokumente können auch geschabt werden fĂŒr E-Mail-Adressen in Ă€hnlicher Weise wie Webseiten oben gekratzt werden. Wie Sie im folgenden Beispiel sehen können, ist der Prozess genau der gleiche, außer dass der PDF.getText() Methode wird anstelle von verwendet Page.getHtml() Methode.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Kratzt E-Mail-Adressen aus Bildern

GrabzIt hat die FĂ€higkeit zu Extrahieren Sie Text aus Bildern Dies bedeutet, dass diese FĂ€higkeit auch genutzt werden kann, um E-Mail-Adressen aus Bildern zu extrahieren. Das folgende Beispiel extrahiert alle E-Mail-Adressen aus allen Bildern auf einer Webseite.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

WĂ€hrend die folgenden Anweisungen zum Abkratzen E-Mail-Adressen aus Bildern extrahieren, die in PDF-Dokumenten gefunden wurden.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));