GrabzIt's Web Scraper bietet verschiedene spezielle Dienstprogrammmethoden, mit denen das Extrahieren von E-Mail-Adressen von einer Website vereinfacht wird. Das folgende Beispiel ruft den gesamten HTML-Inhalt von einer Webseite ab und leitet ihn dann durch die Utility.Text.extractAddresses Methode, um alle gültigen E-Mail-Adressen zu finden, bevor die Adressen gespeichert werden intEin Datensatz, der dann an den Benutzer gesendet wird.
Utility.Text.extractAddresses
Alternativ kann auch nur die erste übereinstimmende E-Mail-Adresse mit der extrahiert werden Utility.Text.extractAddress Methode.
Utility.Text.extractAddress
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
PDF-Dokumente können auch geschabt werden für E-Mail-Adressen in ähnlicher Weise wie Webseiten oben gekratzt werden. Wie Sie im folgenden Beispiel sehen können, ist der Prozess genau der gleiche, außer dass der PDF.getText() Methode wird anstelle von verwendet Page.getHtml() Methode.
PDF.getText()
Page.getHtml()
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzIt hat die Fähigkeit zu Extrahieren Sie Text aus Bildern Dies bedeutet, dass diese Fähigkeit auch genutzt werden kann, um E-Mail-Adressen aus Bildern zu extrahieren. Das folgende Beispiel extrahiert alle E-Mail-Adressen aus allen Bildern auf einer Webseite.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
Während die folgenden Anweisungen zum Abkratzen E-Mail-Adressen aus Bildern extrahieren, die in PDF-Dokumenten gefunden wurden.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));