Tools zum Erfassen und Konvertieren des Webs

Daten aus PDF-Dokumenten extrahieren

Das Entfernen von Daten aus dem Inhalt von PDF-Dokumenten ist nicht so flexibel wie das Entfernen von Daten aus HTML-Dokumenten. Es gibt jedoch noch eine Reihe von Möglichkeiten, wie dies erreicht werden kann GrabzIt's Web Scraper. Um zuerst PDF-Inhalte zu scrappen, verwenden Sie die PDF funktioniert eher als das Page Funktionen, aber ansonsten funktionieren die Funktionen im Allgemeinen auf die gleiche Weise.

Ein Filter für ein PDF-Dokument ist viel einfacher als der für ein HTML-Dokument. Zunächst müssen Sie angeben, welche Art von Inhalt Sie extrahieren möchten: Links, Bilder oder Text.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Bei Links und Bildern können Sie einschränken, welches Bild oder welcher Link zurückgegeben wird, indem Sie seine Position angeben.

PDF.getValue({"type":"image","position":"2"});

Ruft das zweite Bild in einem Dokument ab. Für Text, Bilder und Links können Sie die zurückgegebenen Daten durch Angabe einer Seitenzahl weiter einschränken.

PDF.getValue({"type":"image","position":"2","page":"5"});

Dies gibt das zweite Bild von der fünften Seite zurück. Text wird mit der hinzugefügten Option der Zeilennummer geliefert, jedoch unterstützt Text die Position nicht.

PDF.getValue({"type":"text","page":"5","line":"10"});

Dies ergibt die zehnte Textzeile ab der fünften Seite. Abgesehen von diesen Unterschieden bei den Filteroptionen funktioniert das Scrappen von Daten aus PDF-Dokumenten sehr ähnlich Daten aus HTML-Dokumenten entfernenDa Sie jedoch nicht genau festlegen können, was Sie mit einem PDF-Filter extrahieren, müssen Sie möglicherweise einen Muster um die richtigen Informationen aus dem Text zu extrahieren.