Das Entfernen von Daten aus dem Inhalt von PDF-Dokumenten ist nicht so flexibel wie das Entfernen von Daten aus HTML-Dokumenten. Es gibt jedoch noch eine Reihe von Möglichkeiten, wie dies erreicht werden kann GrabzIt's Web Scraper. Um zuerst PDF-Inhalte zu scrappen, verwenden Sie die PDF
funktioniert eher als das Page
Funktionen, aber ansonsten funktionieren die Funktionen im Allgemeinen auf die gleiche Weise.
Ein Filter für ein PDF-Dokument ist viel einfacher als der für ein HTML-Dokument. Zunächst müssen Sie angeben, welche Art von Inhalt Sie extrahieren möchten: Links, Bilder oder Text.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
Bei Links und Bildern können Sie einschränken, welches Bild oder welcher Link zurückgegeben wird, indem Sie seine Position angeben.
PDF.getValue({"type":"image","position":"2"});
Ruft das zweite Bild in einem Dokument ab. Für Text, Bilder und Links können Sie die zurückgegebenen Daten durch Angabe einer Seitenzahl weiter einschränken.
PDF.getValue({"type":"image","position":"2","page":"5"});
Dies gibt das zweite Bild von der fünften Seite zurück. Text wird mit der hinzugefügten Option der Zeilennummer geliefert, jedoch unterstützt Text die Position nicht.
PDF.getValue({"type":"text","page":"5","line":"10"});
Dies ergibt die zehnte Textzeile ab der fünften Seite. Abgesehen von diesen Unterschieden bei den Filteroptionen funktioniert das Scrappen von Daten aus PDF-Dokumenten sehr ähnlich Daten aus HTML-Dokumenten entfernenDa Sie jedoch nicht genau festlegen können, was Sie mit einem PDF-Filter extrahieren, müssen Sie möglicherweise einen Anleitungen um die richtigen Informationen aus dem Text zu extrahieren.