Tools zum Erfassen und Konvertieren des Webs

Daten aus PDF-Dokumenten extrahieren

Das Entfernen von Daten aus dem Inhalt von PDF-Dokumenten ist nicht so flexibel wie das Entfernen von Daten aus HTML-Dokumenten. Es gibt jedoch noch eine Reihe von M├Âglichkeiten, wie dies erreicht werden kann GrabzIt's Web Scraper. Um zuerst PDF-Inhalte zu scrappen, verwenden Sie die PDF funktioniert eher als das Page Funktionen, aber ansonsten funktionieren die Funktionen im Allgemeinen auf die gleiche Weise.

Ein Filter f├╝r ein PDF-Dokument ist viel einfacher als der f├╝r ein HTML-Dokument. Zun├Ąchst m├╝ssen Sie angeben, welche Art von Inhalt Sie extrahieren m├Âchten: Links, Bilder oder Text.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Bei Links und Bildern k├Ânnen Sie einschr├Ąnken, welches Bild oder welcher Link zur├╝ckgegeben wird, indem Sie seine Position angeben.

PDF.getValue({"type":"image","position":"2"});

Ruft das zweite Bild in einem Dokument ab. F├╝r Text, Bilder und Links k├Ânnen Sie die zur├╝ckgegebenen Daten durch Angabe einer Seitenzahl weiter einschr├Ąnken.

PDF.getValue({"type":"image","position":"2","page":"5"});

Dies gibt das zweite Bild von der f├╝nften Seite zur├╝ck. Text wird mit der hinzugef├╝gten Option der Zeilennummer geliefert, jedoch unterst├╝tzt Text die Position nicht.

PDF.getValue({"type":"text","page":"5","line":"10"});

Dies ergibt die zehnte Textzeile ab der f├╝nften Seite. Abgesehen von diesen Unterschieden bei den Filteroptionen funktioniert das Scrappen von Daten aus PDF-Dokumenten sehr ├Ąhnlich Daten aus HTML-Dokumenten entfernenDa Sie jedoch nicht genau festlegen k├Ânnen, was Sie mit einem PDF-Filter extrahieren, m├╝ssen Sie m├Âglicherweise einen Muster um die richtigen Informationen aus dem Text zu extrahieren.