Tools zum Erfassen und Konvertieren des Webs

Daten aus PDF-Dokumenten extrahieren

Das Entfernen von Daten aus dem Inhalt von PDF-Dokumenten ist nicht so flexibel wie das Entfernen von Daten aus HTML-Dokumenten. Es gibt jedoch noch eine Reihe von Möglichkeiten, wie dies erreicht werden kann GrabzIt's Web Scraper. Um zuerst PDF-Inhalte zu scrappen, verwenden Sie die PDF funktioniert eher als das Page Funktionen, aber ansonsten funktionieren die Funktionen im Allgemeinen auf die gleiche Weise.

Ein Filter fĂŒr ein PDF-Dokument ist viel einfacher als der fĂŒr ein HTML-Dokument. ZunĂ€chst mĂŒssen Sie angeben, welche Art von Inhalt Sie extrahieren möchten: Links, Bilder oder Text.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Bei Links und Bildern können Sie einschrĂ€nken, welches Bild oder welcher Link zurĂŒckgegeben wird, indem Sie seine Position angeben.

PDF.getValue({"type":"image","position":"2"});

Ruft das zweite Bild in einem Dokument ab. FĂŒr Text, Bilder und Links können Sie die zurĂŒckgegebenen Daten durch Angabe einer Seitenzahl weiter einschrĂ€nken.

PDF.getValue({"type":"image","position":"2","page":"5"});

Dies gibt das zweite Bild von der fĂŒnften Seite zurĂŒck. Text wird mit der hinzugefĂŒgten Option der Zeilennummer geliefert, jedoch unterstĂŒtzt Text die Position nicht.

PDF.getValue({"type":"text","page":"5","line":"10"});

Dies ergibt die zehnte Textzeile ab der fĂŒnften Seite. Abgesehen von diesen Unterschieden bei den Filteroptionen funktioniert das Scrappen von Daten aus PDF-Dokumenten sehr Ă€hnlich Daten aus HTML-Dokumenten entfernenDa Sie jedoch nicht genau festlegen können, was Sie mit einem PDF-Filter extrahieren, mĂŒssen Sie möglicherweise einen Muster um die richtigen Informationen aus dem Text zu extrahieren.