Tools zum Erfassen und Konvertieren des Webs

Respektiert der Web Scraper von GrabzIt die robots.txt-Dateien?

Unser Web Scraper muss die Regeln einer Website-Datei robots.txt einhalten. Einer der Hauptgründe dafür ist, dass Web-Scraper, die der robots.txt-Datei nicht folgen, von einem Honeypot-Dienst auf die schwarze Liste gesetzt werden.

Diese Dienste verwenden die Datei robots.txt, um einen Web-Scraper anzuweisen, eine bestimmte Datei, auf die von der Website aus verwiesen wird, nicht zu besuchen. Wenn der Web-Scraper die Datei weiterhin aufruft, wird die IP-Adresse des Web-Scrapers auf die schwarze Liste gesetzt, um zu verhindern, dass der Web-Scraper in Zukunft die Website besucht.