Unser Web Scraper muss die Regeln in der robots.txt-Datei einer Website respektieren. Einer der Hauptgründe dafür ist, abgesehen davon, dass es nett ist, dass Web-Scraper, die der robots.txt-Datei nicht folgen, möglicherweise von einem Honeypot-Dienst auf die schwarze Liste gesetzt werden.
Diese Dienste verwenden die robots.txt-Datei, um einen Web-Scraper anzuweisen, eine bestimmte Datei, auf die von der Website aus verlinkt wird, nicht zu besuchen. Wenn der Web Scraper die Datei weiterhin besucht, wird die IP-Adresse des Web Scrapers auf die schwarze Liste gesetzt, sodass der Web Scraper die Website in Zukunft nicht mehr besuchen kann.