Tools zum Erfassen und Konvertieren des Webs

Wie lade ich eine Website und ihren gesamten Inhalt herunter?

Website

Es gibt einige Fälle, in denen es wichtig ist, eine gesamte Website herunterzuladen, nicht nur das Endergebnis. Aber HTML-Webseiten, Ressourcen wie CSS, Skripte und Bilder.

Dies kann daran liegen, dass Sie eine Sicherungskopie des Codes erstellen möchten, aber aus irgendeinem Grund nicht mehr zur ursprünglichen Quelle gelangen können. Oder möchten Sie eine detaillierte Aufzeichnung darüber, wie sich eine Website im Laufe der Zeit verändert hat?

Glücklicherweise kann der Web Scraper von GrabzIt dies erreichen, indem er alle Webseiten auf einer Website durchsucht. Dann lädt der Scraper auf jeder Webseite den HTML-Code zusammen mit den Ressourcen herunter, auf die auf der Seite verwiesen wird.

Erstellen Sie ein Scrape, um eine gesamte Website herunterzuladen

Um das Herunterladen Ihrer Website so einfach wie möglich zu machen, bietet GrabzIt eine Scrape-Vorlage an. Klicken Sie einfach darauf Template-Link um loszulegen.

Sobald Sie darauf geklickt haben, wird Ihr Scrape erstellt. Als nächstes gehe zum Ziel-Websites und geben Sie die URL der Website ein, die Sie herunterladen möchten Ziel-URL Textfeld. Dann klick Ziel zuweisen und warten Sie ein oder zwei Sekunden.

Überspringen Sie die Kratzanleitung und Exportoptionen und gehe direkt zum Planen Sie Scrape Tab. Sie können dann klicken Aktualisieren um das kratzen zu beginnen. Wenn Sie das Scrape jedoch so einrichten möchten, dass es regelmäßig ausgeführt wird, z. B. um regelmäßige Sicherungen einer Website zu erstellen. Dann klicken Sie einfach auf die Scrape wiederholen Aktivieren Sie das Kontrollkästchen und wählen Sie dann aus, wie oft das Scrape wiederholt werden soll.

Verwenden Ihrer heruntergeladenen Website

Sobald das Scrape beendet ist, erhalten Sie eine ZIP-Datei. Als nächstes extrahieren Sie die ZIP-Datei und in einem Verzeichnis namens Files befinden sich alle heruntergeladenen Webseiten und Website-Ressourcen. Es wird auch eine spezielle HTML-Seite namens data.html im Stammverzeichnis des Verzeichnisses geben. Öffnen Sie diese Datei in einem Webbrowser und Sie finden eine HTML-Tabelle mit drei Spalten:

  • Ressourcen-URL - Dies ist die URL, unter der der Web Scraper die Ressource gefunden hat. Also zum Beispiel: http://www.example.com/logo.jog
  • Ressourcentyp - Dies ist der Ressourcentyp, der heruntergeladen wurde. Es gibt vier Arten von Ressourcen.
    • Web-Seite
    • Bild
    • Externe Ressource - Jede von einem Link-Tag heruntergeladene Ressource
    • Skript
  • Neuer Dateiname - Der neue Dateiname der Ressource saved unter. Beachten Sie, dass diese Spalte auch einen Link zu der Datei enthält, wodurch das Überprüfen der gesamten heruntergeladenen Ressource erheblich vereinfacht wird.

Diese Datei soll Ihnen dabei helfen, die neuen Dateinamen ihren alten Speicherorten zuzuordnen. Dies ist erforderlich, da eine URL nicht direkt einer Dateistruktur zugeordnet werden kann, da eine URL viel zu groß sein kann, um direkt im Dateipfad gespeichert zu werden.

Es kann auch viele Permutationen geben, insbesondere wenn eine Webseite viele verschiedene Inhalte darstellen kann, indem verschiedene Abfragen geändert werden string Parameter! Stattdessen speichern wir die Website in einer flachen Struktur im Dateiordner und geben Ihnen die Datei data.html, um diese Dateien der ursprünglichen Struktur zuzuordnen.

Aus diesem Grund können Sie eine heruntergeladene HTML-Seite natürlich nicht öffnen und erwarten, dass die Webseite angezeigt wird, die Sie im Web gesehen haben. Dazu müssten Sie die Pfade der Bild-, Skript- und CSS-Ressourcen usw. neu schreiben, damit die HTML-Datei sie in Ihrer lokalen Dateistruktur finden kann.

Eine weitere Datei, die im Stammverzeichnis der ZIP-Datei enthalten sein wird, heißt Website.csv. Dieser enthält genau die gleichen Informationen wie die Datei data.html. Dies gilt jedoch auch für den Fall, dass Sie den Website-Download programmgesteuert lesen und verarbeiten möchten, indem Sie möglicherweise die Zuordnung von den URLs zu den Dateien verwenden, um die heruntergeladene Website neu zu erstellen.