Tools zum Erfassen und Konvertieren des Webs

Wie lade ich eine Website und ihren gesamten Inhalt herunter?

Webseite

Es gibt einige Fälle, in denen es wichtig ist, eine gesamte Website herunterzuladen, nicht nur das Endergebnis. Aber HTML-Webseiten, Ressourcen wie CSS, Skripte und Bilder.

Dies kann daran liegen, dass Sie eine Sicherungskopie des Codes erstellen möchten, aber aus irgendeinem Grund nicht mehr zur ursprünglichen Quelle gelangen können. Oder möchten Sie eine detaillierte Aufzeichnung darüber, wie sich eine Website im Laufe der Zeit verändert hat?

Glücklicherweise kann der Web Scraper von GrabzIt dies erreichen, indem er alle Webseiten auf einer Website durchsucht. Dann lädt der Scraper auf jeder Webseite den HTML-Code zusammen mit den Ressourcen herunter, auf die auf der Seite verwiesen wird.

Erstellen Sie ein Scrape, um eine gesamte Website herunterzuladen

Um das Herunterladen Ihrer Website so einfach wie möglich zu gestalten, bietet GrabzIt eine Scrape-Vorlage.

Um anzufangen Laden Sie diese Vorlage.

Dann geben Sie Ihre Ziel-URLDiese URL wird dann automatisch auf Fehler überprüft und erforderliche Änderungen vorgenommen. Behalte das Scrape automatisch starten Das Kontrollkästchen ist aktiviert, und Ihr Scrape wird automatisch gestartet.

Anpassen Ihres Scrape

Wenn Sie die Vorlage ändern möchten, deaktivieren Sie das Kontrollkästchen Scrape automatisch starten Kontrollkästchen. Eine Änderung wäre, das Scrape regelmäßig auszuführen, um beispielsweise regelmäßige Kopien einer Website zu erstellen. Auf der Planen Sie Scrape Klicken Sie einfach auf die Registerkarte Scrape wiederholen Aktivieren Sie das Kontrollkästchen und wählen Sie dann aus, wie oft das Kratzen wiederholt werden soll. Dann klick Aktualisieren um das Kratzen zu starten.

Verwenden Ihrer heruntergeladenen Website

Sobald das Scrape beendet ist, erhalten Sie eine ZIP-Datei. Als nächstes extrahieren Sie die ZIP-Datei und in einem Verzeichnis namens Files befinden sich alle heruntergeladenen Webseiten und Website-Ressourcen. Es wird auch eine spezielle HTML-Seite namens data.html im Stammverzeichnis des Verzeichnisses geben. Öffnen Sie diese Datei in einem Webbrowser und Sie finden eine HTML-Tabelle mit drei Spalten:

  • Ressourcen-URL - Dies ist die URL, unter der der Web Scraper die Ressource gefunden hat. Also zum Beispiel: http://www.example.com/logo.jog
  • Ressourcentyp - Dies ist der Ressourcentyp, der heruntergeladen wurde. Es gibt vier Arten von Ressourcen.
    • Web-Seite
    • Bild
    • Externe Ressource - Jede von einem Link-Tag heruntergeladene Ressource
    • Skript
  • Neuer Dateiname - Der neue Dateiname der Ressource saved unter. Beachten Sie, dass diese Spalte auch einen Link zu der Datei enthält, wodurch das Überprüfen der gesamten heruntergeladenen Ressource erheblich vereinfacht wird.

Diese Datei soll Ihnen dabei helfen, die neuen Dateinamen ihren alten Speicherorten zuzuordnen. Dies ist erforderlich, da eine URL nicht direkt einer Dateistruktur zugeordnet werden kann, da eine URL viel zu groß sein kann, um direkt im Dateipfad gespeichert zu werden.

Es kann auch viele Permutationen geben, insbesondere wenn eine Webseite viele verschiedene Inhalte darstellen kann, indem verschiedene Abfragen geändert werden string Parameter! Stattdessen speichern wir die Website in einer flachen Struktur im Dateiordner und geben Ihnen die Datei data.html, um diese Dateien der ursprünglichen Struktur zuzuordnen.

Aus diesem Grund können Sie eine heruntergeladene HTML-Seite natürlich nicht öffnen und erwarten, dass die Webseite angezeigt wird, die Sie im Web gesehen haben. Dazu müssten Sie die Pfade der Bild-, Skript- und CSS-Ressourcen usw. neu schreiben, damit die HTML-Datei sie in Ihrer lokalen Dateistruktur finden kann.

Eine weitere Datei, die im Stammverzeichnis der ZIP-Datei enthalten sein wird, heißt Website.csv. Dieser enthält genau die gleichen Informationen wie die Datei data.html. Dies gilt jedoch auch für den Fall, dass Sie den Website-Download programmgesteuert lesen und verarbeiten möchten, indem Sie möglicherweise die Zuordnung von den URLs zu den Dateien verwenden, um die heruntergeladene Website neu zu erstellen.