Tools zum Erfassen und Konvertieren des Webs

Wie lade ich eine Website und ihren gesamten Inhalt herunter?

Webseite

Es gibt einige Fälle, in denen es wichtig ist, eine gesamte Website herunterzuladen, nicht nur das Endergebnis. Aber HTML-Webseiten, Ressourcen wie CSS, Skripte und Bilder.

Dies kann daran liegen, dass Sie eine Sicherungskopie des Codes erstellen möchten, aber aus irgendeinem Grund nicht mehr zur ursprünglichen Quelle gelangen können. Oder möchten Sie eine detaillierte Aufzeichnung darüber, wie sich eine Website im Laufe der Zeit verändert hat?

Glücklicherweise kann der Web Scraper von GrabzIt dies erreichen, indem er alle Webseiten auf einer Website durchsucht. Dann lädt der Scraper auf jeder Webseite den HTML-Code zusammen mit den Ressourcen herunter, auf die auf der Seite verwiesen wird.

Erstellen Sie ein Scrape, um eine gesamte Website herunterzuladen

Um das Herunterladen Ihrer Website so einfach wie möglich zu gestalten, bietet GrabzIt eine Scrape-Vorlage.

Um anzufangen Laden Sie diese Vorlage.

Then enter your Ziel-URL, this URL is then automatically checked for errors and any required changes made. Keep the Automatically Start Scrape checkbox ticked, and your scrape will automatically start.

Customizing your Scrape

If you want to alter the template, uncheck the Automatically Start Scrape checkbox. One alteration would be to run the scrape on a regular schedule, for instance, to create regular copies of a website. On the Planen Sie Scrape tab, simply click the Scrape wiederholen checkbox and then select how frequently you want the scrape to repeat. Then click Aktualisieren to start the scrape.

Verwenden Ihrer heruntergeladenen Website

Sobald das Scrape beendet ist, erhalten Sie eine ZIP-Datei. Als nächstes extrahieren Sie die ZIP-Datei und in einem Verzeichnis namens Files befinden sich alle heruntergeladenen Webseiten und Website-Ressourcen. Es wird auch eine spezielle HTML-Seite namens data.html im Stammverzeichnis des Verzeichnisses geben. Öffnen Sie diese Datei in einem Webbrowser und Sie finden eine HTML-Tabelle mit drei Spalten:

  • Ressourcen-URL - Dies ist die URL, unter der der Web Scraper die Ressource gefunden hat. Also zum Beispiel: http://www.example.com/logo.jog
  • Ressourcentyp - Dies ist der Ressourcentyp, der heruntergeladen wurde. Es gibt vier Arten von Ressourcen.
    • Web-Seite
    • Bild
    • Externe Ressource - Jede von einem Link-Tag heruntergeladene Ressource
    • Skript
  • Neuer Dateiname - Der neue Dateiname der Ressource saved unter. Beachten Sie, dass diese Spalte auch einen Link zu der Datei enthält, wodurch das Überprüfen der gesamten heruntergeladenen Ressource erheblich vereinfacht wird.

Diese Datei soll Ihnen dabei helfen, die neuen Dateinamen ihren alten Speicherorten zuzuordnen. Dies ist erforderlich, da eine URL nicht direkt einer Dateistruktur zugeordnet werden kann, da eine URL viel zu groß sein kann, um direkt im Dateipfad gespeichert zu werden.

Es kann auch viele Permutationen geben, insbesondere wenn eine Webseite viele verschiedene Inhalte darstellen kann, indem verschiedene Abfragen geändert werden string Parameter! Stattdessen speichern wir die Website in einer flachen Struktur im Dateiordner und geben Ihnen die Datei data.html, um diese Dateien der ursprünglichen Struktur zuzuordnen.

Aus diesem Grund können Sie eine heruntergeladene HTML-Seite natürlich nicht öffnen und erwarten, dass die Webseite angezeigt wird, die Sie im Web gesehen haben. Dazu müssten Sie die Pfade der Bild-, Skript- und CSS-Ressourcen usw. neu schreiben, damit die HTML-Datei sie in Ihrer lokalen Dateistruktur finden kann.

Eine weitere Datei, die im Stammverzeichnis der ZIP-Datei enthalten sein wird, heißt Website.csv. Dieser enthält genau die gleichen Informationen wie die Datei data.html. Dies gilt jedoch auch für den Fall, dass Sie den Website-Download programmgesteuert lesen und verarbeiten möchten, indem Sie möglicherweise die Zuordnung von den URLs zu den Dateien verwenden, um die heruntergeladene Website neu zu erstellen.