Web-Archivierung

aus Wikipedia, der freien Enzyklopadie
Zur Navigation springen Zur Suche springen

Web-Archivierung bezeichnet das Sammeln und dauerhafte Ablegen von Netzpublikationen mit dem Zweck, in der Zukunft Offentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu konnen. Ergebnis des Vorgangs ist ein Web-Archiv .

Die großte internationale Einrichtung zur Web-Archivierung ist das Internet Archive in San Francisco (USA), das sich als Archiv des gesamten World Wide Web versteht. Staatliche Archive und Bibliotheken in vielen Landern unternehmen Anstrengungen zur Sicherung der Netzuberlieferung in ihrem Bereich.

Die deutschen Archivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags lauft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag der Deutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt. Auch die Bundeslander planen, ihre Pflichtexemplar -Gesetze in diesem Sinne zu andern, oder haben die Anderung bereits vollzogen.

Archivierungsziele [ Bearbeiten | Quelltext bearbeiten ]

Web-Archivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Prasenzen in systematischer Form abzubilden. Hierfur sind eine ubergreifende Sammlungspolitik, ein Auswahlverfahren und die Haufigkeit der Archivierung vorab zu klaren.

Eine archivierte Website sollte mit allen multimedialen Funktionen ( HTML-Code , Stylesheets , JavaScript , Bilder und Video) auf Dauer erhalten werden. Der spateren Beschreibung, Nutzung und Erhaltung dienen Metadaten wie Provenienz , Ubernahmezeitpunkt, MIME-Type und Umfang der Daten. Die Metadaten sichern Authentizitat und Integritat der digitalen Archivalien.

Nach der Ubernahme sind technische und juristische Vorkehrungen zu treffen, um eine standige offentliche Zuganglichkeit zu garantieren und eine nachtragliche Veranderung der Archivalien zu verhindern. [1]

Begrifflichkeiten [ Bearbeiten | Quelltext bearbeiten ]

Original Resource
Eine originale Quelle, die aktuell im Internet vorhanden ist oder vorhanden sein sollte und fur die ein Zugriff auf einen fruheren Zustand benotigt wird. [2] [3]
Memento
Ein Memento einer originalen Quelle ist eine Ressource , die den originalen Zustand einer Quelle zu einem definierten Zeitpunkt kapselt. [2] [3]
TimeGate
Ein TimeGate ist eine Ressource, die auf Basis eines vorgegebenen Datums und einer Zeitangabe jenes Memento findet, welches dieser zeitlichen Vorgabe am besten entspricht. [2] [3]
TimeMap
Eine TimeMap ist eine Ressource, welche eine Liste aller Mementos ausgibt, die fur die originale Quelle je angelegt wurden. [2] [3]

Auswahlverfahren [ Bearbeiten | Quelltext bearbeiten ]

Unspezifisch
Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben. Das Verfahren funktioniert wegen des großen Speicherbedarfs nur bei kleineren Domains (netarkivet.dk).
Auswahlliste
Eine Liste von Institutionen wird vorab festgelegt. Die Stabilitat der mit den Institutionen verbundenen URLs ist regelmaßig zu prufen.
Nutzung von Zugriffsstatistiken
In Zukunft ist ein ?intelligentes“ Harvesting (deutsch ?Ernten“) denkbar, das aufgrund von Zugriffszahlungen diejenigen Teile des Web (oder einer Auswahl) archiviert, die besonders hohe Zugriffsraten aufweisen.

Ubernahmemethoden [ Bearbeiten | Quelltext bearbeiten ]

Remote harvesting [ Bearbeiten | Quelltext bearbeiten ]

Die ublichste Archivierungsmethode ist die Nutzung eines Webcrawlers . Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt. Genauer betrachtet bedeutet das ein rekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmaßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschrankungen (Abbruchbedingungen) hinsichtlich Tiefe, Domain und der zu archivierenden Dateiarten moglich.

Bei großeren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges konnen sich unter Umstanden sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem FIFO -Verfahren oder als Prioritatswarteschlange abgearbeitet werden. Fur letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen Heap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer uberlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Prioritat durch neue Eintrage ersetzt werden.

Die Ausgangsstruktur auf dem Server lasst sich allerdings im Archiv nur selten exakt nachbauen. Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschließen zu konnen, bietet es sich an, vorab eine Analyse der Webseite durchzufuhren. Dies verdoppelt zwar in den meisten Fallen den Datenverkehr, verkurzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich. [4]

Beispiele fur Webcrawler sind:

Archivierung des Hidden Web [ Bearbeiten | Quelltext bearbeiten ]

Das Hidden Web oder Deep Web bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website reprasentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch andert sich das Web standig und es erscheint, als wurde dieses eine unendliche Große besitzen. Zur Ubernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist auf XML beruht. Fur einen solchen Zugang sind die Tools DeepArc ( Bibliotheque nationale de France ) und Xinq ( National Library of Australia ) entwickelt worden.

Transactional archiving [ Bearbeiten | Quelltext bearbeiten ]

Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites. Es ist fur Einrichtungen von Bedeutung, die aus rechtlichen Grunden einen Nachweis uber ihre Nutzung zu fuhren haben. Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver.

Webarchivierung in Deutschland [ Bearbeiten | Quelltext bearbeiten ]

Auf Bundesebene hat die Deutsche Nationalbibliothek (DNB) seit 2006 den gesetzlichen Auftrag zur Webarchivierung. Seit 2012 werden Webseiten thematisch und bei bestimmten Ereignissen archiviert, also selektiv und nicht vollumfanglich. Die DNB arbeitet dabei mit einem externen Dienstleister zusammen. Außerdem wurden 2014 bisher einmalig alle DE-Domains gecrawlt . Der Zugriff auf das Webarchiv erfolgt hauptsachlich in den Lesesalen. [5]

Neben der Webarchivierung der DNB gibt es in verschiedenen Bundeslandern Initiativen:

Außerdem gibt es in Deutschland weitere Webarchivierungsinitiativen beispielsweise von parteinahen Stiftungen , vom SWR , von der Deutschen Post oder vom Biotechnologie-/Pharmaunternehmen Abbvie .

Siehe auch [ Bearbeiten | Quelltext bearbeiten ]

Umsetzungen [ Bearbeiten | Quelltext bearbeiten ]

Weblinks [ Bearbeiten | Quelltext bearbeiten ]

Einzelnachweise [ Bearbeiten | Quelltext bearbeiten ]

  1. Steffen Fritz: Rewriting History. (PDF) with WARC files. Januar 2016, archiviert vom Original (nicht mehr online verfugbar) am 9. November 2017 ; abgerufen am 9. November 2017 (englisch).
  2. a b c d RFC 7089  ? HTTP Framework for Time-Based Access to Resource States ? Memento . (englisch).
  3. a b c d Memento Guide: Introduction. Abgerufen am 5. Oktober 2018 (englisch).
  4. Steffen Fritz: Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten. In: ABI Technik. Nr. 2, 2015, S. 117?120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: Das deutsche Internet archivieren? Zwischen selektivem Ansatz und .de-Domain-Crawl . Deutsche Nationalbibliothek, 26. Juni 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Zum Stand der Webarchivierung in Baden-Wurttemberg . In: Bibliotheksdienst . Band   51 , Nr.   6 , 1. Juni 2017, ISSN   2194-9646 , S.   481?489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [abgerufen am 24. Marz 2020]).
  7. Tobias Beinert: Webarchivierung an der Bayerischen Staatsbibliothek . In: Bibliotheksdienst . Band   51 , Nr.   6 , 1. Juni 2017, ISSN   2194-9646 , S.   490?499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [abgerufen am 24. Marz 2020]).
  8. Workflow Web-Archivierung in der Langzeitarchivierung an der Bayerischen Staatsbibliothek | BABS. Abgerufen am 24. Marz 2020 .
  9. Edoweb: Rheinland-pfalzischer Archivserver fur elektronische Dokumente und Websites. Abgerufen am 24. Marz 2020 .