Wayback Machine e l'interfaccia web utilizzata da Internet Archive per l'estrapolazione dagli archivi dei dati riguardanti siti web. I siti archiviati rappresentano una sorta di "fermi immagine" raccolti al momento dell'acquisizione delle pagine tramite il software di indicizzazione di Internet Archive. Il nome "Wayback Machine" deriva dal termine "
WABAC Machine
" utilizzato in una delle storie della serie animata
Rocky e Bullwinkle
.
[10]
Il servizio, grazie allo
spider
di
Alexa
, memorizza nel tempo i cambiamenti e le evoluzioni dei diversi
siti web
. Per i siti minori non ha un frequente
caching
, ovvero le pagine vengono memorizzate solo raramente.
Si rivela un servizio utile nei seguenti casi:
- studio dell'evoluzione dei siti Web;
- recupero di pagine e siti andati persi;
- ricerca di prove una volta pubblicate e quindi cancellate.
Il servizio permette di accedere a versioni archiviate di pagine web del passato, una sorta di "archivio tridimensionale" secondo le parole di Internet Archive. Milioni di siti web con i rispettivi dati (immagini, testo, documenti collegati, ecc.) sono archiviati in un gigantesco
database
. Non tutti i siti web sono disponibili a causa della scelta di molti proprietari di siti di escludere i loro siti dall'indicizzazione. Come per tutti i siti basati su dati provenienti da
web crawler
, inoltre, mancano vaste aree del web per una serie di ragioni tecniche. Diverse problematiche legali riguardanti l'archiviazione e la copertura o meno di siti sono state infine riscontrate negli anni, sebbene queste non siano il risultato di azioni deliberate.
[11]
L'uso del termine "Wayback Machine" nel contesto di Internet Archive e diventato cosi comune che "Wayback Machine" e "Internet Archive" sono divenuti quasi sinonimi nella
cultura di massa
; per esempio, nella serie televisiva
Law & Order: Criminal Intent
(nell'episodio "Legacy", andato in onda per la prima volta il 3 agosto 2008, intitolato
Amore virtuale
nella controparte in italiano), uno dei protagonisti dell'episodio utilizza la "Wayback Machine" per scovare la copia archiviata di un sito web. Le "istantanee" dei siti archiviate durante i vari passaggi del
crawler
diventano accessibili pubblicamente di solito dopo 6-18 mesi.
Esempi di siti web archiviati da Internet Archive e visualizzati attraverso la Wayback Machine:
Internet Archive utilizza il protocollo
Robots Exclusion Standard
(attraverso il file
robots.txt
) per l'esclusione volontaria dei siti dal proprio database. Internet Archive rispetta le direttive del file robots.txt facendo in modo che i suoi bot non indicizzino le pagine. Per questo motivo, Internet Archive ha reso indisponibili un certo numero di siti web che sono del tutto inaccessibili attraverso la Wayback Machine. In caso di siti bloccati, viene archiviato il solo file
robots.txt
.
L'Internet Archive applica le regole robots.txt con effetto retroattivo: se un sito blocca lo
spider
di Internet Archive attraverso il file robots.txt, allora diventano non disponibili tutte le pagine gia archiviate dal dominio. Inoltre, lo stesso comportamento e riservato a tutti i siti web che ne fanno esplicita richiesta: per questo, ogni volta che il proprietario di un sito ne chiede l'esclusione dall'indice, si acconsente alla richiesta
[12]
, non essendo "Internet Archive [...] interessato a preservare o offrire l'accesso a siti Web o ad altri documenti su Internet di proprieta di persone che non vogliono i loro materiali nella nostra collezione".
[13]
Per esempio, l'indirizzo
https://web.archive.org/*/https://www.ubuntu-it.org
, mostra le copie consultabili della pagina
- https://www.ubuntu-it.org
,
- suddivise in base alla data del salvataggio su Internet Archive.
Open Library, fra i cui fondatori si annovera anche l'attivista digitale
Aaron Swartz
[14]
e una
biblioteca digitale
nata con lo scopo di raccogliere schede per ogni libro mai pubblicato e di catalogarle in un unico database; una sorta di versione
open source
di
WorldCat
, nata in contrapposizione al progetto di digitalizzazione
Google Libri
[15]
. Il progetto nasce nel 2007 e include alcuni milioni di schede catalografiche e libri digitalizzati nel pubblico dominio interamente accessibili e scaricabili.
[16]
Open Library e un progetto che si basa su software libero e
open source
, il codice sorgente e interamente accessibile dal sito di riferimento.
A partire da giugno 2010 Open Library offre anche un servizio di prestito di
ebook
svolto in collaborazione col distributore di contenuti digitali statunitense OverDrive e con biblioteche americane
[17]
.
Sviluppato nel 2006, Archive-It e un servizio che permette a istituzioni ed entita individuali di costruire e preservare collezione di materiale digitale.
[18]
Attraverso un'applicazione web, i sottoscrittori del servizio possono raccogliere, catalogare, indicizzare e, nel corso di 24 ore, accedere interamente all'archivio. Le collezioni sono ospitate su server di Internet Archive e accessibili al pubblico tramite ricerche
full-text
. Tutto il materiale digitale e conservato in duplice copia (una primaria e una di
back up
), viene periodicamente indicizzato nell'archivio generale di Internet Archive e una copia dei dati puo essere mandata ai sottoscrittori su richiesta. Al 2009 Archive-It conta 125 istituzioni
partner
in 42 stati americani e in 11 nazioni per un totale di 1,5 miliardi di URL e 963 collezioni pubbliche. Le istituzioni che hanno sottoscritto il servizio Archive-It sono in larga parte biblioteche universitarie e di
college
, archivi di stato, istituzioni federali, musei e organizzazioni culturali, tra cui la
Electronic Literature Organization
, l'Archivio di Stato della
Carolina del Nord
, il
Texas State Library and Archives Commission
, la
Stanford University
, la
National Library of Australia
, il
Research Libraries Group
(RLG), e molti altri.
Il progetto
NASA Images
fu creato grazie a uno
Space Act Agreement
tra Internet Archive e la
NASA
per rendere accessibili al pubblico gli archivi delle immagini, dei video e degli audio prodotti dall'agenzia nel corso degli anni attraverso un singolo archivio interamente indicizzato e fruibile tramite ricerche. Il sito web fu lanciato nel luglio del 2008 ed e arrivato a contenere oltre 100?000 file.
Oltre agli archivi web, Internet Archive mantiene grosse collezioni di risorse multimediali digitali riconosciute, da chi le ha caricate sul sito, nel pubblico dominio negli Stati Uniti o distribuiti con una licenza che ne rende possibile la redistribuzione libera, come per esempio le licenze
Creative Commons
. Le risorse sono classificate a seconda del tipo di media (immagini in movimento, audio, testo) e in altre sotto-classificazioni secondo vari criteri.
Collezione di immagini in movimento
modifica
La collezione di immagini in movimento (
Moving Image Collection
) di Internet Archive comprende: cinegiornali; cartoni animati classici; propagande di guerra; il
Prelinger Archive
, un archivio speciale che contiene materiale considerato "effimero" come film sponsorizzati da aziende e organizzazioni, film didattici e filmati amatoriali, pubblicita e altro materiale i cui diritti d'autore sono scaduti. Le collezioni di risorse digitali sono molte e variano per argomento e fonte di reperimento; la collezione di
brickfilm
, per esempio, contiene numerosi film girati in
stop-motion
con mattoncini Lego; un'altra collezione riguarda le elezioni presidenziali USA del 2004 e la relativa campagna elettorale. La collezione
Independent News
comprende una serie di raccolte tra cui quella del concorso del 2001
Internet Archive's World At War
, per il quale i concorrenti crearono cortometraggi per dimostrare l'importanza dell'accesso alle informazioni e alla storia. L'archivio riguardante l'attacco alle Torri gemelle dell'
11 settembre 2001
contiene materiale d'archivio prodotto dai principali
network
televisivi mondiali sull'evento e andato in onda in diretta quel giorno.
Nelle collezioni di immagini in movimento sono presenti anche versioni originali di celebri film, tra cui:
La collezione audio comprende musica, audiolibri, notiziari, vecchie trasmissioni radio e una grande varieta di altri file audio. La collezione
Live Music Archive
comprende oltre 50?000 registrazioni di concerti di artisti indipendenti e artisti affermati ed ensemble musicali che adottano norme permissive sulla registrazione dei loro concerti, come i
Grateful Dead
, e gli
Smashing Pumpkins
.
La collezione comprende testi di libri digitalizzati da varie biblioteche di tutto il mondo cosi come molte collezioni speciali. Internet Archive dispone di 23 centri di scansione in cinque paesi, per una digitalizzazione di circa 1?000 libri al giorno, finanziata da biblioteche e fondazioni.
[19]
Nel novembre 2008, quando c'erano circa 1 milione di testi, l'intera collezione occupava circa 0,5
petabyte
, Incluse immagini raw, file PDF, OCR e dati grezzi.
[20]
Tra il 2006 e il 2008
Microsoft Corporation
instaura un rapporto di collaborazione con Internet Archive attraverso il suo progetto
Live Search Books
, con la scansione piu di 300?000 libri che sono stati aggiunti alla raccolta, nonche con il sostegno finanziario e con le attrezzature di scansione. Il 23 maggio 2008 Microsoft annuncio che avrebbe posto fine al progetto Live Book Search e alla scansione di nuovi libri.
[21]
Microsoft ha reso i libri digitalizzati disponibili senza restrizioni contrattuali e ha donato la sua attrezzatura di scansione al suo ex
partner
.
Nell'ottobre del 2007 gli utenti di Internet Archive hanno iniziato il caricamento di libri di dominio pubblico da
Google Libri
.
[22]
Dal mese di gennaio 2010 sono stati raccolti 900?000 libri digitalizzati da
Google
, che rappresentano oltre la meta dei libri del totale disponibile su archive.org. I libri sono identici alle copie trovate su Google, e sono disponibili per un uso illimitato e per il
downloading
, come tutti i materiali Internet Archive.
Internet Archive e un membro della
Open Book Alliance
, organizzazione che e stata tra le piu critiche nei confronti dell'accordo tra l'associazione degli editori americani e Google per la digitalizzazione di libri.
Nel 2016, anche seguito dello scandalo delle
elezioni presidenziali
, l'Internet Archive avvio una collaborazione con le versioni di Wikipedia in molteplici lingue, elaborando un
programma
per la sostituzione automatica dei link non funzionanti nei template di citazione. In loro sostituzione, l'Internet Archive Bot
[23]
inserisce l'
URL
della copia digitale della fonte presente nell'Internet Archive, con un'anteprima di due pagine per
contestualizzare
la citazione.
[24]