domenica 18.11.2018
caricamento meteo
Sections

Mai più link rotti: l’Internet Archive “ripara” Wikipedia

Ripristinati 9 milioni di collegamenti ipertestuali non più funzionanti sulle pagine di 22 versioni linguistiche dell’enciclopedia online
Mai più link rotti: l’Internet Archive “ripara” Wikipedia

Awwwards, @awwwards – 404 - Mehdi Kabab (flic.kr/p/eiEyEh - CC BY-NC-SA 2.0)

Come ampiamente noto a chi si occupa di web archiving, il fenomeno dei link rotti, a  causa dei quali i collegamenti ipertestuali a determinate risorse web smettono di funzionare, è uno dei principali limiti alla conservazione nel lungo periodo dei contenuti pubblicati sui media digitali. L’Internet Archive, da tempo particolarmente attivo nel contrasto a tale problema, ha annunciato di recente il ripristino di circa 9 milioni di link non più funzionanti sulle pagine di 22 versioni linguistiche di Wikipedia.

L’operazione è stata possibile grazie alla sistematica attività di archiviazione dei contenuti pubblicati sull’enciclopedia online. Da oltre 5 anni, sia in fase di prima pubblicazione, sia in occasione di ogni singola modifica, la quasi totalità delle URL create su circa 300 domini riconducibili a Wikipedia viene salvata e indicizzata sulla Wayback Machine, l’archivio digitale dell’Internet Archive. Negli ultimi 3 anni inoltre, un nuovo software chiamato IABot scandaglia sistematicamente 22 versioni linguistiche di Wikipedia, monitorando tutti i link contenuti in esse e individuando, tra le altre cose, quelli non più funzionanti.

Il ripristino automatico dei link rotti avviene grazie all’incrocio di queste due attività: quando lo IABot rileva un link non funzionante, ricostruisce il legame ipertestuale di partenza, reindirizzando il collegamento verso la copia del suo contenuto di destinazione originario, archiviata dalla Wayback Machine. Questo sistema di incrocio automatizzato ha finora permesso di riparare circa 6 milioni i link. I restanti 3 milioni sono stati a loro volta ripristinati “manualmente” da centinaia di membri della community di Wikipedia.

Un modo per capire se e quanto operazioni di questo tipo siano effettivamente utili, è misurare la frequenza con la quale i link esterni di Wikipedia indirizzino alle risorse salvate dall’Internet Archive. Di recente, nell’ambito di uno studio più ampio sul modo in cui gli utenti di Wikipedia utilizzano le citazioni e i link esterni, la Wikimedia Foundation ha effettuato un monitoraggio a riguardo. I primi risultati sembrano confermare l’assoluta efficacia di tali attività. La Wayback Machine è di gran lunga la destinazione esterna più ricorrente dalle pagine della galassia Wikipedia, con un rapporto di ben 3 link a 1 nei confronti della biblioteca digitale Google Books, seconda in questa particolare “classifica”. Citando un altro dato emerso dallo studio, dalla sola versione inglese di Wikipedia, ogni giorno circa 25.000 click indirizzano verso contenuti archiviati dalla Wayback Machine.

Annunciando iniziative e programmi per intensificare e migliorare questo tipo di attività, all’Internet Archive hanno anche stilato un elenco delle principali lezioni fin qui apprese. La prima è più che altro una conferma: al contrario di quello che ancora in troppi continuano a pensare, le risorse web sono fragili e tutt’altro che stabili. Nel 2013 ad esempio, uno studio aveva certificato che il 49% dei link contenuti nelle sentenze della Corte Suprema statunitense non era più funzionante. Un altro insegnamento fondamentale è che l’archiviazione dei contenuti web linkati da altre risorse deve essere effettuata con estrema tempestività, se possibile in tempo reale, di modo che nessun link abbia il tempo di “deteriorarsi”.

Il fenomeno dei link rotti, spiegano inoltre all’Internet Archive, è solo una parte del cosiddetto “content drift”, problema potenzialmente più ampio che può derivare da ogni singola modifica di un contenuto associato ad una URL. “Il problema è potenzialmente più ampio - si legge a riguardo - perché in questo caso sorgono rischi di affidabilità: anche in caso di link funzionanti, non c’è modo di sapere con certezza se il contenuto di destinazione sia effettivamente identico a quello originariamente previsto da chi aveva creato il collegamento”. L’ultima lesson learned, infine, e anche qui siamo nell’ambito delle conferme, è che l’unione fa la forza. Collaborando con lo staff della  Wikimedia Foundation, i volontari di Wikpedia e altri esperti ed appassionati di web archiving, all’Internet Archive hanno potuto constatare che più si è e più si ottiene. Anche quando si tratta di rendere il web più affidabile e per questo autorevole e utile.

Azioni sul documento
Pubblicato il 10/11/2018 — ultima modifica 30/10/2018
Aggiungi commento

Puoi aggiungere un commento riempiendo il form sottostante. Formattato come testo semplice. I commenti sono moderati.

Domanda: Quanto fa tre più tre ?
La tua risposta:

ParER - Polo archivistico regionale dell'Emilia-Romagna Viale Aldo Moro 64, 40127 Bologna - Tel. +39 051 527 3317 - email: redazioneparer@regione.emilia-romagna.it

IBACN, via Galliera, 21 - 40121 Bologna - Tel. +39 051 527 66 00 - Fax +39 051 232 599

Regione Emilia-Romagna (CF 800.625.903.79) - Viale Aldo Moro 52, 40127 Bologna - Centralino: 051.5271

Ufficio Relazioni con il Pubblico: Numero Verde URP: 800 66.22.00, urp@regione.emilia-romagna.it, urp@postacert.regione.emilia-romagna.it

Strumenti personali