Web e social media, a chi appartiene l’informazione on line?

È la domanda che si pone Linnet Taylor, esperta di big data e ricercatrice presso l’Oxford Internet Institute, augurandosi che i progetti di archiviazione pubblica del web possano accedere liberamente ai dati e ai contenuti pubblicati in rete

Lettura facilitata

Web e social media, a chi appartiene l’informazione on line?

La Taylor si interroga in materia sul proprio blog personale, elencando e sintetizzando alcuni spunti emersi da un workshop svoltosi di recente a Parigi e dedicato al progetto europeo Lawa (Longitudinal Analytics of Web Archive data), finalizzato allo sviluppo di nuove tecniche di archiviazione web, e più in generale ai fattori critici che caratterizzano progetti e iniziative di questo genere.

Il primo aspetto citato riguarda la progettazione dei web crawler, vale a dire i programmi che scandagliano la rete in maniera automatica, alla ricerca di informazioni e contenuti. Volendo realizzare degli archivi web, si legge nel testo, la prima preoccupazione da parte degli addetti ai lavori deve essere quella di costruire programmi di questo genere che permettano di reperire i contenuti ritenuti rilevanti per i propri scopi di classificazione. E si tratta, prosegue la Taylor, di una domanda che ha a che fare interamente con le prospettive dei ricercatori. “Fra cento anni – si chiede in proposito – le persone saranno maggiormente interessate alle ultime elezioni presidenziali, o ai milioni di pagine che raccolgono le cifre relative alle transazioni quotidiane presso la Borsa di New York?”. Ovviamente non ci sono risposte precise a domande del genere, suggerisce la ricercatrice, ed è per questo che i progetti di archiviazione web devono fronteggiare fin dall’inizio delle incognite che potrebbero decretarne il successo o in alternativa fallimento.

Passando al problema successivo, la Taylor fa riferimento al modo in cui i crawler debbano individuare e riconoscere le risorse e i contenuti che si è stabilito di voler archiviare. Qui entrano in gioco problemi relativi all’interpretazione del linguaggio naturale, vale a dire, si legge nel testo, “una delle questioni più complicate con le quali la comunità informatica si sta attualmente confrontando”.

“Se un crawler cerca citazioni sull’influenza che possano essere utili a prevedere un’epidemia – si chiede la ricercatrice – come bisogna progettarlo affinché distingua un tweet che recita ‘ho la febbre, stasera niente party’ da un altro che recita ‘mi sento come se avessi al febbre! Basta tequila per me’. Anche le date sono un ulteriore elemento critico – prosegue il testo – se qualcuno posta una frase relativa al terremoto di Haiti del 2010 e fa riferimento ad un altro terremoto parimenti distruttivo verificatosi nel 1564, aggiungendo che nel 2012 Haiti si sta rimettendo in piedi, che tipo di istruzioni occorre dare al crawler per permettergli di capire che il post fa riferimento al 2010?”.

Un terzo elemento critico citato nell’articolo ha a che fare con l’usabilità di questi sistemi e soluzioni. In questo caso la Taylor fa riferimento ad un ulteriore progetto europeo presentato in occasione del workshop, chiamato ARCOMEM e finalizzato alla creazione di un archivio web che permetta di reperire tutti i tipi di contenuti postati su blog, social media e altri tipi di community 2.0, in relazione a specifici argomenti o eventi, quali ad esempio un uragano o un concerto rock. La particolare usabilità della soluzione, suggerisce la ricercatrice, sta proprio nell’idea di cercare informazioni relative a specifici temi scandagliando i social media e permettendo di organizzarle e renderle reperibili così come fanno attualmente le biblioteche per le fonti librarie. Anche in questo caso però, in occasione del workshop sono stati evidenziati alcuni fattori problematici, a cominciare dalle questioni legali relative all’utilizzo dei dati pubblicati sui social media.

“Queste tecnologie funzionano quando i contenuti archiviati appartengono alle stesse organizzazioni archivistiche – si legge nel testo – ma quando non è così si apre tutta una serie di questioni. Cosa succede ad esempio se tutti i contenuti di un social media già archiviati diventano protetti per dieci o venti anni? È probabile – prosegue la Taylor citando il pensiero di un esperto presente al workshop – che il 95% del lavoro di archiviazione già svolto con efficacia partendo da ricerche di tipo semantico, possa divenire illegale a causa dell’inasprimento delle singole normative nazionali in materia di privacy”.

Sviluppando ulteriormente la riflessione, la ricercatrice evidenzia le profonde divergenze di vedute che possono esserci tra gli archivisti, all’opera per la massima conservazione possibile di contenuti e materiali, e gli utenti del web, a loro volta, e legittimamente, molto interessati al controllo dei propri dati, così come alla possibilità di poterli cancellare per ragioni di privacy. “E così si giunge – scrive la Taylor – alla questione fondamentale relativa a chi sia realmente il legittimo proprietario dei contenuti che vengono pubblicati on line”.

“Tutto questo – prosegue tirando le fila a prendendo esplicitamente posizione a riguardo – ha a che fare con la domanda sul modo in cui dovremmo distinguere tra diverse tipologie di possesso dei dati sul web. Il possesso è infatti una categoria che sul web diventa sfaccettata: i contenuti appartengono a chi li ha creati, ma anche a chi ha pagato perché venissero creati, e ancora ai proprietari delle piattaforme sui quali vengono pubblicati, così come agli archivisti interessati alla conservazione di parti significative del nostro patrimonio culturale. E come già avviene per gli archivi fisici, alcune delle tecnologie di archiviazione on line attualmente in via di sviluppo saranno liberamente accessibili, ma la maggior parte di esse, si spera quelle che permetteranno di catturare i maggiori dettagli, preservarli nel lungo periodo e reperirli con la massima accuratezza, non lo saranno. È assolutamente nel nostro interesse che progetti come LAWA abbiamo successo, perché gli archivi pubblici sono le istituzioni più indicate sia per tutelare l’interesse generale, sia per quanto riguarda la capacità di adattarsi ai cambiamenti legislativi e proteggere la nostra privacy. LAWA è come il canarino nella miniera: quello che viene sviluppato nell’ambito di progetti pubblici è indicativo di cosa potrebbe accadere in ambito commerciale. È importante conservare, perché ci piaccia o no, sia che si usino molto i social media, sia che si subisca semplicemente la tecnologia sempre più pervasiva nelle nostre esistenze, tutti noi siamo ormai oggetto di citazioni e attenzioni da qualche parte”.

Leggi l’articolo sul blog di Linnet Taylor

Redazione

Seguici su

Per i servizi agli Enti

Valuta il sito

Piè di pagina