Metadati

I metadati sono le informazioni che descrivono un insieme di dati.

Detta così, è una definizione che crea più dubbi di quanti non ne risolva. Prendiamo ad esempio una lettera scritta con un elaboratore di testi. Il contenuto e la formattazione della lettera sono l’insieme di dati, il nome del file, la data e ora di creazione e di ultimo aggiornamento sono i metadati.

Nell’informatica per anni i metadati sono stati largamente ignorati, sia perché i programmi non li gestivano sia perché non si sentiva la necessità di utilizzarli.

Quando la mole di documenti informatici è iniziata a diventare cospicua (vuoi per l’accumularsi dello storico, vuoi per l’uso preponderante del computer) è diventata sempre più pressante la necessità di catalogare i documenti elettronici in un modo tale da rendere semplice reperire un’informazione specifica.

La maggior parte dei documenti creati con i programmi di automazione d’ufficio (elaboratore di testi, foglio elettronico, presentazioni), i documenti PDF e alcuni formati immagine possono registrare al loro interno dei metadati sia tipizzati sia ad uso libero dell’utente.

Se si guardano le proprietà di un file PDF vediamo qualcosa come questo:

pdfmetadata

Un eventuale programma di organizzazione documentale potrebbe far passare tutti i documenti con metadati per catalogare le parole chiave, l’autore e altre informazioni senza dover necessariamente effettuare un’analisi sul contenuto vero e proprio del documento, che potrebbe essere una scansione o un’immagine e, quindi, non facilmente elaborabile per questo scopo.

Quando una persona vede la foto della Statua delle Libertà la associa immediatamente ad una posizione geografica (New York, USA), ma un software che dovesse analizzare quella foto, non potrebbe saperlo se i metadati non contenessero la posizione o i nomi geografici.

Qui si inserisce un punto dolente della catalogazione che vale anche per i documenti cartacei: la bontà della catalogazione non risiede tanto nel metodo utilizzato, quanto nell’abilità specifica di chi cataloga (tagga) i documenti. Esistono metodologie e corsi specifici per catalogare i documenti in maniera corretta; questa non è un’attività da trascurare o lasciare all’iniziativa dei singoli all’interno di un’organizzazione.

Dall’esempio sopra si vede che tra i metadati c’è anche il nome e la versione del programma che ha creato quel documento. Nessuno dovrebbe essere così incauto da pubblicare online documenti PDF creati con un Distiller pirata o immagini elaborate con un Photoshop di cui non si possiede la licenza, anche se ho esperienza diretta di clienti che hanno ignorato l’esistenza dei metadati e sono stati contattati dai produttori dei software per chiarimenti.

In tema di figuracce, vale la pena di ricordare quella dell’Onorevole Gabriella Carlucci, che ha pubblicato una lettera sulla regolamentazione di Internet come propria, ma che aveva nei metadati il nome di Davide Rossi di Univideo.

Allo stresso modo i metadati EXIF delle immagini possono rivelare più informazioni del necessario, tra cui le coordinate geografiche del luogo in cui è stata scattata la fotografia. Se non è un problema quando il soggetto è facilmente riconoscibile, potrebbe diventarlo quando le foto vengono scattate in luoghi privati.

Ogni volta che ricevete un documento con metadati (Word, PDF, Excel) provate a guardarli. Allo stesso modo, installate nel browser un’estensione che vi visualizza i dati EXIF. Ogni tanto si fanno delle scoperte interessati.

Autore: Luigi Rosa

Consulente IT, sviluppatore, SysAdmin, cazzaro, e, ovviamente, geek.

3 pensieri riguardo “Metadati”

Spazio per un commento