Open Data

Porta sul mare / Door to the seaOpen Data è una delle parole chiave che riempiono le bocche di molte persone o amministratori.

Si tratta più di un concetto astratto che di un insieme di regole, la qual cosa lascia la mano libera alle più varie interpretazioni.

Per un amministrativo (o comunque un non-tecnico) la scansione bitmap di una pagina stampata messa online costituisce open data. Da un punto di vista tecnico questo esempio non è open data, ma una banale pubblicazione di un documento non elaborabile.

La differenza sostanziale sta proprio nell’elaborabilità dei dati. Uno dei concetti base dell’elaborazione elettronica è la differenza tra dato e informazione: in maniera grossolana, il primo costituisce l’input di un algoritmo, la seconda il suo output.

Quando ho allestito il sistema di elaborazione che sta dietro l’analisi dell’IPv6 nei diti della PA mi sono trovato davanti al problema di avere dei dati con cui nutrire l’algoritmo di verifica.

La prima idea è stata di vedere se l’ISTAT avesse una tabella con i siti web, ma non è un dato che viene registrato dall’Istituto; la persona che mi ha fornito la risposta mi ha gentilmente e correttamente indirizzato verso l’ANCI, sul cui sito è effettivamente possibile consultare l’elenco dei siti dei Comuni italiani.

Venticinque Comuni alla volta.

Ho chiesto all’ANCI se era possibile scaricare in formato elaborabile il loro elenco; la risposta è stata cortese e tempestiva. E negativa.

Ovviamente per chi sa scrivere un minimo di software scaricare algoritmicamente l’elenco dal sito dell’ANCI è relativamente facile, ma è una cosa che si fa una volta sola. Il risultato è che adesso l’ANCI ha il suo elenco e Siamo Geek il prorpio, che è stato ripulito e normalizzato. Inoltre il nostro elenco è già stato aggiornato con un comune che non esisteva (Zoagli) e altri i cui siti erano obsoleti. Nel tempo verrà fatta una verifica con l’elenco dei comuni dell’ISTAT, che è disponibile in CSV, nel rispetto del concetto di open data. Sarà anche possibile scaricare la tabella di Siamo Geek, tempo di limare la struttura e di scrivere il software apposito.

Per realizzare Open Data, quindi, non basta mettere online dei dati in modo arbitrario e non strutturato come scansioni bitmap, tabelle senza una formattazione precisa dentro documenti Word o altri formati non strutturati. I dati devono essere accessibili in formati condivisi per lo scambio di informazioni oppure interrogabili algoritmicamente attraverso API pubbliche. In altre parole, chiunque con un minimo di conoscenza informatica (o con gli strumenti di integrazione giusti) e una connettività Internet deve poter accedere ai dati direttamente alla sorgente per poterli elaborare a proprio piacimento.

Aggiornamento 25/11/2012 – I dati di analisi dell’IPv6 nella PA sono scaricabili in formato ASCII tabellare dalla medesima pagina.

Autore: Luigi Rosa

Consulente IT, sviluppatore, SysAdmin, cazzaro, e, ovviamente, geek.

7 pensieri riguardo “Open Data”

  1. Se ti scarichi l’elenco dei comuni italiani dal sito ISTAT ti trovi davanti ad un bellissimo “data base” in excel in cui trovi tre campi chiamati “Denominazione (italiano/tedesco)”, “Solo denominazione in italiano”, “Solo denominazione in tedesco”.

    Com’è che era il concetto di “normalizzazione”?

    1. Il concetto di “normalizzazione” deve tener conto delle leggi vigenti: dura lex sed lex.

      Visto che la comunita’ autonoma della provincia di Bolzano pretende che ogni cosa sia, ex lege, espressa in due lingue, l’ISTAT si deve adeguare. I tre campi hanno una loro ragion d’essere.

      1. Esatto, e inoltre : “In seguito all’adozione del “Regulation (EC) n. 1059/2003 of the European Parliament and of the Council of 26 May 2003 on the establishment of a common classification of territorial units for statistics (NUTS)”, anche l’Istat si è uniformato a tale classificazione. Pertanto è stato applicato l’uso della doppia dizione italiano/francese per la Regione e la provincia della Valle d’Aosta/Vallée d’Aoste e il ricorso al simbolo separatore “/” per i comuni con la denominazione bilingue della provincia di Bolzano/Bozen.”

        Ciao
        Luigi

      2. Questo giustifica l’adozione del campo “denominazione in italiano” e “denominazione in tedesco” … ma non quella di un campo che è semplicemente la concatenazione.

        Inoltre come faceva notare il D.G. manca il francese.

        Che poi la legge venga usata per determinare quali campi inserire invece che, semplicemente, per determinare quali informazioni debbano essere presenti mi sembra al limite dell’assurdo

Rispondi a Luigi Rosa Annulla risposta