Modifiche realtime alla wikipedia

rcmaprcmap è uno dei tanti esempi di un nuovo modo di rielaborare i dati disponibili online in tempo reale.

Nei primordi della diffusione di Internet, in tema di accesso ai dati la Rete veniva utilizzata essenzialmente per pescare dai repository FTP di università o società per scaricare le ultime versioni di dati o programmi. La velocità di trasferimento era tale che venivano realizzate e vendute raccolte in CD-ROM con le copie dei siti FTP più famosi; chi ricorda ftp.cica.indiana.edu? Ci sono ancora in giro dei file (questo è datato 1998) che ne parlano.

L’esplosione del fenomeno Internet e la diffusione dei browser HTTP hanno avviato dalla seconda metà degli anni 90 l’abitudine di collegare tra loro diverse pagine HTML statiche attraverso i link ipertestuali. In questo modo venivano correlati tra loro i contenuti della Rete, fruibili tramite un’interfaccia unitaria (il browser) in grado di trasferire informazioni attraverso diversi protocolli interconnesse grazie all’adozione degli URI.

In seguito i contenuti sono diventati dinamici: si è passati dalle pagine testuali modificate a mano dagli autori a metodi che attingevano i contenuti da fonti diverse per integrarle, lato server, in pagine HTML fruibili dal browser. Generalmente, però, le pagine dinamiche di questo tipo attingono a fonti di dati di cui l’autore ha il controllo (quando non è lui stesso ad alimentare i database) o ha un accordo di utilizzo in concessione. Inoltre la correlazione e l’elaborazione dei dati avviene sul server, è, quindi, il fornitore, non l’utente finale, a decidere quali dati visualizzare. Eventuali dati provenienti da fonti esterne devono essere elaborati con procedure batch o similari; un esempio di questo tipo di elaborazione è la tabella degli IPv4 rimanenti presente nella colonna dei widget: ogni notte un programma scarica i dati grezzi, li elabora e li presenta in modo conforme alla grafica del sito.

Negli ultimi anni abbiamo visto la diffusione del concetto di open data, che non significa pubblicare una serie di dati in un formato arbitrario, bensì rendere disponibili quei dati attraverso una serie di API per permettere a chiunque di elaborarli in proprio. Pubblicare un PDF con la scansione bitmap di una pagina con una tabella potrebbe assolvere un obbligo o un impegno di pubblicazione dei dati, che, però, tali rimangono.

Per diventare informazione un dato deve essere elaborabile.

Ecco, quindi, una nuova frontiera dell’informazione, che si basa su Internet, utilizza quasi sempre il protocollo HTTP e permette di correlare i dati tra loro forniti in tempo reale direttamente dalla fonte.

Gli esempi di questo approccio sono tantissimi, dalle infezioni informatiche alle modifiche a Wikipedia apportate da utenti anonimi.

Avere a disposizione tramite protocolli standard un numero inimmaginabile di fonti primarie di dati per poterle elaborare a nostro piacimento: qualcuno ha detto big data?

Autore: Luigi Rosa

Consulente IT, sviluppatore, SysAdmin, cazzaro, e, ovviamente, geek.

Spazio per un commento