Unicode 8.0.0

UnicodeUn anno dopo il rilascio della versione 7.0.0, il Consorzio Unicode ha annunciato il rilascio della versione 8.0.0

Unicode è uno standard di codifica dei caratteri  e un insieme di regole l’utilizzo dello stesso.

Lo scopo di Unicode è quello di superare le codifiche locali nate durante l’evoluzione dell’informatica per arrivare ad un metodo unico di codifica dei testi.

Tralasciando altri sistemi di codifica alieni come EBCDIC, all’inizio era l’ASCII, un sistema di codifica a 7 bit. Siccome i computer erano ad 8 bit, lo spazio dei rimanenti 127 caratteri veniva utilizzato da ogni piattaforma e/o da ogni nazione a modo proprio, creando una vera e propria babele, che andava benissimo finché non era necessario scambiare delle informazioni con computer differenti.

Il Giappone, addirittura, ha (avuto) quattro tipi diversi di codifica di caratteri, ovviamente incompatibili tra loro, al punto tale che in giapponese esiste una parola che descrive i caratteri illeggibili.

Alla fine degli anni ’80 la situazione stava diventando insostenibile e qualcuno (Joe Becker di Xerox, Lee Collins e Mark Davis di Apple) getta le basi di Unicode. In breve tempo anche Sun, NeXT, Microsoft si uniscono al gruppo e all’inizio del 1991 viene fondato il Consorzio Unicode.

Unicode si propone lo scopo di codificare ogni possibile glifo passato, presente e futuro, per questo nasce a 16 bit per passare poi a 32.

I primi 127 caratteri di Unicode rispecchiano la codifica ASCII.

La versione 8 di Unicode aggiunge 7.716 caratteri allo standard, che ne include ora oltre 22.000.

Tra gli aggiornamenti di questa versione:

  • supporto di 50 nuovi Emoji e dei modificatori per il colore della pelle;
  • aggiunta di alcune sillabe minuscole della lingua Cherokee;
  • ideogrammi delle lingue dell’est asiatico;
  • simbolo della valuta georgiana;
  • supporto della lingua Ik dell’Africa centrale.

L’aggiornamento dello standard deve essere ora recepito da chi produce i font, quindi si andrà avanti comunque a vedere ogni tanto ���

Autore: Luigi Rosa

Consulente IT, sviluppatore, SysAdmin, cazzaro, e, ovviamente, geek.

4 pensieri riguardo “Unicode 8.0.0”

  1. Non riesco a capire perché sono andati a infilare le Emoji in Unicode… Avevano paura di rimanere senza lavoro? In questo modo la tabella dei simboli non potrà che crescere all’infinito.
    E poi da quando un font decide anche i colori con cui deve essere disegnato? C’era forse poca superficie dove far attecchire i bug delle implementazioni?

    Luigi, tu ci vedi qualche ragione talmente buona da giustificare tutto ciò?

    1. Lo scopo di Unicode e’ poter mettere nei computer i testi con una codifica unica. Una volta che hai i testi in formato elettronico puoi archiviarli o analizzarli.

      E’ un fatto che, piaccia o no, il linguaggio attuale includa gli emoji. Molte piattaforme hanno una codifica propria degli emoji, quindi se un giorno nel futuro qualcuno volesse analizzare i testi dei giorni nostri dovrebbe fare i conti anche con gli emoji. Se pero’ ogni piattaforma usa una propria codifica, ricadiamo nel problema che Unicode vuole risolvere. Senza contare che con una codifica univoce ci si possonos cambiare testi con emoji tra piattaforme diverse.

      Gli emoji sono stati inventati negli anni 90 dal carrier nipponico NTT, altre piattaforme giapponesi, visto il successo, hanno codificato i loro emoji diversi da quelli d NTT. Si rischiava un altro mojibake, quindi tanto vale codificarli.

      Per il colore della pelle… E’ stato introdotto da una delle ditte piu’ politically correct della Terra. A me fa un po’ ridere, ma non dimentichiamo che oltre Atlantico stanno ancora facendo i conti con un razzismo latente. Forse serve piu’ a loro che a noi.

      Per il numero di caratteri: Unicode adesso e’ a 32 bit, quindi si possono mappare 4 miliardi e oltre caratteri, siamo a 22.000, direi che di spazio per crescere ce n’e’. E se lo spazio dovesse finire, quando finira’ magari Unicode sara’ gia a 64 bit.

  2. Pingback: UTF 8 | SIAMO GEEK

Spazio per un commento