Watt for FLOPS

Un numero che non mi convinceva

Negli ultimi mesi mi è capitato sempre più spesso di leggere notizie di questo tipo: “L’azienda X annuncia un data center da 5 Gigawatt per l’intelligenza artificiale“, “Il progetto Y supererà i 10 GW entro il 2030“. Mai un FLOPS, mai un riferimento diretto alla potenza di calcolo. Da professionista IT, la cosa mi ha sempre lasciato un po’ perplesso: stiamo misurando l’intelligenza artificiale con un’unità che, in fondo, ci dice quanta corrente consuma un impianto industriale, non quanto velocemente “pensa” un computer. Mi sembrava, nella migliore delle ipotesi, una scorciatoia giornalistica; nella peggiore, un trucco di marketing per impressionare chi non ha gli strumenti per giudicare un FLOPS.

Poi mi sono fermato a ragionarci con più calma, e la risposta — come capita spesso con le domande apparentemente semplici — si è rivelata molto più interessante della domanda stessa. Non è (solo) una questione di marketing. È il sintomo di un cambiamento profondo in cosa significhi davvero “costruire potenza di calcolo” nel 2026.

Le basi: cosa misurano davvero Watt e FLOPS

Partiamo dalle fondamenta, perché vale la pena essere chiari fin dall’inizio.

I FLOPS (FLoating point Operations Per Second) misurano quante operazioni matematiche in virgola mobile un sistema può eseguire ogni secondo: somme, moltiplicazioni, le operazioni di base su cui si costruisce qualunque calcolo scientifico o modello di intelligenza artificiale. È, concettualmente, l’unità che dovrebbe rispondere alla domanda “quanto calcolo grezzo può fare questa macchina”.

I Watt (e i loro multipli, kW, MW, GW) misurano invece la potenza elettrica: quanta energia un sistema consuma — o, nel caso di una centrale, quanta ne può generare — in un determinato istante. Un Gigawatt equivale a un miliardo di Watt: per dare un’idea, una centrale nucleare di medie dimensioni produce intorno a 1 GW, e un datacentre “da 1 GW” consuma, a pieno regime, quanto una città di alcune centinaia di migliaia di abitanti.

Sono due unità che misurano cose fisicamente diverse: una è una misura di lavoro computazionale, l’altra è una misura di energia. Non sono automaticamente intercambiabili, e non è scontato che l’una sia un buon proxy dell’altra.

Detto così, sembrerebbe naturale concludere che i GW siano semplicemente “la misura sbagliata”. Ma le cose, come vedremo, sono più sfumate.

Il vero collo di bottiglia non sono (più) i chip

Per anni, il limite principale alla crescita dei datacentre per l’AI è stato semplicemente “quanti chip riesci a comprare”. Poi qualcosa è cambiato. Il problema non è più (solo) procurarsi le GPU: è procurarsi abbastanza energia elettrica nel posto giusto.

La ragione è quasi banale, una volta spiegata: i chip si rinnovano in fretta, ogni 12-18 mesi circa esce una generazione più efficiente e, soldi permettendo, si possono comprare o affittare in tempi relativamente brevi. L’infrastruttura elettrica no: costruire nuove sottostazioni, linee di trasmissione, accordi con i gestori di rete, a volte persino far ripartire centrali dismesse, richiede anni, non mesi.

L’esempio più clamoroso, e probabilmente il più citato nel settore, è quello di Microsoft: nel settembre 2024 l’azienda ha firmato con Constellation Energy un accordo di acquisto di energia (PPA) della durata di 20 anni per far riaccendere l’Unità 1 della centrale nucleare di Three Mile Island, in Pennsylvania — quella, per chiarezza, non coinvolta nel celebre incidente del 1979, ma comunque chiusa nel 2019 per ragioni puramente economiche. Il riavvio, ribattezzato Crane Clean Energy Center, è previsto per il 2028 e fornirà a Microsoft circa 835 MW, l’equivalente del consumo di 800.000 abitazioni americane, dedicati interamente ai suoi datacentre AI. Amazon ha fatto qualcosa di simile con la centrale di Susquehanna, Google sta investendo in piccoli reattori modulari.

Quando un’azienda tech arriva a far riaccendere un reattore nucleare spento da cinque anni con un contratto di vent’anni, non sta facendo marketing: sta risolvendo, nel modo più diretto possibile, il vincolo che la sta davvero limitando.

Ecco perché, quando un’azienda annuncia “X GW di capacità”, quel numero non descrive quanto calcolo farà oggi: descrive quanta capacità infrastrutturale si è assicurata per i prossimi anni, capacità che riempirà progressivamente con chip sempre più efficienti, generazione dopo generazione. È una misura dell’ambizione a lungo termine — o, per essere più precisi, una misura di dove si trova davvero il collo di bottiglia in questo momento storico.

Il paradosso di Jevons: più efficienza, più fame di energia

A questo punto, una domanda viene naturale: se i chip diventano sempre più efficienti — più calcolo per ogni Watt consumato — perché continuare a inseguire sempre più GW? Non dovrebbe, prima o poi, bastare l’hardware che già abbiamo?

La risposta sta in un fenomeno economico descritto già nel 1865 dall’economista inglese William Stanley Jevons, osservando il consumo di carbone in piena rivoluzione industriale: quando una tecnologia diventa più efficiente, il consumo complessivo della risorsa associata non scende — sale. Perché l’efficienza abbassa il costo d’uso, e un costo più basso sblocca nuova domanda che prima non era sostenibile.

Nel gennaio 2025 abbiamo avuto una dimostrazione quasi da manuale di questo fenomeno. Il rilascio del modello cinese DeepSeek R1, addestrato con un’efficienza dichiarata molto superiore ai modelli concorrenti, ha scatenato il timore opposto: se i modelli diventano così efficienti, si è chiesto il mercato, serviranno meno chip costosi. Le azioni Nvidia hanno perso circa il 17% in un solo giorno, quasi 600 miliardi di dollari di capitalizzazione bruciati in poche ore. Il CEO di Microsoft Satya Nadella ha commentato pubblicamente la vicenda evocando proprio il paradosso di Jevons, prevedendo che l’efficienza avrebbe fatto esplodere l’uso dell’AI invece di ridurre il fabbisogno infrastrutturale. Nelle settimane successive, i fatti gli hanno dato ragione: la domanda di GPU, lungi dal calare, è aumentata ulteriormente.

L’efficienza, finora, non si è mai tradotta in “meno energia per lo stesso risultato”: si è tradotta in “più risultato con la stessa energia, e ancora più energia per fare di più”.

È una dinamica diversa da quella, per dire, degli smartphone: lì il “lavoro da fare” (scorrere i social, guardare video) ha raggiunto un plateau, e l’efficienza guadagnata è stata reinvestita in batteria e dimensioni più compatte. Per l’AI, almeno finora, non esiste un plateau evidente: ogni aumento di capacità sembra sbloccare nuovi usi — modelli più grandi, agenti autonomi, generazione di video — che assorbono tutta la capacità liberata. Questo, ovviamente, non è una legge di natura: è un pattern osservato finora, e potrebbe non valere per sempre. Ma finché vale, i GW annunciati dalle big tech non sono numeri gonfiati per fare colpo: sono, semmai, una scommessa razionale, forse anche prudente, su una domanda che continua a correre più veloce di quanto l’efficienza riesca a contenerla.

Ma allora, i mega data center serviranno sempre?

C’è però un’obiezione legittima a tutto questo ragionamento: non potrebbe l’AI seguire lo stesso percorso del calcolo in generale, passato dai mainframe con i loro “terminali stupidi” ai personal computer, fino agli smartphone che oggi hanno potenza da PC in tasca? Se i nostri dispositivi diventeranno abbastanza potenti ed efficienti, perché continuare a dipendere da data center grandi come città?

Il parallelo è valido, ma solo a metà — e la differenza spiega molto. Per i modelli più grandi, il vincolo principale dell’inferenza (cioè dell’uso quotidiano, non dell’addestramento) non è tanto la potenza di calcolo grezza, quanto la banda di memoria: generare ogni singola parola richiede di “scorrere” tutti i pesi del modello, che per i sistemi più capaci pesano centinaia di miliardi di parametri. Un dispositivo personale, per quanto potente, ha limiti di memoria che un server con centinaia di gigabyte di memoria ad alta banda non ha.

Detto questo, l’AI locale nel 2026 è già una realtà concreta, non fantascienza: con un MacBook Pro M5 Max e 128 GB di RAM si possono far girare in locale modelli con qualità da frontiera, gratis, offline, senza inviare un solo dato a server esterni. Anche sugli smartphone, le moderne unità NPU dedicate permettono di eseguire piccoli modelli per compiti come riassumere un messaggio, trascrivere audio, classificare una foto — lavori per cui un modello compatto è spesso più che sufficiente, e risponde all’istante.

Ma quasi tutte le fonti tecniche più autorevoli convergono sulla stessa previsione: non “il locale sostituirà il cloud”, ma un’architettura ibrida. I compiti di routine si spostano sul dispositivo; quando serve ragionamento di frontiera, conoscenza ampia del mondo o conversazioni lunghe e complesse, resta più sensato passare al cloud.

È lo stesso meccanismo del paradosso di Jevons, applicato all’hardware: appena un compito diventa “abbastanza buono” da girare gratis sul telefono, il valore differenziante si sposta verso compiti ancora più ambiziosi, che richiedono ordini di grandezza più memoria e calcolo. Il locale assorbe la base, il cloud rincorre sempre la nuova frontiera.

C’è anche una ragione più di fondo: addestrare un modello di frontiera e usarlo quotidianamente sono due attività profondamente diverse. Il training richiede sincronizzare migliaia di chip su settimane di calcolo continuo — è più simile a un acceleratore di particelle che a un’applicazione personale. Il mainframe→PC ha funzionato perché il calcolo personale era un’attività intrinsecamente individuale, replicabile su una scrivania. L’addestramento di un modello di frontiera non lo è, e probabilmente non lo sarà mai, qualunque sia l’efficienza dei chip del futuro.

Vale anche la pena notare che la storia dell’informatica non è mai stata una linea retta verso la decentralizzazione: dopo i PC, gran parte del calcolo aziendale è tornato centralizzato nel cloud computing, non perché i PC fossero insufficienti, ma per economie di scala, manutenzione, elasticità. L’AI sembra seguire lo stesso pendolo, non un’unica direzione.

Anche i FLOPS, da soli, sono meno onesti di quanto sembrino

Fin qui sembra che il problema riguardi solo i GW. Ma anche i FLOPS, l’unità che sembrava “quella giusta” di partenza, nascondono almeno tre trabocchetti.

Il primo: il numero di FLOPS che un chip “promette” sulla scheda tecnica è un massimo teorico, raggiungibile solo in condizioni di laboratorio. Quello che conta davvero è quanta parte di quel massimo viene effettivamente usata, una misura che nel settore si chiama Model FLOPs Utilization (MFU). I numeri reali sono sorprendentemente bassi: nel 2026, un MFU del 40-60% durante l’addestramento è considerato un buon risultato, sopra il 50% è già eccellente. In fase di inferenza va molto peggio: con batch piccoli si scende all’8-12%, non per inefficienza ma perché si è limitati dalla banda di memoria, non dal calcolo puro. Persino un modello noto come Llama 3.1 ha raggiunto “solo” un MFU del 38-43% in addestramento — più della metà della potenza “venduta” resta sulla carta anche nei casi migliori.

Il secondo: lo stesso identico chip ha FLOPS diversi a seconda del formato numerico con cui calcola. Passare da BF16 a FP8 può quasi raddoppiare il picco teorico. Quindi quando un’azienda annuncia “X FLOPS” senza specificare la precisione, il numero è quasi privo di significato per un confronto — un po’ come dire “questa macchina fa 200 all’ora” senza dire se è in discesa.

Il terzo, e forse il più importante: anche misurati bene, i FLOPS non equivalgono a “intelligenza”. Due modelli addestrati con lo stesso identico budget di calcolo possono avere capacità molto diverse, a seconda della qualità dei dati, dell’architettura, dell’algoritmo di addestramento — è lo stesso principio che rende possibile l’efficienza di DeepSeek di cui parlavamo prima. I FLOPS misurano quanto lavoro computazionale è stato fatto, non quanta intelligenza ne è uscita.

Un problema già risolto altrove: la lezione di TOP500

A questo punto si potrebbe pensare che il calcolo, in generale, sia impossibile da misurare onestamente con un singolo numero. Ma c’è un settore che questo problema lo affronta seriamente da più di trent’anni: il supercalcolo scientifico classico, e la sua classifica più famosa, il TOP500.

TOP500 classifica i supercomputer del mondo non in base al picco teorico dichiarato dal produttore, ma in base a Rmax: la performance effettivamente misurata facendo girare un benchmark standardizzato (LINPACK/HPL) che risolve un sistema di equazioni lineari, sempre in doppia precisione (FP64), sempre nello stesso modo per tutti i sistemi in gara. È esattamente l’MFU di cui parlavamo, applicato con rigore quasi accademico. Gli stessi curatori della classifica, sul loro sito, spiegano la scelta con parole che meriterebbero di essere incollate su ogni comunicato stampa del settore AI: usare la performance di picco al posto di un benchmark misurato non avrebbe alcun senso — e aggiungono che il loro ranking viene spesso fraintenso, perché chi non è esperto tende a vederlo come un giudizio valido per qualunque applicazione, cosa che non è vera.

La cosa più interessante, però, è un’altra: TOP500 non ha mai scelto i FLOPS al posto dell’efficienza energetica. Dal 2009 esiste il Green500, che classifica gli stessi 500 sistemi non per potenza assoluta ma per quanta performance erogano per ogni Watt consumato (in Gigaflops/Watt). Due classifiche complementari, ciascuna per la domanda a cui risponde meglio: una dice quanto calcolo puro fa un sistema, l’altra quanto è efficiente nel farlo. Nessuna delle due sostituisce l’altra.

Il mondo del supercalcolo ha risolto decenni fa, con onestà tecnica, esattamente il problema che oggi attanaglia il dibattito sull’AI: non si scelgono i Watt o i FLOPS, si usano entrambi, ciascuno per quello che sa dire davvero.

La sintesi: servono tre numeri, non uno

Mettendo insieme tutto quello che abbiamo visto, possiamo finalmente rispondere alla domanda di partenza. I GW non sono una misura “sbagliata”: rispondono in modo legittimo, e tutt’altro che arbitrario, alla domanda “quanto è grande l’impegno infrastrutturale ed energetico di questo progetto”. Il problema è che vengono usati come se rispondessero a una domanda completamente diversa — “quanto è potente, o quanto è intelligente, questa AI” — a cui semplicemente non possono rispondere da soli.

Per avere un quadro onesto servirebbero tre livelli, non uno:

I GW dicono quanto è grande l’investimento e dove si trova il collo di bottiglia infrastrutturale del momento.
Il calcolo effettivamente realizzato (non il picco dichiarato, ma performance misurata con benchmark standardizzati come MLPerf, l’equivalente AI del LINPACK) dice quanto lavoro computazionale concreto può svolgere un sistema.
I benchmark di capacità — test diretti su cosa il modello sa effettivamente fare — dicono quanto è davvero capace l’AI che ne risulta.

La parte più curiosa di tutta questa storia è che il secondo livello, quello tecnicamente più corretto, esiste già: MLPerf non misura i FLOPS di picco, ma il tempo necessario per raggiungere una soglia di qualità prestabilita su un compito standardizzato — un approccio molto più onesto dei semplici numeri di marketing. Eppure quasi nessun titolo di giornale lo cita, mentre i GW finiscono ovunque.

Il motivo, credo, non è tecnico ma comunicativo: i GW sono un numero semplice, visivo, comprensibile anche senza alcuna competenza tecnica — “alimenta 800.000 case” si capisce all’istante, “abbiamo raggiunto il 47% di MFU su un benchmark MLPerf Training” no. Tra ciò che è facile da comunicare e ciò che è davvero informativo, nei titoli vince quasi sempre il primo.

Come leggere il prossimo annuncio da record

La prossima volta che leggerete “Azienda X costruisce un data center da N Gigawatt”, provate a tradurlo mentalmente così: è la scala dell’ambizione industriale e il segnale di dove sta il vero collo di bottiglia di oggi — non una misura della potenza di calcolo, e ancora meno dell’intelligenza che ne uscirà. E se vi capita di leggere “Y FLOPS” o “Y exaFLOPS”, prima di trattarlo come un numero comparabile chiedetevi: di picco o realizzati? A quale precisione? In addestramento o in inferenza?

Nessuno dei due numeri, da solo, vi dirà quanto sia davvero brava l’AI che ne risulta. Per quello, come per i supercomputer scientifici da trent’anni a questa parte, serve un terzo numero — e quello, purtroppo, non sta ancora nei titoli dei giornali.

Un numero che non mi convinceva

Le basi: cosa misurano davvero Watt e FLOPS

Il vero collo di bottiglia non sono (più) i chip

Il paradosso di Jevons: più efficienza, più fame di energia

Ma allora, i mega data center serviranno sempre?

Anche i FLOPS, da soli, sono meno onesti di quanto sembrino

Un problema già risolto altrove: la lezione di TOP500

La sintesi: servono tre numeri, non uno

Come leggere il prossimo annuncio da record

Reazioni nel fediverso

Commenti

Lascia un commento Annulla risposta

Altri articoli

Watt for FLOPS

Un’unica configurazione SSH per domarle tutte

Ignoranti certificati

Installazioni nascoste via Windows Update