Un trilione di token al giorno. È tanto? “E quando guardiamo da vicino solo al numero di token serviti dalle API di Foundry, abbiamo elaborato oltre 100t token in questo trimestre, con un aumento di 5 volte rispetto all'anno precedente, inclusi un record di 50t token solo il mese scorso.” Ad aprile, Microsoft ha condiviso una statistica, rivelando che il loro prodotto Foundry sta elaborando circa 1,7t token al mese. Ieri, Vipul ha condiviso che sta elaborando 2t di inferenza open-source al giorno. A luglio, Google ha annunciato un numero straordinario: “Durante l'I/O di maggio, abbiamo annunciato che abbiamo elaborato 480 trilioni di token mensili attraverso le nostre superfici. Da allora abbiamo raddoppiato quel numero, ora elaborando oltre 980 trilioni di token mensili, un aumento notevole.” Google elabora 32,7t al giorno, 16 volte di più rispetto a Together e 574 volte di più rispetto al volume di aprile di Microsoft Foundry. Da queste cifre, possiamo trarre alcune ipotesi: 1. L'inferenza open-source è una frazione a una cifra dell'inferenza. Non è chiaro quale frazione dei token di inferenza di Google provenga dai loro modelli open source come Gemma. Ma, se assumiamo che Anthropic e OpenAI siano 5t-10t token al giorno e tutti closed-source, più Azure è grossomodo simile in dimensioni, allora l'inferenza open-source è probabilmente intorno all'1-3% dell'inferenza totale. 2. Gli agenti sono agli inizi. Il dato di Microsoft suggerisce che gli agenti all'interno di GitHub, Visual Studio, Copilot Studio e Microsoft Fabric contribuiscono a meno dell'1% dell'inferenza AI complessiva su Azure. 3. Con Microsoft che si prevede investirà 80 miliardi di dollari rispetto agli 85 miliardi di dollari di Google in infrastrutture di data center AI quest'anno, i carichi di lavoro di inferenza AI di ciascuna azienda dovrebbero aumentare significativamente sia attraverso l'hardware che entra in funzione sia attraverso miglioramenti algoritmici. “Solo attraverso l'ottimizzazione del software, stiamo fornendo il 90% in più di token per lo stesso GPU rispetto a un anno fa.” Microsoft sta spremendo più limonata digitale dai loro GPU e Google deve anche fare qualcosa di simile. Quando vedremo i primi 10t o 50t di token AI elaborati al giorno? Non può essere lontano ora. - Stime da un'idea! - Google e Azure a 33t token al giorno ciascuno, Together e 5 altri neocloud a circa 2t token al giorno ciascuno, e Anthropic e OpenAI a 5t token al giorno, ci danno 88t token al giorno. Se assumiamo che il 5% dei token di Google provenga da modelli open-source, sono 1,65t token al giorno, o circa l'1,9% dell'inferenza totale. Di nuovo, matematica molto approssimativa.