Greptile ha appena pubblicato un rapporto intitolato "Stato dell'AI nella programmazione 2025", questa azienda si occupa di revisione del codice AI, con clienti che vanno da startup di successo come PostHog e Brex a aziende della Fortune 500. Circa un miliardo di righe di codice passano attraverso i loro sistemi ogni mese, quindi hanno a disposizione un bel po' di dati di prima mano. Ecco un estratto di una serie di numeri dal rapporto: il numero di righe di codice prodotte dai programmatori ogni mese è aumentato da 4.450 a 7.839 righe, con un incremento del 76%. Anche il volume delle PR è in crescita, con la mediana che passa da 57 a 76 righe. L'aumento nei team di medie dimensioni è ancora più impressionante, raggiungendo l'89%. In realtà, ho già criticato in passato molte persone che amano misurare la produttività in base al numero di righe di codice, perché il codice non è un asset, ma un debito; più codice significa più difficoltà nella manutenzione, e un aumento del codice generato dall'AI implica anche una maggiore difficoltà nella manutenzione e più bug. La distribuzione dei profitti degli strumenti di programmazione AI è estremamente disomogenea. In progetti con una buona copertura dei test e confini dei moduli chiari, l'AI è un grande aiuto. Ma in sistemi legacy complessi, dove è necessaria una profonda conoscenza del dominio, il suo aiuto è limitato e può addirittura risultare controproducente. Ma in ogni caso, è un dato di fatto che l'AI ha già causato un'inflazione del codice. Se l'AI ha aumentato il numero di righe di codice, la qualità è migliorata? Purtroppo il rapporto non affronta questa questione, dato che è facile contare le righe di codice, ma misurare la qualità del codice è molto più difficile. I dati nel rapporto sono comunque interessanti da esaminare. Per quanto riguarda l'ecosistema degli strumenti, il mercato dei database vettoriali è attualmente molto competitivo, con Weaviate che guida con una quota del 25%, ma ci sono sei o sette aziende che seguono con quote tra il 10% e il 25%, senza che si sia ancora delineato un vincitore. Nel pacchetto di memoria AI, mem0 rappresenta il 59%, nettamente in testa. Per quanto riguarda i file di regole, CLAUDE .md è al primo posto con un tasso di adozione del 67%, il che indica che ci sono molti sviluppatori che utilizzano Claude per sviluppare agenti di programmazione. La tendenza nel numero di download degli SDK è ancora più interessante. OpenAI è ancora assolutamente in testa, con 130 milioni di download al mese. Ma la crescita di Anthropic è sorprendente, passando da un aumento di 1547 volte da aprile 2023 a oggi, stabilizzandosi ora a 43 milioni. Il rapporto di download tra OpenAI e Anthropic è passato da 47:1 all'inizio del 2024 a 4.2:1 attualmente. Il GenAI SDK di Google è ancora a 13.6 milioni, con un evidente ritardo. Nella parte di confronto delle prestazioni dei modelli, sono stati testati GPT-5.1, GPT-5-Codex, Claude Sonnet 4.5, Claude Opus 4.5 e Gemini 3 Pro. Ci sono alcuni risultati degni di nota. Il tempo di risposta del primo token, i due modelli di Anthropic sono tutti sotto i 2.5 secondi, mentre gli altri tre richiedono più del doppio. Non sottovalutare questi pochi secondi: in uno scenario di programmazione interattiva, se il tempo di attesa è lungo, perdi il filo del discorso e devi riprendere il ritmo. Per quanto riguarda la capacità di elaborazione, i due modelli di OpenAI sono i più veloci, con una mediana che può arrivare a 60-70 tokens/secondo. Anthropic si attesta tra 17-20, mentre Gemini è solo a 4-5. Ma un'elevata capacità di elaborazione non significa tutto, bisogna anche considerare se il tuo scenario d'uso richiede davvero quella velocità. Nel confronto dei costi, prendendo GPT-5 Codex come base fissata a 1x, anche GPT-5.1 è 1x, Gemini 3 Pro è 1.4x, Claude Sonnet 4.5 è 2x, e Claude Opus 4.5 è 3.3x. I modelli di Anthropic sono chiaramente più costosi, ma molti utenti ritengono che la qualità del codice sia migliore e sono disposti a pagare per questo. Alla fine del rapporto viene presentata una serie di ricerche recenti, tra cui l'architettura MoE di DeepSeek-V3, il compromesso tra contesto lungo e RAG, il framework dell'agente di memoria costante MEM1, ecc. Questa parte sembra più una lista di lettura per sviluppatori professionisti, quindi non la approfondisco.