Greptile vient de publier un rapport sur l'état de la programmation AI en 2025. Cette entreprise se spécialise dans la révision de code AI, avec des clients allant de startups célèbres comme PostHog et Brex à des entreprises du Fortune 500. Environ un milliard de lignes de code passent par leur système chaque mois, donc ils disposent de nombreuses données de première main. Voici un extrait d'un ensemble de chiffres du rapport : le nombre de lignes de code produites par les développeurs chaque mois est passé de 4 450 à 7 839, soit une augmentation de 76 %. Le volume des PR (pull requests) a également augmenté, la médiane passant de 57 à 76 lignes. L'augmentation est encore plus marquée pour les équipes de taille moyenne, atteignant 89 %. En fait, j'ai déjà critiqué le fait que beaucoup de gens aiment mesurer la productivité en fonction du nombre de lignes de code, car le code n'est pas un actif mais un passif. Plus il y a de code, plus il est difficile à maintenir, et un code généré par AI en grande quantité signifie également qu'il est plus difficile à maintenir, avec plus de bugs. La répartition des bénéfices des outils de programmation AI est extrêmement inégale. Dans les projets qui ont déjà une bonne couverture de tests et des frontières de modules claires, l'AI est un atout. Mais dans des systèmes hérités complexes, nécessitant une connaissance approfondie du domaine, son aide est limitée, voire contre-productive. Quoi qu'il en soit, il est désormais un fait que l'AI provoque une inflation du code. L'AI a augmenté le nombre de lignes de code, mais la qualité s'est-elle améliorée ? Malheureusement, le rapport ne mentionne pas cette question, car il est facile de quantifier le nombre de lignes de code, mais il est difficile d'évaluer la qualité du code. Les données du rapport valent tout de même le coup d'œil. Concernant l'écosystème des outils, le marché des bases de données vectorielles est actuellement très concurrentiel, avec Weaviate en tête avec 25 % de part de marché, mais six ou sept autres entreprises se situent entre 10 % et 25 %, sans qu'un vainqueur ne se dégage encore. Dans le paquet de mémoire AI, mem0 représente 59 %, largement en tête. En ce qui concerne les fichiers de règles, CLAUDE .md est en tête avec un taux d'adoption de 67 %, ce qui montre qu'il y a effectivement de nombreux développeurs utilisant Claude pour créer des agents de programmation. La tendance des téléchargements de SDK est encore plus intéressante. OpenAI reste largement en tête, avec 130 millions de téléchargements par mois. Mais la croissance d'Anthropic est incroyable, passant de 1547 fois de plus depuis avril 2023, maintenant stable à 43 millions. Le ratio de téléchargements entre OpenAI et Anthropic est passé de 47:1 au début de 2024 à 4,2:1 aujourd'hui. Le SDK GenAI de Google est encore à 13,6 millions, avec un retard évident. En ce qui concerne la comparaison des performances des modèles, les tests ont été effectués sur GPT-5.1, GPT-5-Codex, Claude Sonnet 4.5, Claude Opus 4.5 et Gemini 3 Pro. Plusieurs découvertes méritent d'être notées. Le temps de réponse du premier token, les deux modèles d'Anthropic sont tous deux en dessous de 2,5 secondes, tandis que les trois autres prennent plus du double. Ne sous-estimez pas ces quelques secondes - dans un scénario de programmation interactive, si le temps d'attente est trop long, votre pensée se bloque et vous devez retrouver votre état d'esprit. En termes de débit, les deux modèles d'OpenAI sont les plus rapides, avec une médiane atteignant 60-70 tokens/seconde. Anthropic se situe entre 17 et 20, tandis que Gemini n'atteint que 4-5. Mais un débit élevé ne signifie pas tout, il faut aussi considérer si votre scénario d'utilisation nécessite vraiment une telle rapidité. Pour la comparaison des coûts, en prenant GPT-5 Codex comme référence à 1x, GPT-5.1 est également à 1x, Gemini 3 Pro est à 1,4x, Claude Sonnet 4.5 est à 2x, et Claude Opus 4.5 est à 3,3x. Les modèles d'Anthropic sont clairement plus chers, mais de nombreux utilisateurs estiment que la qualité du code est meilleure et sont prêts à payer pour cela. Le rapport se termine par une présentation d'une série de recherches récentes, y compris l'architecture MoE de DeepSeek-V3, le compromis entre long contexte et RAG, le cadre d'agent de mémoire constante MEM1, etc. Cette partie ressemble davantage à une liste de lecture pour les développeurs professionnels, je ne vais pas m'étendre.