Ilya a clarifié et complété le contenu de son interview dans un tweet : > Il y a un point que je n'ai pas expliqué clairement dans l'interview, je vais le compléter : > Continuer à scaler de la manière actuelle — en empilant la puissance de calcul, les données et l'environnement d'entraînement — apportera certainement des améliorations. Cela ne s'arrêtera pas, cela continuera à s'améliorer. > Cependant, il manquera toujours quelque chose d'important. C'est pour corriger un malentendu possible. Dans l'interview, il a dit beaucoup de choses comme « revenir à l'ère de la recherche » et « la méthode actuelle va rencontrer un mur », ce qui peut facilement amener à penser qu'il est pessimiste sur la loi de scaling, et que continuer à empiler la puissance de calcul, les données et l'entraînement RL échouera. Il a dit que ce n'était pas ce qu'il voulait dire, que le chemin actuel continuera à apporter des améliorations, qu'il ne s'arrêtera pas. Le modèle continuera à devenir plus fort, les benchmarks continueront à augmenter, les produits continueront à évoluer, et l'entreprise continuera à gagner de l'argent. Notez le « cependant » à la fin. Il y a certaines choses que vous ne pouvez pas obtenir peu importe comment vous scalez. C'est comme si vous vous entraîniez au sprint. Si vous continuez à vous entraîner, vos performances vont encore s'améliorer, passant de 12 secondes à 11,5 secondes, puis à 11 secondes, voire 10,9 secondes. C'est un véritable progrès. Mais si votre objectif est d'apprendre à voler, peu importe à quelle vitesse vous courez, cela ne sert à rien, cela nécessite des capacités complètement différentes. Qu'est-ce qui manque ? En lien avec le contenu de l'interview, cette "importante lacune" fait probablement référence à : 1. La véritable capacité de généralisation Ce n'est pas d'être capable de faire de nombreuses tâches après un entraînement sur des données massives, mais d'apprendre rapidement de nouvelles choses à partir de peu d'expérience, et que ce qui a été appris soit stable et fiable dans de nouveaux contextes. 2. L'apprentissage efficace Les humains apprennent à conduire en 10 heures, et peuvent travailler après quelques mois de programmation. Cette efficacité ne peut pas être obtenue par un pré-entraînement sur des données massives. L'analogie des "deux étudiants" dans l'interview illustre bien le problème. Un étudiant qui passe 10 000 heures à résoudre des problèmes peut effectivement continuer à améliorer ses performances en compétition, passant du top 10 % au top 1 % puis au championnat, c'est un véritable progrès. Mais il ne pourra jamais devenir cet étudiant qui montre une "compréhension" après seulement 100 heures d'entraînement.