Ilya fez uma clarificação e adição sobre o conteúdo da sua entrevista: > Há um ponto na entrevista que não expliquei claramente, vou complementar: > Continuar a escalar da maneira atual — acumulando poder computacional, dados e ambientes de treinamento — certamente trará melhorias. Não vai estagnar, vai continuar a melhorar. > No entanto, sempre faltará algo importante. Isto está corrigindo um possível mal-entendido. Na entrevista, ele disse muitas coisas como "voltar à era da pesquisa" e "o método atual vai encontrar um limite", o que pode fazer as pessoas pensarem que ele está pessimista em relação à lei de escalabilidade, achando que continuar a acumular poder computacional, dados e treinamento de RL será ineficaz. Ele disse que não é esse o caso, o caminho atual continuará a trazer melhorias, não vai estagnar. O modelo continuará a ficar mais forte, os benchmarks continuarão a subir, os produtos continuarão a iterar, e a empresa continuará a lucrar. Preste atenção ao "mas" no final. Há algumas coisas que você não consegue obter, não importa como escale. É como se você estivesse treinando para uma corrida de velocidade. Continuar a treinar, seu desempenho ainda vai melhorar, de 12 segundos para 11,5 segundos, depois para 11 segundos, até mesmo 10,9 segundos. Isso é um progresso real. Mas se seu objetivo é aprender a voar, não importa o quão rápido você corra, isso não vai ajudar, você precisa de habilidades completamente diferentes. O que está faltando? Com base no conteúdo da entrevista, essa "falta importante" deve se referir a: 1. Verdadeira capacidade de generalização Não é ser capaz de realizar muitas tarefas após treinar com uma quantidade massiva de dados, mas sim aprender rapidamente coisas novas a partir de poucas experiências, e que o que foi aprendido seja estável e confiável em novos cenários. 2. Aprendizado eficiente Os humanos aprendem a dirigir em 10 horas, e aprendem programação em alguns meses para poder trabalhar. Essa eficiência não pode ser obtida apenas com pré-treinamento em dados massivos. A analogia dos "dois estudantes" na entrevista ilustra bem o problema. Um estudante que estuda por dez mil horas realmente pode continuar a melhorar seu desempenho em competições, passando do top 10% para o top 1% até se tornar campeão, isso é um progresso real. Mas ele nunca se tornará aquele estudante que, após apenas 100 horas de prática, já demonstra "inteligência".