Ilya esclareceu e acrescentou ao conteúdo da entrevista: > Há um ponto na entrevista que não deixei claro, gostaria de acrescentar: > Continuar escalando da forma atual – poder de processamento de heap, heap data, ambiente de treinamento de heap – certamente trará melhorias. Não vai estagnar e vai continuar melhorando. > No entanto, sempre haverá algo importante que será um lado negativo. Isso está corrigindo um possível mal-entendido. Na entrevista, ele disse muitas palavras como "voltando à era da pesquisa" e "os métodos atuais vão bater em uma parede", o que faz as pessoas pensarem que ele está criticando uma lei ruim de escalonamento e que continuar acumulando poder computacional, dados e treinamento em RL será ineficaz. Ele disse que não era isso que ele quis dizer, e que o caminho atual continuará trazendo melhorias e não estagnará. O modelo continuará a se fortalecer, o benchmark continuará subindo, o produto continuará a iterar e a empresa continuará a lucrar. Preste atenção no "mas" no final Há coisas que você não consegue em grande escala. É como se você estivesse correndo de velocidade. Se você continuar treinando, seu desempenho vai melhorar, de 12 segundos para 11,5 segundos, para 11 segundos, ou até mesmo 10,9 segundos. Isso é um progresso real. Mas se seu objetivo é aprender a voar, não importa o quão rápido você corra, isso exige uma habilidade completamente diferente. O que está faltando? Combinado com o conteúdo da entrevista, essa "falta importante" deve se referir a: 1. Verdadeira capacidade de generalização Não é que você possa fazer muitas tarefas após treinar com dados massivos, mas você pode aprender coisas novas rapidamente com pouca experiência, e o que aprende é estável e confiável em novos cenários. 2. Aprendizagem eficiente Antropologia pode trabalhar em 10 horas dirigindo e aprendendo programação em alguns meses. Essa eficiência não pode ser obtida pré-treinando dados massivos. A analogia dos "dois estudantes" na entrevista é muito reveladora. Alunos que revisam 10.000 horas de perguntas podem, de fato, continuar melhorando seu desempenho em competições, do top 10% ao top 1% e ao campeão, que é um progresso real. Mas ele nunca se tornará o aluno que demonstra "compreensão" após apenas 100 horas de prática.