.@RichardSSutton, pai do aprendizado por reforço, não acha que os LLMs estão impregnados pela lição amarga. Meu argumento mais forte sobre a posição de Richard: precisamos de uma nova arquitetura para permitir o aprendizado contínuo (no trabalho). E se tivermos aprendizado contínuo, não precisamos de uma fase de treinamento especial - o agente aprende em tempo real - como todos os humanos e, de fato, como todos os animais. Esse novo paradigma tornará nossa abordagem atual com os LLMs obsoleta. Fiz o meu melhor para representar a visão de que os LLMs funcionarão como a base sobre a qual esse aprendizado experiencial pode acontecer. Algumas faíscas voaram. 0:00:00 – Os LLMs são um beco sem saída? 0:13:51 – Os humanos fazem aprendizado por imitação? 0:23:57 – A Era da Experiência 0:34:25 – As arquiteturas atuais generalizam mal fora da distribuição 0:42:17 – Surpresas no campo da IA 0:47:28 – A Lição Amarga ainda se aplicará após a AGI? 0:54:35 – Sucessão para a IA
Procure o Dwarkesh Podcast no YouTube, Apple Podcasts, Spotify, etc. para assistir lá e se inscrever para futuros episódios.
893,32K