.@RichardSSutton, padre del aprendizaje por refuerzo, no cree que los LLM sean una amarga lección. Mi hombre de acero de la posición de Richard: necesitamos una nueva arquitectura para permitir el aprendizaje continuo (en el trabajo). Y si tenemos un aprendizaje continuo, no necesitamos una fase de entrenamiento especial: el agente simplemente aprende sobre la marcha, como todos los humanos y, de hecho, como todos los animales. Este nuevo paradigma hará que nuestro enfoque actual con los LLM sea obsoleto. Hice todo lo posible para representar la opinión de que los LLM funcionarán como la base sobre la cual puede ocurrir este aprendizaje experiencial. Algunas chispas volaron. 0:00:00 - ¿Son los LLM un callejón sin salida? 0:13:51 - ¿Los humanos aprenden por imitación? 0:23:57 - La era de la experiencia 0:34:25 - Las arquitecturas actuales generalizan mal fuera de la distribución 0:42:17 - Sorpresas en el campo de la IA 0:47:28 - ¿La amarga lección seguirá aplicándose después de AGI? 0:54:35 - Sucesión a la IA
Busque Dwarkesh Podcast en YouTube, Apple Podcasts, Spotify, etc. para verlo allí y suscribirse a futuros episodios.
464.76K