DeepSeek R1 podría ser la primera vez que el artefacto exacto recibió tres informes técnicos diferentes: original, artículo de *Nature* y una revisión completa. Aquí se explican muchas técnicas, infra, prompts... ¿Pero el mayor ganador? @TheZvi! De hecho, *son* conscientes de que la seguridad existe.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 ene, 15:39
El artículo de DeepSeek-R1 se actualizó hace 2 días, ampliándose de 22 a 86 páginas y añadiendo una cantidad considerable de detalle. El nuevo contenido aborda temas como la autoevolución de DeepSeek-R1-Zero, la evaluación de DeepSeek-R1, análisis adicionales y la destilación de DeepSeek-R1. DeepSeek-R1: Incentivando la capacidad de razonamiento en LLMs mediante aprendizaje por refuerzo Papel:
El 31 de enero, @EpochAIResearch hizo una estimación de los costes de RL que pasó a R1. Desde el artículo de Nature sabíamos que eso era 3 veces el presupuesto total. ¿Equivocado en qué exactamente? - Se supone que lote = 1024 & Tamaño del grupo = 64, como en DeepSeekMath. De verdad: B=512, G=16. - solo 1700 pasos para R1.
@EpochAIResearch por supuesto @EgeErdil2 está bien calibrado y es epistémicamente cuidadoso, así que sabía exactamente lo que probablemente iba a pasar
@EpochAIResearch @EgeErdil2 creo que lo que hizo mal Ege fue subestimar que dejaron muy claro que no tuvo éxito en modelos pequeños (ahora comparten más detalles; la versión previa de r1 probablemente fue Qwen2.5-32B). Ergo V3 era mucho más eficiente en muestreo. Un nivel meta previo es más interesante. ¿Iban atrasados?
823