Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 podría ser la primera vez que el artefacto exacto recibió tres informes técnicos diferentes: original, artículo de *Nature* y una revisión completa. Aquí se explican muchas técnicas, infra, prompts... ¿Pero el mayor ganador? @TheZvi! De hecho, *son* conscientes de que la seguridad existe.


7 ene, 15:39
El artículo de DeepSeek-R1 se actualizó hace 2 días, ampliándose de 22 a 86 páginas y añadiendo una cantidad considerable de detalle.
El nuevo contenido aborda temas como la autoevolución de DeepSeek-R1-Zero, la evaluación de DeepSeek-R1, análisis adicionales y la destilación de DeepSeek-R1.
DeepSeek-R1: Incentivando la capacidad de razonamiento en LLMs mediante aprendizaje por refuerzo
Papel:


El 31 de enero, @EpochAIResearch hizo una estimación de los costes de RL que pasó a R1. Desde el artículo de Nature sabíamos que eso era 3 veces el presupuesto total. ¿Equivocado en qué exactamente?
- Se supone que lote = 1024 & Tamaño del grupo = 64, como en DeepSeekMath. De verdad: B=512, G=16.
- solo 1700 pasos para R1.


@EpochAIResearch por supuesto @EgeErdil2 está bien calibrado y es epistémicamente cuidadoso, así que sabía exactamente lo que probablemente iba a pasar

@EpochAIResearch @EgeErdil2 creo que lo que hizo mal Ege fue subestimar que dejaron muy claro que no tuvo éxito en modelos pequeños (ahora comparten más detalles; la versión previa de r1 probablemente fue Qwen2.5-32B). Ergo V3 era mucho más eficiente en muestreo.
Un nivel meta previo es más interesante. ¿Iban atrasados?


823
Populares
Ranking
Favoritas
