Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

DeepSeek R1 podría ser la primera vez que el artefacto exacto recibió tres informes técnicos diferentes: original, artículo de *Nature* y una revisión completa. Aquí se explican muchas técnicas, infra, prompts... ¿Pero el mayor ganador? @TheZvi! De hecho, *son* conscientes de que la seguridad existe.

El 31 de enero, @EpochAIResearch hizo una estimación de los costes de RL que pasó a R1. Desde el artículo de Nature sabíamos que eso era 3 veces el presupuesto total. ¿Equivocado en qué exactamente? - Se supone que lote = 1024 & Tamaño del grupo = 64, como en DeepSeekMath. De verdad: B=512, G=16. - solo 1700 pasos para R1.

@EpochAIResearch por supuesto @EgeErdil2 está bien calibrado y es epistémicamente cuidadoso, así que sabía exactamente lo que probablemente iba a pasar

@EpochAIResearch @EgeErdil2 creo que lo que hizo mal Ege fue subestimar que dejaron muy claro que no tuvo éxito en modelos pequeños (ahora comparten más detalles; la versión previa de r1 probablemente fue Qwen2.5-32B). Ergo V3 era mucho más eficiente en muestreo. Un nivel meta previo es más interesante. ¿Iban atrasados?

823

Populares

Ranking

Favoritas