Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Santo cielo… este documento podría ser el cambio más importante en cómo usamos los LLMs este año entero.
"Modelos Causales Grandes a partir de Modelos de Lenguaje Grandes."
Muestra que puedes desarrollar modelos causales completos directamente a partir de un LLM, no aproximaciones, no sensaciones, gráficos causales reales, contrafactuales, intervenciones y estructuras verificadas por restricciones.
Y la forma en que lo hacen es increíble:
En lugar de entrenar un modelo causal especializado, interrogan al LLM como un científico:
→ extraer un gráfico causal candidato del texto
→ pedir al modelo que verifique independencias condicionales
→ detectar contradicciones
→ revisar la estructura
→ probar contrafactuales y predicciones intervinientes
→ iterar hasta que el modelo causal se estabilice
El resultado es algo que nunca hemos tenido antes:
un sistema causal construido dentro del LLM utilizando su propio conocimiento latente del mundo.
A través de benchmarks sintéticos, del mundo real y dominios desordenados, estos LCMs superan a los métodos clásicos de descubrimiento causal porque aprovechan el enorme conocimiento previo del LLM en lugar de solo correlaciones locales.
¿Y el razonamiento contrafactual?
Sorprendentemente fuerte.
El modelo puede responder preguntas de "qué pasaría si" que los algoritmos estándar no pueden resolver, simplemente porque ya "sabe" cosas sobre el mundo que esos algoritmos no pueden inferir solo a partir de los datos.
Este documento insinúa un futuro donde los LLMs no son solo máquinas de patrones.
Se convierten en motores causales, sistemas que forman, prueban y refinan explicaciones estructurales de la realidad.
Si esto se escala, cada campo que depende de la inferencia causal, economía, medicina, política, ciencia, está a punto de ser reescrito.
Los LLMs no solo te dirán qué sucede.
Te dirán por qué.

28
Este artículo de DeepMind acaba de acabar silenciosamente con la mentira más reconfortante en la seguridad de la IA.
La idea de que la seguridad se trata de cómo se comportan los modelos la mayor parte del tiempo suena razonable. También es incorrecta en el momento en que los sistemas escalan. DeepMind muestra por qué los promedios dejan de importar cuando el despliegue alcanza millones de interacciones.
El artículo replantea la seguridad de la AGI como un problema de distribución. Lo que importa no es el comportamiento típico. Es la cola. Fallos raros. Casos extremos. Eventos de baja probabilidad que parecen ignorables en las pruebas pero se vuelven inevitables en el mundo real.
Los benchmarks, el red-teaming y las demostraciones muestrean todo el medio. El despliegue muestrea todo. Usuarios extraños, incentivos extraños, bucles de retroalimentación hostiles, entornos para los que nadie planeó. A gran escala, esos casos dejan de ser raros. Son garantizados.
Aquí está la incómoda percepción: el progreso puede hacer que los sistemas parezcan más seguros mientras los hace más peligrosos en silencio. Si la capacidad crece más rápido que el control de la cola, los fallos visibles disminuyen mientras el riesgo catastrófico se acumula fuera de la vista.
Dos modelos pueden parecer idénticos en promedio y aún así diferir enormemente en el comportamiento en el peor de los casos. Las evaluaciones actuales no pueden ver esa brecha. Los marcos de gobernanza suponen que pueden.
No puedes certificar la seguridad con pruebas finitas cuando el riesgo reside en el cambio de distribución. Nunca estás probando el sistema que realmente despliegas. Estás muestreando un futuro que no controlas.
Esa es la verdadera conclusión.
La seguridad de la AGI no es un atributo del modelo. Es un problema de sistemas. El contexto de despliegue, los incentivos, la monitorización y cuánto riesgo de cola la sociedad tolera importan más que promedios limpios.
Este artículo no tranquiliza. Elimina la ilusión.
La pregunta no es si el modelo generalmente se comporta bien.
Es qué sucede cuando no lo hace — y cuán a menudo se permite eso antes de que la escala lo haga inaceptable.
Artículo:

26
El estilo de prompting interno de Anthropic es completamente diferente de lo que la mayoría de la gente enseña.
Pasé 3 semanas analizando su documentación oficial, biblioteca de prompts y ejemplos de API.
Solo el 2% de los usuarios conocen el prompting estructurado en XML.
Aquí están todos los secretos que extraje 👇

26
Parte superior
Clasificación
Favoritos
