Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Me encanta la expresión “comida para el pensamiento” como una capacidad cognitiva concreta y misteriosa que los humanos experimentan, pero que los LLM no tienen equivalente.
Definición: “algo que vale la pena pensar o considerar, como una comida mental que nutre tu mente con ideas, percepciones o cuestiones que requieren una reflexión más profunda. Se utiliza para temas que desafían tu perspectiva, ofrecen una nueva comprensión o te hacen reflexionar sobre preguntas importantes, actuando como una estimulación intelectual.”
Así que en el lenguaje de los LLM, es una secuencia de tokens que, cuando se utiliza como indicación para una cadena de pensamiento, las muestras son gratificantes para atender, a través de alguna función de recompensa intrínseca aún no descubierta. Obsesionado con qué forma toma. Comida para el pensamiento.
154
Publicación rápida: Calificación automática de discusiones de Hacker News de hace una década con retrospectiva
Tomé todos los 930 artículos y discusiones de la portada de Hacker News de diciembre de 2015 y le pedí a la API de Pensamiento GPT 5.1 que hiciera un análisis retrospectivo para identificar los comentarios más y menos premonitorios. Esto tomó aproximadamente 3 horas para codificar y alrededor de 1 hora y $60 para ejecutar. La idea fue inspirada por el artículo de HN de ayer donde se le pidió a Gemini 3 que alucinara la portada de HN una década hacia adelante.
Más en general:
1. el análisis retrospectivo siempre me ha fascinado como una forma de entrenar tu modelo de predicción hacia adelante, así que leer los resultados es realmente interesante y
2. vale la pena contemplar cómo será cuando las megamentes de LLM del futuro puedan hacer este tipo de trabajo mucho más barato, rápido y mejor. Cada pequeño bit de información que contribuyas a internet puede (y probablemente será) examinado en gran detalle si es "gratis". De ahí también mi tweet anterior de hace un tiempo - "sé bueno, los futuros LLM están observando".
Felicidades a las 10 cuentas principales pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth y johncolanduoni - GPT 5.1 Pensamiento encontró que sus comentarios eran los más perspicaces y premonitorios de todos los comentarios de HN en diciembre de 2015.
Enlaces:
- Muchos más detalles en mi publicación de blog
- Repositorio de GitHub del proyecto si deseas jugar
- Las páginas de resultados reales para tu placer de lectura

668
En el episodio de hoy de horror de programación...
En la documentación de Python sobre random.seed() se nos dice
"Si a es un int, se utiliza directamente." [1]
Pero si siembras con 3 o -3, en realidad obtienes el mismo objeto rng, produciendo las mismas secuencias. (TIL). En nanochat estaba usando el signo como una (lo que pensé que era) forma ingeniosa de obtener diferentes secuencias de rng para las divisiones de entrenamiento/prueba. Por lo tanto, un error complicado porque ahora train=test.
Encontré el código de CPython responsable en cpython/Modules/_randommodule.c [2], donde en la línea 321 vemos en un comentario:
"Este algoritmo depende de que el número sea sin signo. Así que: si el argumento es un PyLong, usa su valor absoluto." seguido de
n = PyNumber_Absolute(arg);
que llama explícitamente a abs() en tu semilla para hacerla positiva, descartando el bit de signo.
Pero este comentario también es en realidad incorrecto/misleading. En el fondo, Python llama al algoritmo Mersenne Twister MT19937, que en el caso general tiene 19937 bits de estado (no cero). Python toma tu int (u otros objetos) y "distribuye" esa información a través de estos bits. En principio, el bit de signo podría haberse utilizado para aumentar los bits de estado. No hay nada en el algoritmo que "depende de que el número sea sin signo". Se tomó la decisión de no incorporar el bit de signo (lo cual, en mi opinión, fue un error). Un ejemplo trivial podría haber sido mapear n -> 2*abs(n) + int(n < 0).
Finalmente, esto nos lleva al contrato de random de Python, que tampoco está completamente especificado en la documentación. El contrato que se menciona es que:
semilla igual => secuencia igual.
Pero no se garantiza que diferentes semillas produzcan diferentes secuencias. Así que, en principio, Python no promete que, por ejemplo, seed(5) y seed(6) sean flujos de rng diferentes. (Aunque esto se asume comúnmente de manera implícita en muchas aplicaciones). De hecho, vemos que seed(5) y seed(-5) son flujos idénticos. Y probablemente no deberías usarlos para separar tus comportamientos de entrenamiento/prueba en aprendizaje automático. Uno de los más divertidos errores de programación que he encontrado recientemente. Nos vemos en el próximo episodio.
[1]
[2]

498
Parte superior
Clasificación
Favoritos
