Modelo de razonamiento universal Los Transformadores Universales aplastan a los Transformers estándar en tareas de razonamiento. ¿Pero por qué? Trabajos previos atribuyeron los avances a elaboradas innovaciones arquitectónicas como diseños jerárquicos y mecanismos complejos de portería. Pero estos investigadores encontraron una explicación más sencilla. Esta nueva investigación demuestra que las mejoras de rendimiento en ARC-AGI provienen principalmente de dos factores a menudo pasados por alto: el sesgo inductivo recurrente y la fuerte no linealidad. Aplicar una sola transformación repetidamente funciona mucho mejor que apilar capas distintas para tareas de razonamiento. Con solo 4x parámetros, un transformador universal alcanza un 40% pass@1 sobre ARC-AGI 1. Los Transformers vanilla con parámetros 32x obtienen solo un 23,75%. Simplemente escalar la profundidad o el ancho en los transformadores estándar produce rendimientos decrecientes e incluso puede degradar el rendimiento. Introducen el Modelo de Razonamiento Universal (URM), que lo mejora con dos técnicas. Primero, ConvSwiGLU añade una convolución corta en profundidad tras la expansión MLP, inyectando mezcla local de tokens en la vía no lineal. En segundo lugar, la retropropagación truncada a través de bucles omite el cálculo de gradientes para iteraciones recurrentes tempranas, estabilizando la optimización. Resultados: 53,8% pass@1 en ARC-AGI 1, frente al 40% (TRM) y 34,4% (HRM). En ARC-AGI 2, la URM alcanza el 16% pass@1, casi triplicando la frecuencia cardíaca y más que duplicando la TRM. La precisión del sudoku alcanza el 77,6%. Ablaciones: - Eliminar la convolución corta pass@1 cae del 53,8% al 45,3%. Eliminar la retropropagación truncada la reduce al 40%. - Sustituir el SwiGLU por activaciones más sencillas como el rendimiento de los tanques ReLU al 28,6%. - Eliminar la atención softmax colapsa completamente la precisión al 2%. La estructura recurrente convierte el cálculo en profundidad efectiva. Los transformadores estándar gastan FLOPs en refinamiento redundante en capas superiores. La computación recurrente concentra el mismo presupuesto en el razonamiento iterativo. El razonamiento complejo se beneficia más de la computación iterativa que de la escala. Los modelos pequeños con estructura recurrente superan a los grandes modelos estáticos en tareas que requieren abstracción de varios pasos.