نموذج التفكير الشامل المحولات العالمية تتفوق على المحولات القياسية في مهام التفكير. لكن لماذا؟ وقد نسب العمل السابق هذه المكاسب إلى الابتكارات المعمارية المعقدة مثل التصاميم الهرمية وآليات البوابات المعقدة. لكن هؤلاء الباحثين وجدوا تفسيرا أبسط. تظهر هذه الأبحاث الجديدة أن المكاسب في الأداء في ARC-AGI تأتي أساسا من عاملين غالبا ما يتم تجاهلهما: التحيز الاستقرائي المتكرر وعدم الخطية القوية. تطبيق تحويل واحد بشكل متكرر يعمل بشكل أفضل بكثير من تكديس طبقات مميزة لمهام التفكير. مع وجود 4x فقط من المعلمات، يحقق المحول الشامل 40٪ pass@1 على ARC-AGI 1. ترانسفورمرز فانيلا مع 32x معلمات تحصل فقط على 23.75٪. مجرد توسيع العمق أو العرض في المحولات القياسية يعطي عوائد متناقصة وقد يؤدي حتى إلى تدهور الأداء. يقدمون نموذج التفكير الشامل (URM)، الذي يعزز ذلك بتقنيتين. أولا، يضيف ConvSwiGLU التفافا قصيرا عميقا بعد توسعة MLP، حيث يضخ خلط الرموز المحلية في المسار غير الخطي. ثانيا، يتجاوز الانتشار العكسي المقتطع عبر الحلقات حسابات التدرج للتكرارات المتكررة المبكرة، مما يثبت التحسين. النتائج: 53.8٪ pass@1 على ARC-AGI 1، ارتفاعا من 40٪ (TRM) و34.4٪ (HRM). في ARC-AGI 2، يصل URM إلى 16٪ pass@1، أي ما يقرب من ثلاثة أضعاف معدل ضربات القلب وأكثر من ضعف TRM. دقة السودوكو تصل إلى 77.6٪. الاستئصال: - إزالة انخفاض الالتفاف القصير pass@1 من 53.8٪ إلى 45.3٪. إزالة الانتشار المقطوع ينخفض إلى 40٪. - استبدال SwiGLU بتفعيلات أبسط مثل أداء خزانات ReLU بنسبة 28.6٪. - إزالة الانتباه تماما، سيؤدي الدقة إلى 2٪. يحول الهيكل المتكرر الحوسبة إلى عمق فعال. المحولات القياسية تنفق FLOPs على تحسين التكرار في الطبقات الأعلى. تركز الحوسبة المتكررة نفس الميزانية على التفكير التكراري. يستفيد التفكير المعقد أكثر من الحوسبة التكرارية مقارنة بالحجم. النماذج الصغيرة ذات البنية المتكررة تتفوق على النماذج الثابتة الكبيرة في المهام التي تتطلب تجريدا متعدد الخطوات.