المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
البناء مع وكلاء الذكاء الاصطناعي @dair_ai • السابق: Meta الذكاء الاصطناعي ، Galactica LLM ، Elastic ، PaperswithCode ، دكتوراه • أشارك الأفكار حول كيفية البناء مع LLMs & الذكاء الاصطناعي Agents ⬇️
نموذج التفكير الشامل
المحولات العالمية تتفوق على المحولات القياسية في مهام التفكير.
لكن لماذا؟
وقد نسب العمل السابق هذه المكاسب إلى الابتكارات المعمارية المعقدة مثل التصاميم الهرمية وآليات البوابات المعقدة.
لكن هؤلاء الباحثين وجدوا تفسيرا أبسط.
تظهر هذه الأبحاث الجديدة أن المكاسب في الأداء في ARC-AGI تأتي أساسا من عاملين غالبا ما يتم تجاهلهما: التحيز الاستقرائي المتكرر وعدم الخطية القوية.
تطبيق تحويل واحد بشكل متكرر يعمل بشكل أفضل بكثير من تكديس طبقات مميزة لمهام التفكير.
مع وجود 4x فقط من المعلمات، يحقق المحول الشامل 40٪ pass@1 على ARC-AGI 1. ترانسفورمرز فانيلا مع 32x معلمات تحصل فقط على 23.75٪. مجرد توسيع العمق أو العرض في المحولات القياسية يعطي عوائد متناقصة وقد يؤدي حتى إلى تدهور الأداء.
يقدمون نموذج التفكير الشامل (URM)، الذي يعزز ذلك بتقنيتين. أولا، يضيف ConvSwiGLU التفافا قصيرا عميقا بعد توسعة MLP، حيث يضخ خلط الرموز المحلية في المسار غير الخطي. ثانيا، يتجاوز الانتشار العكسي المقتطع عبر الحلقات حسابات التدرج للتكرارات المتكررة المبكرة، مما يثبت التحسين.
النتائج: 53.8٪ pass@1 على ARC-AGI 1، ارتفاعا من 40٪ (TRM) و34.4٪ (HRM). في ARC-AGI 2، يصل URM إلى 16٪ pass@1، أي ما يقرب من ثلاثة أضعاف معدل ضربات القلب وأكثر من ضعف TRM. دقة السودوكو تصل إلى 77.6٪.
الاستئصال:
- إزالة انخفاض الالتفاف القصير pass@1 من 53.8٪ إلى 45.3٪. إزالة الانتشار المقطوع ينخفض إلى 40٪.
- استبدال SwiGLU بتفعيلات أبسط مثل أداء خزانات ReLU بنسبة 28.6٪.
- إزالة الانتباه تماما، سيؤدي الدقة إلى 2٪.
يحول الهيكل المتكرر الحوسبة إلى عمق فعال. المحولات القياسية تنفق FLOPs على تحسين التكرار في الطبقات الأعلى. تركز الحوسبة المتكررة نفس الميزانية على التفكير التكراري.
يستفيد التفكير المعقد أكثر من الحوسبة التكرارية مقارنة بالحجم. النماذج الصغيرة ذات البنية المتكررة تتفوق على النماذج الثابتة الكبيرة في المهام التي تتطلب تجريدا متعدد الخطوات.

فهم الفيديو الطويل يكسر معظم نماذج اللغة الكبيرة متعددة الوسائط.
النهج الافتراضي لمعالجة الفيديوهات التي تستغرق ساعة هو ضغط المحتوى إلى ملخصات ضاعت أو تقليل العينات بشكل مكثف.
هذا ينقل عبء التفكير الزمني إلى مرحلة مبكرة لا رجعة فيها. تضيع الأدلة الدقيقة قبل أن يبدأ النموذج حتى في التفكير المنطقي.
لكن ماذا لو كان بإمكان النموذج أن يقرر بنشاط ما الذي يراقبه، ومتى يسأل عن التفاصيل، ومتى جمع أدلة كافية؟
يقدم هذا البحث الجديد LongVideoAgent، وهو إطار عمل متعدد الوكلاء حيث يقوم نموذج اللغة الكبير الرئيسي بتنسيق الوكلاء المتخصصين بدلا من ترميز كل شيء بشكل سلبي من البداية.
يتيح التفكير الفاكلي للنماذج التركيز على المقاطع ذات الصلة وجمع الأدلة المستهدفة بدلا من الأمل في بقاء المعلومات الصحيحة بعد الضغط.
تتكون البنية من ثلاثة مكونات. الوكيل الرئيسي يتولى التفكير ويقرر أي إجراء يجب اتخاذه في كل خطوة. يقوم عامل التأريض بتحديد مواقع المقاطع المتعلقة بالأسئلة ضمن الجدول الزمني الكامل للحلقة. يقوم وكيل الرؤية باستخراج الملاحظات المستهدفة من إطارات محددة داخل تلك الأجزاء.
يعمل الوكيل الرئيسي حتى K خطوة، ويصدر إجراء منظما واحدا فقط في كل دور: طلب التأريض، البحث عن تفاصيل بصرية، أو الإجابة. مخرجات كل إجراء تغذي سياق القرار التالي. عندما تتراكم الأدلة الكافية، يقدم السيد إجابة نهائية.
التعلم الواقعي يعلم العميل الرئيسي متى يستكشف ومتى يتوقف. يستخدم تدريب GRPO مكافأتين بسيطتين: الصلاحية الهيكلية للأفعال المكتملة جيدا وصحة الإجابة عند الانتهاء. هذا الهدف الأدنى يوجه التنسيق المنظم متعدد الأدوار دون إشراف مكثف.
في LongTVQA وLongTVQA+، وهما معايير على مستوى الحلقات المجمعة من TVQA، يتفوق النهج الوكلي باستمرار على الخطوط الأساسية غير الوكالية. قفز GPT5-mini من 62.4٪ إلى 71.1٪ مع إطار عمل الوكلاء المتعدد. تحسن Qwen2.5-3B من 23.5٪ إلى 47.4٪ بعد تدريب التعلم الواقعي، مما يضاعف تقريبا الأداء. حتى DeepSeek-R1-671B يحقق مكاسب من التصميم الوكئي.
التأريض وحده يتفوق على خط الأساس غير الوكيل عند 69.0٪ مقابل 64.3٪، وإضافة الرؤية تدفع الدقة إلى 74.8٪.
الورقة:
تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتنا:

2
"بشكل متزايد، لم يعد الكود هو عنق الزجاجة."
أنا مقتنع تماما أن كود كلود كان بالفعل لحظة فاصلة.
إنه بدائي لم يره المبرمجون من قبل.
إنه منسق ذكي قادر على البرمجة وما بعدها.
وما زال مجرد البداية.

Boris Cherny27 ديسمبر، 20:11
عندما أنشأت كود كلود كمشروع جانبي في سبتمبر 2024، لم أكن أعلم أنه سينمو ليصبح ما هو عليه اليوم. من الرائع رؤية كيف أصبح Claude Code أداة تطوير أساسية للعديد من المهندسين، ومدى حماس المجتمع، وكيف يستخدمه الناس في أشياء متنوعة من البرمجة، إلى DevOps، إلى البحث، إلى حالات الاستخدام غير التقنية. هذه التكنولوجيا غريبة وسحرية، وتجعل من السهل جدا على الناس البناء والإبداع. بشكل متزايد، لم يعد الكود هو عنق الزجاجة.
قبل عام، كان كلود يعاني من توليد أوامر الضرب دون الهروب من المشاكل. كان يعمل لثوان أو دقائق في كل مرة. رأينا علامات مبكرة على أنه قد يصبح مفيدا بشكل واسع في البرمجة يوما ما.
ننتقل إلى اليوم. خلال الثلاثين يوما الماضية، حصلت على 259 نقطة تاريخية — 497 التزاما، 40 ألف سطر أضيفت، 38 ألف خط أزيلت. كل سطر كتبه كلود كود + أوبوس 4.5. كلود يركض باستمرار لدقائق وساعات وأيام متتالية (باستخدام خطاطيف التوقف). هندسة البرمجيات تتغير، ونحن ندخل فترة جديدة في تاريخ البرمجة. وما زلنا في البداية..

80
الأفضل
المُتصدِّرة
التطبيقات المفضلة
