إذا اخترت الموت
للاستجابة على مستوى الكائن@TheZvi من الناحية التقنية، قد تكون DSA قفزة كبيرة تجعل سياقات مقياس الجوزاء رخيصة جدا، حتى للنماذج السابقة. المحاذير: - لسنا متأكدين *إذا* يتدرج إلى 1M+ (لكن V3.2 exp≥V3.1 رغم نفس التدريب المسبق، وV3.2>> خبرة، لذا من المرجح جدا نعم) - لسنا متأكدين كيف يمكن تدريبه دون أن ينتقل من الانتباه الكثيف. ربما يعرف DeepSeek ذلك. أعتقد أن V4 لن يستخدم DSA، فهو يسمى صراحة نموذج أولي. في أسوأ الحالات، من المنطقي أيضا أن تتدرب مسبقا بكامل انتباهك => تمديد = > تفرق، ستتحمل تكلفة أكبر في التدريب المسبق مقابل استنتاج أرخص دائما. - KDA من Kimi أو GDN+ من Qwen أو شيء مشابه قد يكون أفضل حتى من DSA+/NSA+ أغير هذه التحفظات، هذا ليس تخفيض سعر مرتين، أنا أتكلم بسخرية. بل 10 مرات. الاهتمام البسيط الذي لا يتدهور أمر مهم جدا. بالنسبة للسرعة، الأمر فارغ من منظور النموذج. DeepSeek غير مهتمة بتقديم أفضل منتج. يقدمون دفعات ضخمة من H800/Ascends. يمكنك وضعه على الأجهزة الأمريكية والحصول على 60-150 طن/ثانية، أو على Cerebras والحصول على سرعة 1000 طن/ثانية مثل GLM، دون أن ترفع التكلفة. هذه البنية سريعة بطبيعتها (سطحية، واهتمام رخيص)، لكن DeepSeek تخدمها ببطء. أما في الذكاء الحدودي، فأنا أقول إن هذه المزايا «الاستهلاك» للحدود – الترميز الوكيل بشكل رئيسي، لكن يمكنك تغطية مجالات أكثر بنفس الطريقة – هي نتيجة الإنفاق الحوسبي على خطوات التعلم المعزز والتكرار عبر البيئات الاصطناعية. لديهم الوصفة. يذكرون أن ≈10٪ من تكلفة التدريب المسبق تنفق على Speciale. هذا ≈ 600 ألف دولار. يقال إن Grok 4 استخدم 100٪ من Grok 3، أي مئات الملايين. من الواضح أنه كان غير فعال جدا مع Grok، لكن أعتقد أن DeepSeek يمكن أن يصل إلى 100٪ بسهولة، الوصفة معروفة. من المحتمل أنهم لا يريدون إهدارها على قاعدة قديمة، لأنهم يلاحظون أنها لا تزال تعاني من عنق زجاجة معرفة. أجد الموقف الساذج تجاه أداء الرياضيات حسب تقييمي (أو حل مسائل إردوس صفرا لدرجة أن الحل البشري يقول «نعم، هذا هو حلي أساسا») مضحكا. ألم يكن من المفترض أن نتوقع جميعا الذكاء الاصطناعي العام من أبحاث الرياضيات المستقلة؟ أم أن الأمر أصبح الآن مجرد برمجة؟ وبشكل متوقع، هذه هي القدرة الأكثر إثارة للاهتمام لتقدير سرعات الإقلاع. لكن مهما يكن، أنا أؤمن أن الانطلاق البطيء، فإن تحسين الذات ستواجه مشاكل لوجستية مهما بدأنا. المساهمة الرئيسية هنا، كما قلت، هي أنهم يعلنون عن الاعتقاد بأنهم في الأساس حلوا تدريب نماذج اللغة الطويلة الرائدة في أواخر 2025 كبرنامج بحثي، ويمكنهم الوصول إلى المستوى الغربي الحالي أو أبعده بمجرد إضافة المزيد من الحوسبة (بالإضافة إلى تعديلات طفيفة على كفاءة الرموز). نظريا، يمكن تفسير إعلانهم عن التوجه إلى تدريب واسع النطاق في النهاية على أنه «وهذا ما نفعله الآن». لكن ذلك لا يزال متوقعا.
@TheZvi > رغم أن التدريب المسبق متطابق وبعد التدريب، التصحيح
‏‎3.3‏K