🚨أصدرت شركة DeepSeek الصينية مؤخرا النموذج الوحيد مفتوح المصدر الذي يجيد الرياضيات بما يكفي للفوز بجائزة الذهب في رأيي، وتقرير لا بد من قراءته! الفكرة الأساسية مستمدة من ما تحدث عنه كارباتي وآخرون: تجاوز "الإجابة النهائية في التعلم الواقع" إلى حلقة مولد-مؤكد-ميتا-متحقق بلغة بحتة. – المتحقق مدرب في التعلم المعزز لتقييم البراهين. – يقوم المتحقق الميتا بفحص انتقادات المؤكد. – المولد مدرب على التعلم المعزز على إشارات مكافآت التحقق لكتابة والتحقق الذاتي من البراهين الأفضل. لأن كل شيء يعيش في اللغة الطبيعية (بدون لين)، يجب أن تمتد هذه الوصفة إلى العديد من المجالات القابلة للتحقق: العلم، الكود، أي مكان يكون فيه التحقق أسهل من الحل!