المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
البحث في @OpenAI المنطقي | شارك في إنشاء Libratus / Pluribus البوكر الخارق للذكاء الاصطناعي ، و CICERO Diplomacy الذكاء الاصطناعي ، و OpenAI o3 / o1 / 🍓 المنطق
في عام 2019 ، أرسل لي @hughbzhang رسالة بريد إلكتروني باردة شخصية مفصلة تطلب التدريب معي. لقد تأثرت بما كتبه وخلفيته ، لذلك وظفته كمقيم في الذكاء الاصطناعي لسنة الفجوة قبل دراسات العليا.
إذا تلقيت هذا البريد الإلكتروني اليوم ، فسأفترض أنه تم إنشاؤه بواسطة الذكاء الاصطناعي.

Paul Novosad5 نوفمبر، 03:41
ماذا يحدث عندما يبدأ المتقدمون للوظائف عبر الإنترنت في استخدام LLMs؟ إنه ليس جيدا.
1. قبل LLM ، تتنبأ جودة خطاب الغلاف بجودة عملك ، والتغطية الجيدة تحصل على وظيفة
2. LLMs تمحو الإشارة ، وينخفض طلب صاحب العمل
3. يشير النموذج إلى أن العمال ذوي القدرات العالية يخسرون أكثر من غيرهم
1/ن

86.88K
فيما يلي نظرة عميقة على سبب عمل اللعب الذاتي لألعاب محصلتها صفر (2p0s) المكونة من لاعبين مثل Go / Poker / Starcraft ولكن من الصعب جدا استخدامها في مجالات "العالم الحقيقي". TL; دكتور: يتقارب اللعب الذاتي مع MiniMax في ألعاب 2p0s ، و Minimax مفيد حقا في تلك الألعاب.
تحتوي كل لعبة محدودة 2p0s على توازن الحد الأدنى ، وهو في الأساس استراتيجية لا تقبل المنافسة في التوقعات (بافتراض أن اللاعبين يتناوبون الجانبين). في مقص الورق الصخري ، على سبيل المثال ، الحد الأدنى هو 1/3 في كل إجراء.
هل minimax ما نريد؟ ليس بالضرورة. إذا كنت تلعب minimax في Rock Paper Scissors عندما تكون معظم استراتيجيات الخصوم "دائما رمي الصخرة" ، فمن الواضح أنك دون المستوى الأمثل ، على الرغم من أنك لا تخسر في التوقعات. هذا مهم بشكل خاص في لعبة مثل البوكر لأن لعب minimax يعني أنك قد لا تجني الكثير من المال من اللاعبين الضعفاء قدر الإمكان إذا استغلتهم إلى أقصى حد.
لكن ضمان "لن تخسر في التوقعات" أمر جيد حقا. وفي ألعاب مثل Chess and Go ، فإن الفرق بين استراتيجية الحد الأدنى والاستراتيجية التي تستغل سكان الخصوم على النحو الأمثل لا يكاد يذكر. لهذا السبب ، يعتبر minimax عادة الهدف للعبة محصلتها صفر للاعبين. حتى في لعبة البوكر ، فإن الحكمة التقليدية بين أفضل المحترفين هي لعب minimax (نظرية اللعبة المثلى) ثم الانحراف فقط إذا اكتشفت نقاط ضعف واضحة في الخصم.
اللعب الذاتي الصوتي ، حتى من الصفر ، مضمون للتقارب إلى الحد الأدنى من التوازن في ألعاب 2p0s المحدودة. هذا مدهش! بمجرد توسيع نطاق الذاكرة والحوسبة ، وبدون بيانات بشرية ، يمكننا التقارب مع استراتيجية لا تقبل المنافسة في التوقعات.
ماذا عن الألعاب غير 2p0s؟ للأسف ، لم يعد اللعب الذاتي الخالص ، بدون بيانات بشرية ، مضمونا للتقارب مع استراتيجية مفيدة. يمكن رؤية ذلك بوضوح في لعبة الإنذار. يجب أن تقدم أليس لبوب 0-100 دولار. ثم يقبل بوب أو يرفض. إذا وافق بوب ، يتم تقسيم الأموال وفقا لاقتراح أليس. إذا رفض بوب ، يحصل كلاهما على 0 دولار.
تتمثل استراتيجية التوازن (على وجه التحديد ، التوازن المثالي للعبة الفرعية) في تقديم 1 بنس واحد وقبول بوب. لكن في العالم الحقيقي ، الناس ليسوا عقلانيين جدا. إذا جربت أليس هذه الإستراتيجية مع بشر حقيقيين ، فسينتهي بها الأمر بقليل جدا من المال. يصبح اللعب الذاتي غير مقيد بما نجده كبشر مفيدا.
اقترح الكثير من الناس ألعابا مثل "يقترح مدرس ماجستير في القانون مسائل رياضية صعبة ، ويحاول طالب ماجستير في القانون حلها" لتحقيق التدريب على اللعب الذاتي ، ولكن هذا يواجه مشاكل مماثلة للعبة Ultimatum حيث يكون التوازن غير مقيد بما نجده كبشر مفيدا.
ماذا يجب أن تكون مكافأة المعلم في مثل هذه اللعبة؟ إذا كانت 2p0s ، مكافأة المعلم إذا لم يتمكن الطالب من حل المشكلة ، لذلك سيطرح المعلم مشاكل مستحيلة. حسنا ، ماذا لو كافئناها على الطالب الذي حصل على معدل نجاح 50٪؟ ثم يمكن للمعلم أن يقلب عملة معدنية ويسأل الطالب عما إذا كانت قد هبطت على الرؤوس. أو يمكن للمعلم أن يطلب من الطالب فك تشفير رسالة عبر بحث شامل عن المفاتيح. يصبح تشكيل المكافأة لتحقيق السلوك المقصود تحديا كبيرا. هذه ليست مشكلة في ألعاب 2p0s.
أنا أؤمن باللعب الذاتي. إنه يوفر مصدرا لا حصر له للتدريب ، ويطابق باستمرار وكيلا مع نظير ماهر بنفس القدر. لقد رأينا أيضا أنه يعمل في بعض الإعدادات المعقدة غير 2p0s مثل الدبلوماسية و Hanabi. لكن تطبيقه خارج ألعاب 2p0s أصعب بكثير مما كان عليه بالنسبة ل Go و Poker و Dota و Starcraft.


Noam Brown21 أكتوبر 2025
يعمل اللعب الذاتي بشكل جيد في الشطرنج والذهاب والبوكر لأن هذه الألعاب عبارة عن لاعبين محصلتهم صفر. هذا يبسط الكثير من المشاكل. العالم الحقيقي أكثر فوضوية ، ولهذا السبب لم نر العديد من النجاحات من اللعب الذاتي في LLMs حتى الآن.
راجع للشغل @karpathy أدلى بعمل رائع وأنا أتفق معه في الغالب!
277.47K
يعمل اللعب الذاتي بشكل جيد في الشطرنج والذهاب والبوكر لأن هذه الألعاب عبارة عن لاعبين محصلتهم صفر. هذا يبسط الكثير من المشاكل. العالم الحقيقي أكثر فوضوية ، ولهذا السبب لم نر العديد من النجاحات من اللعب الذاتي في LLMs حتى الآن.
راجع للشغل @karpathy أدلى بعمل رائع وأنا أتفق معه في الغالب!

Dwarkesh Patel21 أكتوبر 2025
يقول .@karpathy أن LLMs تفتقر حاليا إلى التراكم الثقافي واللعب الذاتي الذي دفع البشر إلى الخروج من السافانا:
الثقافة: > "لماذا لا يستطيع ماجستير القانون كتابة كتاب لماجستير القانون الآخرين؟ لماذا لا يستطيع الباحثون الآخرون في القانون قراءة كتاب ماجستير القانون هذا والإلهام منه أو صدموا منه؟
اللعب الذاتي: > "إنه قوي للغاية. التطور لديه الكثير من المنافسة التي تقود الذكاء والتطور. تلعب AlphaGo ضد نفسها وهذه هي الطريقة التي تتعلم بها أن تصبح جيدة حقا في Go. لا يوجد ما يعادل اللعب الذاتي في LLMs. لماذا لا يستطيع LLM ، على سبيل المثال ، إنشاء مجموعة من المشكلات التي يتعلم LLM آخر حلها؟ ثم تحاول LLM دائما خدمة المزيد والمزيد من المشاكل الصعبة ".
سألت كارباثي لماذا لا يزال LLMs غير قادر بعد على بناء الثقافة بالطريقة التي يفعل بها البشر.
> "النماذج الغبية تشبه بشكل ملحوظ طالب رياض أطفال. [لا تزال أذكى العارضات تشعر] بطلاب المدارس الابتدائية. بطريقة ما ، ما زلنا لم نتخرج بما يكفي حيث يمكن [لهذه النماذج] تولي زمام الأمور. قانون كلود الخاص بي أو مخطوطة ، ما زالوا يشعرون وكأنهم طالب الصف الابتدائي. أعلم أنه يمكنهم إجراء اختبارات الدكتوراه ، لكنهم ما زالوا يشعرون معرفيا وكأنهم روضة أطفال ".
> "لا أعتقد أنهم يستطيعون خلق ثقافة لأنهم ما زالوا أطفالا. إنهم أطفال متمرسون. لديهم ذاكرة مثالية. يمكنهم إنشاء جميع أنواع الانحدار بشكل مقنع الذي يبدو جيدا حقا. لكنني ما زلت أعتقد أنهم لا يعرفون حقا ما يفعلونه. ليس لديهم حقا الإدراك عبر كل مربعات الاختيار الصغيرة هذه التي لا يزال يتعين علينا جمعها ".
320.95K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
