المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
@EurekaLabsAI المباني. سابقا مدير الذكاء الاصطناعي @ Tesla ، الفريق المؤسس @ OpenAI ، CS231n / PhD @ ستانفورد. أحب تدريب الشبكات العصبية العميقة الكبيرة.
أحب التعبير "طعام للتفكير" كقدرة معرفية ملموسة وغامضة يختبرها البشر، لكن نماذج اللغة الكبيرة لا تملك ما يعادلها.
التعريف: "شيء يستحق التفكير فيه أو التفكير فيه، مثل وجبة ذهنية تغذي عقلك بأفكار أو رؤى أو قضايا تتطلب تفكرا أعمق. يستخدم في مواضيع تتحدى وجهة نظرك، أو تقدم فهما جديدا، أو تجعلك تفكر في أسئلة مهمة، وتعمل كتحفيز فكري."
لذا في مصطلحات LLM، هي تسلسل من الرموز بحيث عندما تستخدم كمحفز لسلسلة الأفكار، تكون العينات مجزية للحضور، عبر دالة مكافأة جوهرية لم تكتشف بعد. مهووس بالشكل الذي يتخذه ذلك. تذكرة لمكن يتذكر.
156
منشور جديد سريع: مناقشات التقييم التلقائي لأخبار هاكر التي تعود لعقد من الزمن مع نظرة إلى الوراء
أخذت كل مقال الصفحة الرئيسية ل Hacker News على الصفحة 930 + النقاش في ديسمبر 2015 وطلبت من واجهة برمجة تطبيقات GPT 5.1 Thinking إجراء تحليل بأثر رجعي لتحديد التعليقات الأكثر وأقل استبصارا. استغرق هذا ~3 ساعات لوضع كود التفاعل و~ساعة واحدة و60 دولارا للتشغيل. وقد أشعلت الفكرة مقال في HN أمس حيث طلب من Gemini 3 أن يتخيل الصفحة الأولى من HN قبل عقد من الزمن.
بشكل عام:
1. التحليل بأثر رجعي لطالما أثار اهتمامي كطريقة لتدريب نموذج التنبؤ المستقبلي، لذا قراءة النتائج أمر ممتع جدا و
2. من الجدير التفكير كيف يبدو الأمر عندما يمكن لعقول نماذج اللغة الكبيرة في المستقبل القيام بهذا النوع من العمل بتكلفة أرخص وأسرع وأفضل. كل معلومة تقدمها على الإنترنت يمكن (وربما سيتم تدقيقها) بتفصيل كبير إذا كانت "مجانية". ومن هنا جاء تغريدتي السابقة منذ فترة - "كن جيدا، نماذج اللغة الكبيرة المستقبلية تراقب".
تهانينا لأفضل 10 حسابات: pcwalton، tptacek، paulmd، cstross، greglindahl، moxie، hannob، 0xcde4c3db، Manishearth، و johncolanduoni - GPT 5.1 وجدت تعليقاتك الأكثر بصيرة واستشرافا بين جميع تعليقات HN في ديسمبر 2015.
الصلات:
- تفاصيل أكثر بكثير في منشور مدونتي
- مستودع GitHub للمشروع إذا كنت ترغب في اللعب
- صفحات النتائج الفعلية لمتعة القراءة الخاصة بك

671
في حلقة اليوم من برنامج الرعب البرنامجي...
في وثائق بايثون الخاصة ب random.seed() def، قيل لنا
"إذا كانت a ذكاء، تستخدم مباشرة." [1]
لكن إذا قمت بزرع 3 أو -3، تحصل فعليا على نفس كائن العشوائية بالضبط، وينتج نفس التدفقات. (حتى اليوم). في nanochat كنت أستخدم الإشارة كطريقة (ما اعتقدت أنها) ذكية للحصول على تسلسلات عشوائية مختلفة لتقسيم القطارات/الاختبار. ومن هنا جاء خطأ خطير لأن القطار = الاختبار الآن.
وجدت أن كود CPython مسؤول عن cpython/Modules/_randommodule.c [2]، حيث نراها في السطر 321 في تعليق:
"هذه الخوارزمية تعتمد على أن الرقم غير موقع. إذا: إذا كان الأرج هو باي لونغ، استخدم قيمته المطلقة." يليه
n = PyNumber_Absolute(arg);
الذي يستدعي صراحة abs() على بذرتك لجعلها موجبة، مع التخلص من بت الإشارة.
لكن هذا التعليق في الواقع خاطئ ومضلل أيضا. تحت الغطاء، تسمي بايثون خوارزمية Mersenne Twister MT19937، والتي في الحالة العامة تحتوي على حالة 19937 (غير صفرية) بت. بايثون تأخذ الاستخبارات (أو الكائنات الأخرى) و"توزع" تلك المعلومات عبر هذه الأجزاء. من حيث المبدأ، كان من الممكن استخدام بت الإشارة لتعزيز بتات الحالة. لا يوجد شيء في الخوارزمية "يعتمد على أن الرقم غير موقع". تم اتخاذ قرار بعدم دمج جزء الإشارة (والذي برأيي كان خطأ). مثال بسيط يمكن أن يكون تحويل n -> 2*abs(n) + int(n < 0).
وأخيرا يقودنا هذا إلى عقد العشوائية في بايثون، والذي لم يتم توضيحه بالكامل في الوثائق. العقد المذكور هو:
نفس البذرة = > نفس التسلسل.
لكن لا يوجد ضمان بأن البذور المختلفة تنتج تسلسلات مختلفة. لذا من حيث المبدأ، لا تعد بايثون بأن مثلا seed(5) و seed(6) هما تدفقات عشوائية مختلفة. (مع أن هذا غالبا ما يفترض ضمنيا في العديد من التطبيقات.) في الواقع، نرى أن seed(5) و seed(-5) هما جداول متطابقة. وربما لا يجب عليك استخدامها لفصل سلوكيات التدريب أو الاختبار في تعلم الآلة. واحدة من أكثر أسلحة الرعب البرمجية طرافة التي صادفتها مؤخرا. سنراكم في الحلقة القادمة.
[1]
[2]

500
الأفضل
المُتصدِّرة
التطبيقات المفضلة
