المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هذه الورقة من DeepMind قتلت بهدوء أكثر الكذبة راحة في أمان الذكاء الاصطناعي.
فكرة أن السلامة تتعلق بكيفية تصرف النماذج في معظم الأحيان تبدو منطقية. كما أن الوضع خاطئ في اللحظة التي تتوسع فيها الأنظمة. يوضح DeepMind لماذا تتوقف المتوسطات عن الأهمية عندما يصل النشر إلى ملايين التفاعلات.
تعيد الورقة صياغة سلامة الذكاء الاصطناعي العام كمشكلة توزيع. ما يهم ليس السلوك المعتاد. إنه الذيل. إخفاقات نادرة. الحالات النادرة. أحداث ذات احتمالية منخفضة تبدو قابلة للتجاهل في الاختبارات لكنها تصبح حتمية في العالم الحقيقي.
اختبارات الاختبار، الانضمام إلى الفريق الأحمر، والعروض التوضيحية كلها عينات من الوسط. عينات النشر كل شيء. مستخدمون غريبون، حوافز غريبة، حلقات تغذية ردود فعل عدائية، بيئات لم يخطط لها أحد. على نطاق واسع، تتوقف هذه الحالات عن كونها نادرة. إنها مضمونة.
إليك الفكرة المزعجة: التقدم يمكن أن يجعل الأنظمة تبدو أكثر أمانا بينما يجعلها أكثر خطورة بهدوء. إذا نمت القدرة أسرع من التحكم في الذيل، تنخفض الأعطال الظاهرة بينما تتراكم المخاطر الكارثية خارج الشاشة.
يمكن أن يبدوان نموذجين متطابقين في المتوسط ومع ذلك يختلقان بشكل كبير في أسوأ الحالات. التقييمات الحالية لا ترى هذه الفجوة. تفترض أطر الحوكمة أنها تستطيع.
لا يمكنك تصديق السلامة باختبارات محدودة عندما تتغير مخاطر الحياة في التوزيع. أنت لا تختبر النظام الذي تنشره فعليا. أنت تتذوق مستقبلا لا تتحكم به.
هذه هي النكتة الحقيقية.
سلامة الذكاء الاصطناعي العام ليست سمة نموذجية. إنها مشكلة في الأنظمة. سياق النشر، والحوافز، والمراقبة، ومدى تسامح المجتمع مع مخاطر الذيل كلها أهم من المتوسطات النظيفة.
هذه الورقة لا تطمئن. يزيل الوهم.
السؤال ليس ما إذا كان النموذج عادة ما يتصرف بشكل جيد.
بل ما يحدث عندما لا يحدث — وكم مرة يسمح بذلك قبل أن يصبح القياس غير مقبول.
الورقة:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
