المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أحد أوجه القصور المثيرة للاهتمام والكاشفة حتى في LLMs متعددة الوسائط الأكثر تقدما الآن (على سبيل المثال ، GPT-5 و Claude Opus 4.1) هو ما يمكن أن أسميه العزل المشروط للإدراك.
يبدو أن هذه النماذج تشبه إلى حد كبير نماذج فرانكشتاين ، مرتبطة معا بشكل فظ إلى حد ما من القطع المدربة بشكل منفصل والتي يتم دمجها من خلال طلبات التوجيه إلى المكون الصحيح ، بدلا من دمجها بشكل صحيح بطريقة عميقة.
"الخبر" الكبير بالنسبة لي في هذا هو مدى فظاعة كل هذه النماذج في إنشاء فن ASCII أصلي متماسك ، أو حتى تعديل الفن الحالي بطريقة تكون سهلة للطفل بالنظر إلى الأداة المناسبة (على سبيل المثال ، محرر asciiflow ، وهو رائع ومجاني في المتصفح).
لقد أنشأت مؤخرا أداة مساعدة رائعة للتحقق من ملفات التعليمات البرمجية بحثا عن مشكلات في استخدام ast-grep بطرق قوية (سأنشر المزيد عنها عند الانتهاء) ، وأردت إنشاء لافتة لطيفة لكل لغة برمجة تتضمن تميمة أو شعار فني مختلف لكل لغة (ثعبان ل Python ، gopher ل Golang ، إلخ).
كانت مهمة استبدال الفن بفن جديد مع الحفاظ على التماسك مستحيلة تماما لكل نموذج.
حتى عندما جعلت ما أريده صريحا حقا (استمرت لفترة من الوقت بدافع الفضول المرضي ، مثل طبيب أعصاب يقوم بتشخيص مريض يعاني من آفات في الدماغ) ، كانوا سيئين بشكل هزلي.
حتى أنهم ارتكبوا بعض الأخطاء الغريبة حقا التي لن يرتكبها الإنسان أبدا ، مثل استبدال أحرف كتلة الفن ascii لكلمة "BUG" بمثيلات متكررة من السلسلة الحرفية "BUG" ، مما يدل على ارتباك أنطولوجي غريب يكون منطقيا إذا فكرت في كيفية تدريبهم على مطابقة الأحرف التالية المتسلسلة.
عندما يحاول الإنسان القيام بهذه المهمة ، فإنه يقوم بنوع من تبديل الجشطالت ذهابا وإيابا باستمرار بين "مساحة الرمز" و "الفضاء المادي (الشاشة)".
نجري تغييرا رمزيا لإضافة حرف ascii أو تحريكه ، ولكن بعد ذلك نلاحظ وندرك ما فعلناه للتو بصريا لمعرفة ما إذا كان صحيحا. إنه سلس لدرجة أننا لا نلاحظه كثيرا.
لا يبدو أن هذه LLMs متعددة الوسائط تفعل ذلك ، أو حتى تكون قادرة على ذلك ، على الأقل في تمريرة استدلال واحدة. إنهم محاصرون إما في طريقة أو أخرى ولا يبدو أنهم يندمجونها.
إذا استطاعوا ، فإن هذه المهمة التي وصفتها ستكون تافهة بالنسبة لهم بدلا من أن تكون مستعصية تماما.
أفترض أن الجيل القادم من LLMs متعدد الوسائط يجب أن يكون لديه نوع من التناظرية الرقمية للجسم الثفني في الدماغ ، والذي يوحد نصفي الكرة المخية ويساعد على تنسيق الطرائق المعرفية المختلفة في وعي موحد.
أي اتصالات كثيفة وقابلة للتدريب تسمح للطرق المختلفة بتعديل بعضها البعض باستمرار أثناء المعالجة. متعدد الوسائط إذا صح التعبير.

الأفضل
المُتصدِّرة
التطبيقات المفضلة

