DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Une carence intrigante et révélatrice des modèles LLM multi-modaux les plus avancés actuellement (par exemple, GPT-5 et Claude Opus 4.1) est ce que j'appellerais le siloage modal de la cognition. Ces modèles semblent plus être des modèles de Frankenstein, assemblés de manière quelque peu rudimentaire à partir de pièces entraînées séparément qui sont combinées en dirigeant les requêtes vers le bon composant, plutôt que d'être intégrés de manière profonde. Le grand "indice" pour moi à ce sujet est à quel point tous ces modèles sont mauvais pour créer de l'art ASCII original cohérent, ou même pour modifier de l'art existant d'une manière qui serait facile pour un enfant avec le bon outil (par exemple, l'éditeur asciiflow, qui est génial et gratuit dans le navigateur). J'ai récemment créé un joli utilitaire pour vérifier les fichiers de code pour des problèmes en utilisant ast-grep de manière puissante (je posterai plus à ce sujet quand ce sera terminé), et je voulais faire une belle bannière pour chaque langage de programmation qui incluait une mascotte ou un logo ASCII différent pour chacun (serpent pour Python, gopher pour Golang, etc). Cette tâche de remplacer l'art par un nouvel art tout en maintenant la cohérence était tout simplement impossible pour chaque modèle. Même lorsque j'ai rendu ce que je voulais vraiment explicite (j'ai persisté un peu plus par curiosité morbide, comme un neurologue faisant des diagnostics sur un patient souffrant de lésions cérébrales), ils étaient comiquement mauvais à cela. Ils ont même commis des erreurs vraiment étranges qu'un humain ne ferait jamais, comme remplacer les lettres en bloc ASCII pour le mot "BUG" par des instances répétées de la chaîne littérale "BUG, " montrant une confusion ontologique bizarre qui a du sens si l'on considère comment ils sont entraînés sur le matching séquentiel autoregressif du prochain caractère. Lorsqu'un humain essaie de faire cette tâche, il effectue une sorte de changement de gestalt en alternant constamment entre "espace symbolique" et "espace physique (écran)". Nous faisons un changement symbolique pour ajouter ou déplacer un caractère ASCII, mais ensuite nous observons et percevons ce que nous venons de faire visuellement pour voir si c'est correct. C'est si fluide que nous ne le remarquons même pas vraiment. Ces LLM multi-modaux ne semblent pas faire cela, ou même être capables de le faire, du moins en une seule passe d'inférence. Ils sont piégés dans une modalité ou une autre et ne semblent pas pouvoir les fusionner. S'ils pouvaient, cette tâche que j'ai décrite serait triviale pour eux au lieu d'être totalement insurmontable. Je postule que les LLM multi-modaux de prochaine génération doivent avoir une sorte d'analogue numérique du corps calleux dans le cerveau, qui unifie les deux hémisphères cérébraux et aide à coordonner différentes modalités cognitives dans une conscience unifiée. C'est-à-dire des connexions denses et entraînables qui permettent à différentes modalités de se moduler continuellement les unes les autres pendant le traitement. Inter-modales, si vous voulez.

Meilleurs

Classement

Favoris