Una carenza intrigante e rivelatrice anche dei modelli LLM multi-modali più avanzati attualmente (ad es., GPT-5 e Claude Opus 4.1) è quella che definirei il silo cognitivo modale. Questi modelli sembrano più simili a modelli di Frankenstein, uniti in modo piuttosto rozzo da pezzi addestrati separatamente che vengono combinati instradando le richieste al componente giusto, piuttosto che essere integrati in modo profondo. Il grande "indicatore" per me in questo è quanto siano terribili tutti questi modelli nel creare arte ASCII originale coerente, o anche nel modificare arte esistente in un modo che sarebbe facile per un bambino dato lo strumento giusto (ad es., l'editor asciiflow, che è fantastico e gratuito nel browser). Recentemente ho creato una bella utility per controllare i file di codice per problemi utilizzando ast-grep in modi potenti (ne parlerò di più quando sarà pronta), e volevo creare un bel banner per ogni linguaggio di programmazione che includesse un diverso mascotte o logo in arte ASCII per ciascuno (serpente per Python, gopher per Golang, ecc). Questo compito di sostituire l'arte con nuova arte mantenendo la coerenza era semplicemente impossibile per ogni modello. Anche quando ho reso ciò che volevo davvero esplicito (ho persistito per un po' di più per curiosità morbosa, come un neurologo che fa diagnosi su un paziente affetto da lesioni cerebrali), erano comicamente scadenti in questo. Hanno persino commesso alcuni errori davvero alieni che un umano non commetterebbe mai, come sostituire le lettere in blocco dell'arte ASCII per la parola "BUG" con istanze ripetute della stringa letterale "BUG, " mostrando una bizzarra confusione ontologica che ha senso se consideri come sono addestrati sul matching sequenziale autoregressivo del prossimo carattere. Quando un umano cerca di fare questo compito, fa una sorta di cambio gestalt tra "spazio simbolico" e "spazio fisico (schermo)". Facciamo una modifica simbolicamente per aggiungere o spostare un carattere ASCII, ma poi osserviamo e percepiamo ciò che abbiamo appena fatto visivamente per vedere se è corretto. È così fluido che non ce ne accorgiamo nemmeno molto. Questi LLM multi-modali non sembrano fare ciò, o nemmeno essere in grado di farlo, almeno in un singolo passaggio di inferenza. Sono intrappolati in una modalità o nell'altra e non sembrano in grado di fonderle. Se potessero, questo compito che ho descritto sarebbe banale per loro invece di essere totalmente insormontabile. Posito che i modelli LLM multi-modali di prossima generazione devono avere qualche tipo di analogia digitale al corpo calloso nel cervello, che unifica i due emisferi cerebrali e aiuta a coordinare diverse modalità cognitive in una coscienza unificata. Cioè, connessioni dense e addestrabili che consentono a diverse modalità di modulare continuamente l'una l'altra durante l'elaborazione. Inter-modale, se vuoi.