En spennende og avslørende mangel på selv de mest avanserte multimodale LLM-ene nå (f.eks. GPT-5 og Claude Opus 4.1) er det jeg vil kalle den modale siloen av kognisjon. Disse modellene ser ut til å være mer som Frankenstein-modeller, satt sammen noe grovt fra separat trente deler som kombineres gjennom rutingsforespørsler til riktig komponent, i stedet for å være ordentlig integrert på en dyp måte. Den store "tellen" for meg i dette er hvor forferdelige alle disse modellene er til å lage sammenhengende original ASCII-kunst, eller til og med modifisere eksisterende kunst på en måte som ville være lett for et barn gitt det riktige verktøyet (f.eks. asciiflow-editoren, som er fantastisk og gratis i nettleseren). Jeg opprettet nylig et fint verktøy for å sjekke kodefiler for problemer med å bruke ast-grep på kraftige måter (jeg vil legge ut mer om det når det er gjort), og jeg ønsket å lage et fint banner for hvert programmeringsspråk som inkluderte en annen ascii-kunstmaskot eller logo for hvert enkelt (slange for Python, gopher for Golang, etc). Denne oppgaven med å erstatte kunsten med ny kunst samtidig som sammenhengen opprettholdes var bare helt umulig for alle modeller. Selv når jeg gjorde det jeg ville virkelig eksplisitt (jeg holdt ut en stund mer av sykelig nysgjerrighet, som en nevrolog som gjorde diagnostikk på en pasient som lider av hjernelesjoner), var de komisk dårlige på det. De gjorde til og med noen virkelig utenomjordiske feil som et menneske aldri ville gjort, for eksempel å erstatte ascii-kunstblokkbokstavene for ordet "BUG" med gjentatte forekomster av den bokstavelige strengen "BUG", som viser en bisarr ontologisk forvirring som gir mening hvis du tenker på hvordan de er trent på sekvensiell autoregressiv neste tegnmatching. Når et menneske prøver å gjøre denne oppgaven, gjør han en slags gestaltveksling frem og tilbake konstant mellom «symbolrom» og «fysisk (skjerm)rom». Vi gjør en endring symbolsk for å legge til eller flytte et ascii-tegn, men observerer og oppfatter det vi nettopp har gjort visuelt for å se om det er riktig. Det er så sømløst at vi ikke engang legger merke til det så mye. Disse multimodale LLM-ene ser ikke ut til å gjøre det, eller til og med å være i stand til det, i det minste i en enkelt slutningspassering. De er fanget i enten en eller annen modalitet og ser ikke ut til å smelte dem sammen. Hvis de kunne, ville denne oppgaven jeg har beskrevet være triviell for dem i stedet for helt uoverkommelig. Jeg antar at neste generasjons multimodale LLM-er må ha en slags digital analog til corpus callosum i hjernen, som forener de to hjernehalvdelene og hjelper til med å koordinere forskjellige kognitive modaliteter i en enhetlig bevissthet. Det vil si tette, trenbare forbindelser som lar forskjellige modaliteter kontinuerlig modulere hverandre under behandlingen. Intermodal om du vil.