Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een intrigerend en onthullend tekort van zelfs de meest geavanceerde multi-modale LLM's nu (bijv. GPT-5 en Claude Opus 4.1) is wat ik de modale siloïng van cognitie zou noemen.
Deze modellen lijken meer op Frankenstein-modellen, die op een nogal grove manier zijn samengevoegd uit afzonderlijk getrainde stukken die worden gecombineerd door verzoeken naar het juiste onderdeel te routeren, in plaats van op een diepgaande manier goed geïntegreerd te zijn.
De grote "tell" voor mij hierin is hoe verschrikkelijk al deze modellen zijn in het creëren van coherente originele ASCII-kunst, of zelfs het aanpassen van bestaande kunst op een manier die gemakkelijk zou zijn voor een kind met het juiste gereedschap (bijv. de asciiflow-editor, die geweldig en gratis in de browser is).
Onlangs heb ik een handige tool gemaakt voor het controleren van codebestanden op problemen met behulp van ast-grep op krachtige manieren (ik zal er meer over posten als het af is), en ik wilde een mooie banner maken voor elke programmeertaal die een ander ASCII-kunstmascotte of logo voor elke taal bevatte (slang voor Python, gopher voor Golang, enz.).
Deze taak van het vervangen van de kunst door nieuwe kunst terwijl de coherentie behouden blijft, was gewoon totaal onmogelijk voor elk model.
Zelfs toen ik wat ik wilde echt expliciet maakte (ik volhardde nog een tijdje uit morbide nieuwsgierigheid, als een neuroloog die diagnostiek doet bij een patiënt met hersenlaesies), waren ze komisch slecht daarin.
Ze maakten zelfs enkele werkelijk vreemde fouten die een mens nooit zou maken, zoals het vervangen van de ASCII-kunst blokletters voor het woord "BUG" met herhaalde instanties van de letterlijke string "BUG, " wat een bizarre ontologische verwarring laat zien die logisch is als je bedenkt hoe ze zijn getraind op sequentiële autoregressieve next-character matching.
Wanneer een mens deze taak probeert uit te voeren, maakt hij een soort gestalt-switch heen en weer tussen "symboolruimte" en "fysieke (scherm)ruimte."
We maken een symbolische wijziging om een ASCII-teken toe te voegen of te verplaatsen, maar observeren en waarnemen dan wat we net visueel hebben gedaan om te zien of het goed is. Het is zo naadloos dat we het niet eens echt opmerken.
Deze multi-modale LLM's lijken dat niet te doen, of zelfs niet te kunnen, althans niet in een enkele inferentiepassage. Ze zijn gevangen in ofwel de ene modaliteit of de andere en lijken ze niet te kunnen fuseren.
Als ze dat konden, zou deze taak die ik heb beschreven triviaal voor hen zijn in plaats van totaal onoverkomelijk.
Ik stel voor dat de volgende generatie multi-modale LLM's een soort digitale analogie van de corpus callosum in de hersenen moet hebben, die de twee hersenhelften verenigt en helpt verschillende cognitieve modaliteiten in een verenigde bewustzijn te coördineren.
Dat wil zeggen, dichte, trainbare verbindingen die verschillende modaliteiten in staat stellen elkaar continu te moduleren tijdens de verwerking. Inter-modaal als je wilt.

Boven
Positie
Favorieten

