Jedną z intrygujących i ujawniających niedoskonałości nawet najbardziej zaawansowanych modeli LLM wielomodalnych (np. GPT-5 i Claude Opus 4.1) jest to, co nazwałbym siloizacją modalną poznania. Modele te wydają się być bardziej jak modele Frankensteina, połączone w sposób dość prymitywny z osobno wytrenowanych części, które są łączone poprzez kierowanie zapytań do odpowiedniego komponentu, zamiast być właściwie zintegrowane w głęboki sposób. Dużym „znakiem” dla mnie w tym jest to, jak okropne są te modele w tworzeniu spójnej oryginalnej sztuki ASCII, a nawet w modyfikowaniu istniejącej sztuki w sposób, który byłby łatwy dla dziecka, gdyby miało odpowiednie narzędzie (np. edytor asciiflow, który jest niesamowity i darmowy w przeglądarce). Ostatnio stworzyłem przydatne narzędzie do sprawdzania plików kodu pod kątem problemów, używając ast-grep w potężny sposób (opublikuję o tym więcej, gdy będzie gotowe), i chciałem stworzyć ładny baner dla każdego języka programowania, który zawierałby różnego rodzaju maskotki lub logo ASCII dla każdego z nich (wąż dla Pythona, gopher dla Golanga itd.). To zadanie zastąpienia sztuki nową sztuką przy zachowaniu spójności było po prostu całkowicie niemożliwe dla każdego modelu. Nawet gdy uczyniłem to, co chciałem, naprawdę explicite (wytrwałem przez chwilę dłużej z morbidnej ciekawości, jak neurolog wykonujący diagnostykę pacjenta cierpiącego na uszkodzenia mózgu), były komicznie złe w tym. Nawet popełniły niektóre naprawdę obce błędy, których człowiek nigdy by nie popełnił, takie jak zastąpienie blokowych liter ASCII dla słowa „BUG” powtarzającymi się instancjami dosłownego ciągu „BUG, ” co pokazuje dziwaczne zamieszanie ontologiczne, które ma sens, jeśli weźmiesz pod uwagę, jak są trenowane na sekwencyjnym dopasowywaniu następnego znaku autoregresywnego. Kiedy człowiek próbuje wykonać to zadanie, wykonuje rodzaj przełączania gestaltowego tam i z powrotem między „przestrzenią symboli” a „przestrzenią fizyczną (ekranową).” Wprowadzamy zmianę symbolicznie, aby dodać lub przesunąć znak ASCII, ale potem obserwujemy i postrzegamy to, co właśnie zrobiliśmy wizualnie, aby zobaczyć, czy jest to poprawne. Jest to tak płynne, że nawet tego nie zauważamy. Te wielomodalne LLM-y nie wydają się tego robić, ani nawet być w stanie, przynajmniej w jednej próbie wnioskowania. Są uwięzione w jednej modalności lub innej i nie mogą ich połączyć. Gdyby mogły, to zadanie, które opisałem, byłoby dla nich trywialne, zamiast całkowicie nieosiągalnego. Uważam, że modele LLM następnej generacji muszą mieć jakiś rodzaj cyfrowego odpowiednika ciała modzelowatego w mózgu, które jednoczy dwie półkule mózgowe i pomaga koordynować różne modalności poznawcze w zjednoczonej świadomości. To znaczy, gęste, trenowalne połączenia, które pozwalają różnym modalnościom ciągle modulować się nawzajem podczas przetwarzania. Międzymodalne, jeśli chcesz.