Одним з інтригуючих і показових недоліків навіть найбільш просунутих мультимодальних LLM зараз (наприклад, GPT-5 і Claude Opus 4.1) є те, що я б назвав модальним розрізненням пізнання. Ці моделі більше схожі на моделі Франкенштейна, об'єднані дещо грубо з окремо навчених частин, які об'єднуються через маршрутизацію запитів до потрібного компонента, а не належним чином інтегровані глибоким чином. Великим "відкриттям" для мене в цьому є те, наскільки жахливо всі ці моделі створюють цілісне оригінальне мистецтво ASCII або навіть модифікують існуюче мистецтво таким чином, що дитині було б легко мати відповідний інструмент (наприклад, редактор asciiflow, який є чудовим і безкоштовним у браузері). Нещодавно я створив чудову утиліту для перевірки файлів коду на наявність проблем за допомогою ast-grep потужними способами (я напишу про це докладніше, коли це буде зроблено), і я хотів зробити гарний банер для кожної мови програмування, який включав би різний талісман або логотип ascii art для кожної з них (snake для Python, gopher для Golang тощо). Завдання заміни мистецтва новим мистецтвом при збереженні цілісності було абсолютно нездійсненним для кожної моделі. Навіть коли я дійсно чітко висловлював те, що хотів (я наполягав деякий час більше з хворобливої цікавості, як невролог, який проводить діагностику пацієнта, який страждає на ураження мозку), у них це комічно погано виходило. Вони навіть допустили деякі дійсно чужорідні помилки, які людина ніколи б не зробила, наприклад, замінивши друковані літери ascii art для слова "BUG" повторюваними екземплярами буквального рядка "BUG", що демонструє дивну онтологічну плутанину, яка має сенс, якщо врахувати, як вони навчені на послідовному авторегресійному зіставленні наступних символів. Коли людина намагається виконати це завдання, вона робить свого роду гештальт, постійно перемикаючись туди-сюди між «символьним простором» і «фізичним (екранним) простором». Ми вносимо зміну символічно, щоб додати або перемістити символ ascii, але потім спостерігаємо та сприймаємо те, що ми щойно зробили візуально, щоб переконатися, що це правильно. Це настільки безшовно, що ми навіть не особливо помічаємо цього. Ці мультимодальні LLM, схоже, не роблять цього, і навіть не можуть, принаймні за один прохід логічного висновку. Вони потрапили в пастку або в одній, або в іншій модальності і, здається, не можуть їх злити. Якби вони могли, це завдання, яке я описав, було б для них тривіальним, а не абсолютно непереборним. Я стверджую, що мультимодальні LLM наступного покоління повинні мати якийсь цифровий аналог мозолистого тіла в мозку, який об'єднує дві півкулі мозку і допомагає координувати різні когнітивні модальності в єдиній свідомості. Тобто щільні, піддаються тренуванню зв'язки, які дозволяють різним модальностям безперервно модулювати один одного під час обробки. Інтермодальні, якщо хочете.