Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uma deficiência intrigante e reveladora até mesmo dos LLMs multimodais mais avançados agora (por exemplo, GPT-5 e Claude Opus 4.1) é o que eu chamaria de silo modal da cognição.
Esses modelos parecem ser mais parecidos com modelos Frankenstein, unidos de forma um tanto grosseira a partir de peças treinadas separadamente que são combinadas por meio de solicitações de roteamento para o componente certo, em vez de serem devidamente integradas de maneira profunda.
O grande "sinal" para mim nisso é o quão horríveis todos esses modelos são na criação de arte ASCII original coerente, ou mesmo modificando a arte existente de uma forma que seria fácil para uma criança com a ferramenta certa (por exemplo, o editor asciiflow, que é incrível e gratuito no navegador).
Recentemente, criei um bom utilitário para verificar arquivos de código em busca de problemas usando ast-grep de maneiras poderosas (postarei mais sobre isso quando terminar) e queria fazer um bom banner para cada linguagem de programação que incluísse um mascote ou logotipo de arte ascii diferente para cada um (cobra para Python, gopher para Golang, etc).
Essa tarefa de substituir a arte por uma nova arte, mantendo a coerência, era totalmente impossível para todos os modelos.
Mesmo quando eu fiz o que eu queria realmente explícito (eu persisti por um tempo mais por curiosidade mórbida, como um neurologista fazendo diagnósticos em um paciente que sofria de lesões cerebrais), eles eram comicamente ruins nisso.
Eles até cometeram alguns erros verdadeiramente estranhos que um humano nunca cometeria, como substituir as letras maiúsculas da palavra "BUG" por repetidas instâncias da string literal "BUG", mostrando uma confusão ontológica bizarra que faz sentido se você considerar como eles são treinados na correspondência sequencial autorregressiva do próximo caractere.
Quando um humano tenta fazer essa tarefa, ele faz uma espécie de gestalt alternando constantemente entre o "espaço simbólico" e o "espaço físico (tela)".
Fazemos uma mudança simbólica para adicionar ou mover um caractere ascii, mas depois observamos e percebemos o que acabamos de fazer visualmente para ver se está certo. É tão perfeito que nem notamos muito.
Esses LLMs multimodais não parecem fazer isso, ou mesmo ser capazes, pelo menos em uma única passagem de inferência. Eles estão presos em uma modalidade ou outra e não conseguem fundi-los.
Se pudessem, essa tarefa que descrevi seria trivial para eles, em vez de totalmente intransponível.
Eu postulo que os LLMs multimodais da próxima geração devem ter algum tipo de análogo digital para o corpo caloso no cérebro, que unifica os dois hemisférios cerebrais e ajuda a coordenar diferentes modalidades cognitivas em uma consciência unificada.
Ou seja, conexões densas e treináveis que permitem que diferentes modalidades se modulem continuamente durante o processamento. Intermodal, se você quiser.

Melhores
Classificação
Favoritos

