DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Satu kekurangan yang menarik dan mengungkapkan bahkan dari LLM multi-moda yang paling canggih sekarang (misalnya, GPT-5 dan Claude Opus 4.1) adalah apa yang saya sebut sebagai silo modal kognisi. Model-model ini tampaknya lebih seperti model Frankenstein, digabungkan bersama secara kasar dari potongan yang dilatih secara terpisah yang digabungkan melalui permintaan perutean ke komponen yang tepat, daripada diintegrasikan dengan benar secara mendalam. "Ceritakan" besar bagi saya dalam hal ini adalah betapa buruknya semua model ini dalam menciptakan seni ASCII asli yang koheren, atau bahkan memodifikasi seni yang ada dengan cara yang mudah bagi anak yang diberi alat yang tepat (misalnya, editor asciiflow, yang mengagumkan dan gratis di browser). Saya baru-baru ini membuat utilitas yang bagus untuk memeriksa file kode untuk masalah menggunakan ast-grep dengan cara yang kuat (saya akan mempostingnya lebih banyak setelah selesai), dan saya ingin membuat spanduk yang bagus untuk setiap bahasa pemrograman yang menyertakan maskot atau logo seni ascii yang berbeda untuk masing-masing (ular untuk Python, gopher untuk Golang, dll). Tugas mengganti seni dengan seni baru sambil mempertahankan koherensi sama sekali tidak mungkin untuk setiap model. Bahkan ketika saya membuat apa yang saya inginkan benar-benar eksplisit (saya bertahan untuk sementara waktu lebih karena rasa ingin tahu yang tidak menyenangkan, seperti seorang ahli saraf yang melakukan diagnostik pada pasien yang menderita lesi otak), mereka sangat buruk dalam hal itu. Mereka bahkan membuat beberapa kesalahan yang benar-benar asing yang tidak akan pernah dilakukan manusia, seperti mengganti huruf blok seni ascii untuk kata "BUG" dengan contoh berulang dari string literal "BUG," menunjukkan kebingungan ontologis aneh yang masuk akal jika Anda mempertimbangkan bagaimana mereka dilatih pada pencocokan karakter berikutnya secara autoregresif secara berurutan. Ketika seorang manusia mencoba melakukan tugas ini, dia melakukan semacam peralihan gestalt bolak-balik terus-menerus antara "ruang simbol" dan "ruang fisik (layar)." Kita membuat perubahan secara simbolis untuk menambah atau memindahkan karakter ascii, tetapi kemudian mengamati dan memahami apa yang baru saja kita lakukan secara visual untuk melihat apakah itu benar. Ini sangat mulus sehingga kita bahkan tidak terlalu menyadarinya. LLM multi-moda ini tampaknya tidak melakukan itu, atau bahkan bisa, setidaknya dalam satu lintasan inferensi. Mereka terjebak dalam satu modalitas atau lainnya dan sepertinya tidak dapat menyatukannya. Jika mereka bisa, tugas yang saya jelaskan ini akan sepele bagi mereka alih-alih sama sekali tidak dapat diatasi. Saya berpendapat bahwa LLM multi-modal generasi berikutnya harus memiliki semacam analog digital ke corpus callosum di otak, yang menyatukan dua belahan otak dan membantu mengoordinasikan modalitas kognitif yang berbeda dalam kesadaran terpadu. Artinya, koneksi padat dan dapat dilatih yang memungkinkan modalitas yang berbeda untuk terus memodulasi satu sama lain selama pemrosesan. Inter-modal jika Anda mau.

Teratas

Peringkat

Favorit