DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Jeffrey Emanuel

Satu kekurangan yang menarik dan mengungkapkan bahkan dari LLM multi-moda yang paling canggih sekarang (misalnya, GPT-5 dan Claude Opus 4.1) adalah apa yang saya sebut sebagai silo modal kognisi. Model-model ini tampaknya lebih seperti model Frankenstein, digabungkan bersama secara kasar dari potongan yang dilatih secara terpisah yang digabungkan melalui permintaan perutean ke komponen yang tepat, daripada diintegrasikan dengan benar secara mendalam. "Ceritakan" besar bagi saya dalam hal ini adalah betapa buruknya semua model ini dalam menciptakan seni ASCII asli yang koheren, atau bahkan memodifikasi seni yang ada dengan cara yang mudah bagi anak yang diberi alat yang tepat (misalnya, editor asciiflow, yang mengagumkan dan gratis di browser). Saya baru-baru ini membuat utilitas yang bagus untuk memeriksa file kode untuk masalah menggunakan ast-grep dengan cara yang kuat (saya akan mempostingnya lebih banyak setelah selesai), dan saya ingin membuat spanduk yang bagus untuk setiap bahasa pemrograman yang menyertakan maskot atau logo seni ascii yang berbeda untuk masing-masing (ular untuk Python, gopher untuk Golang, dll). Tugas mengganti seni dengan seni baru sambil mempertahankan koherensi sama sekali tidak mungkin untuk setiap model. Bahkan ketika saya membuat apa yang saya inginkan benar-benar eksplisit (saya bertahan untuk sementara waktu lebih karena rasa ingin tahu yang tidak menyenangkan, seperti seorang ahli saraf yang melakukan diagnostik pada pasien yang menderita lesi otak), mereka sangat buruk dalam hal itu. Mereka bahkan membuat beberapa kesalahan yang benar-benar asing yang tidak akan pernah dilakukan manusia, seperti mengganti huruf blok seni ascii untuk kata "BUG" dengan contoh berulang dari string literal "BUG," menunjukkan kebingungan ontologis aneh yang masuk akal jika Anda mempertimbangkan bagaimana mereka dilatih pada pencocokan karakter berikutnya secara autoregresif secara berurutan. Ketika seorang manusia mencoba melakukan tugas ini, dia melakukan semacam peralihan gestalt bolak-balik terus-menerus antara "ruang simbol" dan "ruang fisik (layar)." Kita membuat perubahan secara simbolis untuk menambah atau memindahkan karakter ascii, tetapi kemudian mengamati dan memahami apa yang baru saja kita lakukan secara visual untuk melihat apakah itu benar. Ini sangat mulus sehingga kita bahkan tidak terlalu menyadarinya. LLM multi-moda ini tampaknya tidak melakukan itu, atau bahkan bisa, setidaknya dalam satu lintasan inferensi. Mereka terjebak dalam satu modalitas atau lainnya dan sepertinya tidak dapat menyatukannya. Jika mereka bisa, tugas yang saya jelaskan ini akan sepele bagi mereka alih-alih sama sekali tidak dapat diatasi. Saya berpendapat bahwa LLM multi-modal generasi berikutnya harus memiliki semacam analog digital ke corpus callosum di otak, yang menyatukan dua belahan otak dan membantu mengoordinasikan modalitas kognitif yang berbeda dalam kesadaran terpadu. Artinya, koneksi padat dan dapat dilatih yang memungkinkan modalitas yang berbeda untuk terus memodulasi satu sama lain selama pemrosesan. Inter-modal jika Anda mau.

Saya pikir saya terlalu meremehkan LLM pengkodean Composer-1 baru Cursor. Tentu, ini benar-benar lebih buruk daripada GPT-5 High Effort dan GPT-5-Codex, jadi dalam pengertian itu, ketika saya merancang dan mengimplementasikan proyek kode penting, saya tidak benar-benar melihat tempat untuk itu dalam alur kerja saya. Di sisi lain, ini sangat cepat (bertanya-tanya bagaimana mereka melakukan ini; apakah mereka menggunakan perangkat keras Groq atau Cerebras? apakah karena modelnya sangat kecil dan efisien? tidak yakin), dan ini saja membuka banyak alur kerja dan teknik kerja baru ketika kode tidak begitu kritis, atau ketika Anda memulai proyek baru dan Anda tidak perlu khawatir merusak kode yang ada. Ini juga jauh lebih murah dibandingkan dengan rasa GPT-5 apa pun. Kombinasi jauh lebih cepat dan jauh lebih murah menciptakan beberapa perbedaan kualitatif dalam cara Anda dapat menggunakan model yang tidak sepenuhnya saya hargai sebelumnya. Ketika biaya iterasi sangat rendah baik dalam hal waktu maupun uang, Anda dapat mengulangi lebih banyak kali. Itu menurunkan nilai "kebenaran satu tembakan"; yaitu, kemampuan model seperti GPT-5 Pro untuk mendapatkan tugas pengkodean yang rumit bahkan pada pertama kalinya tanpa bug (meskipun bahkan model itu sering gagal pada tes yang sangat ketat ini). Tetapi jika Anda dapat menutup loop debugging dan dengan cepat memasukkan kesalahan/peringatan kembali ke dalam model, dan setiap putaran iterasi membutuhkan waktu 20 detik hingga satu menit (bukan 5 hingga 10 kali lipat setidaknya menggunakan GPT-5 dengan upaya tinggi), maka Anda dapat dengan cepat menyelesaikan semua kesalahan ceroboh yang dibuatnya pertama kali (atau bahkan yang kedua, ketiga, atau keempat kalinya) dan masih selesai dengan kode kerja lebih cepat daripada yang Anda bisa dengan GPT-5. Jika Anda mengembangkan sesuatu di browser, Anda sekarang dapat benar-benar menutup lingkaran sepenuhnya menggunakan Tab Browser baru Cursor, yang sejauh ini merupakan implementasi terbaik dari hal semacam ini yang pernah saya lihat di alat pengkodean mana pun (ini jauh lebih maju dari menggunakan Playwright MCP dari Codex atau Claude Code!). Saya telah menggunakan prompt ini untuk efek yang luar biasa hari ini: "Gunakan tab browser untuk menjelajahi aplikasi ini secara sistematis dan menggunakan antarmuka dengan cara yang alami; saat itu terjadi, perhatikan peringatan atau kesalahan APAPUN di konsol pengembang. Saat Anda melihatnya, mulailah mendiagnosis dan memperbaiki bug dan masalah secara interaktif dan berulang, lalu segarkan aplikasi dan verifikasi bahwa kesalahan atau peringatan telah teratasi sepenuhnya. Saat memperbaiki sesuatu, fokuslah untuk menentukan akar penyebab bug yang sebenarnya dan tidak menerapkan perbaikan "perban" palsu!" Namun, di mana pendekatan ini benar-benar rusak adalah dalam fase konseptual dan perencanaan di mana Anda mencari tahu apa yang harus dibuat dan cara terbaik untuk menerapkannya pada tingkat tinggi. Di sana, kurangnya pemikiran dan eksplorasi yang mendalam dapat memulai Anda di jalan buruk yang sulit untuk pulih. Ini jauh lebih jelas ketika tugas yang Anda kerjakan menyimpang jauh dari "manifold data" dari tugas pengkodean umum. Jika Anda membuat situs web CRUD sederhana lainnya, maka Anda mungkin tidak akan terlalu menyadarinya. Jika Anda mencoba menginjak tanah baru dalam simulasi kehidupan buatan atau sesuatu yang aneh seperti itu, Anda akan sering menyadarinya. Tetapi ada pendekatan hibrida yang bagus yang bekerja dengan sangat baik: menggabungkan model paling cerdas untuk perencanaan dengan model cepat dan murah ini untuk menghasilkan iterasi. Jadi, gunakan GPT-5 Pro di aplikasi browser untuk membuat rencana Anda dan implementasi awal, lalu tempelkan ke Kursor dan mulailah mengulangi dan memperbaiki serta meningkatkan. Ini jauh lebih baik dalam memodifikasi fondasi kuat yang ada daripada dalam meletakkan fondasi itu sendiri. Di mana semua ini benar-benar bersinar adalah ketika Anda bermain dan menjelajahi sesuatu yang menyenangkan, dalam proyek baru di mana tidak ada tenggat waktu atau harapan. Dalam konteks ini, kecepatan adalah pengubah permainan yang nyata. Ini mengingatkan saya pada penelitian lama yang dilakukan oleh IBM pada awal tahun 80-an yang melihat latensi dengan sistem komputer, yang menemukan bahwa ketika latensi berada di bawah beberapa tingkat ajaib, seperti 50ms, Anda mendapatkan perubahan besar dalam perilaku karena otak manusia merasakan bahwa ia berurusan dengan "sistem langsung." Dan, sebaliknya, ketika latensi melampaui tingkat yang sangat sederhana, seperti 500ms, Anda mendapatkan keterlibatan yang jauh lebih sedikit, dan itu melelahkan secara mental dan membuat frustrasi. Ketika latensi melonjak menjadi beberapa detik atau lebih, orang cenderung memeriksa secara mental dan menjadi perjuangan untuk tetap terlibat. Melihat model pengkodean merespons dalam hitungan detik dan membuat 10 pengeditan dalam waktu kurang dari 15 detik adalah pengalaman yang sama sekali berbeda daripada menunggu 5 menit untuk upaya tinggi GPT-5 untuk melakukan sesuatu secara metodis. Bagaimanapun, sangat menyenangkan untuk bermain-main dengan benda ini. Ini lebih menyenangkan dan menarik bagi saya daripada video game mana pun.

Teratas

Peringkat

Favorit