Saya pikir ini adalah pandangan provokatif dan pemikiran yang baik tetapi ingin sedikit mengerjakan alasannya. Saat ini, sebagian besar alat AI berjalan di cloud. Setiap kali Anda meminta model untuk menulis, meringkas, menerjemahkan, atau menganalisis sesuatu, permintaan tersebut mengenai GPU di pusat data. Lebih banyak pengguna → lebih banyak kueri → lebih banyak GPU → lebih banyak pusat data → lebih banyak saluran listrik, transformator, gardu induk → lebih banyak generasi, dll. Itulah roda gila inti di balik ledakan belanja modal perangkat keras + pusat data AI saat ini. Inferensi pada perangkat yang berguna mengganggu rantai linier itu. Jika model multi-miliar parameter cukup efisien untuk berjalan pada chip saraf di dalam ponsel, laptop, mobil, atau headset Anda, maka sebagian besar tugas sehari-hari tidak perlu meninggalkan perangkat. Pikirkan permintaan sederhana tetapi bervolume tinggi: pelengkapan otomatis, penyusunan email, transkripsi suara, ringkasan, pengenalan gambar sederhana. Ini adalah kueri umum bervolume tinggi dan kompleksitas rendah yang kemungkinan akan mendominasi penggunaan. Pemeriksaan indra cepat tentang apa yang dapat bergeser: Asumsi sederhana - fleksibel sesuai keinginan. -1 miliar pengguna × 50 kueri/hari × ~0,002 USD/kueri x 365 hari = ~35 miliar USD/tahun dalam biaya inferensi cloud. -Jika 30% dari itu bergerak di perangkat, itu ~$11 miliar+ dari permintaan cloud tahunan yang tidak pernah terwujud. -Biaya marjinal per kueri lokal secara efektif ~$0 setelah perangkat dikirim. Peringatan normal: perangkat keras sudah sampai di sana tetapi masih perlu meningkatkan memori, bandwidth, dll. Namun, model parameter 3–7B yang berjalan pada chip saraf ponsel (sekitar 10–45 "TOPS" saat ini, 60+ diproyeksikan pada tahun 2027) dapat menangani tugas-tugas bervolume tinggi dan kompleksitas rendah secara lokal. Anda tidak memerlukan model skala batas untuk setiap perintah. Cloud masih penting untuk menjadi sangat jelas. Model perbatasan pelatihan, penalaran konteks panjang yang berat, beban kerja perusahaan besar, koordinasi multi-agen – semua itu tetap jauh lebih cocok untuk pusat data besar dan terpusat. Pergeseran kuncinya adalah bahwa rantai logika tidak lagi "setiap pengguna baru = Saya harus menambahkan lebih banyak GPU dan lebih banyak gigawatt kapasitas pusat data." Tidak diketahui di sini adalah argumen paradoks Jevon dan apakah itu mendorong lebih banyak penggunaan AI dan mendorong pengguna untuk mencari petunjuk yang lebih kompleks yang mengimbangi beberapa dari ini Untuk poin Aashay, ledakan belanja modal tidak 'pecah' sepenuhnya, tetapi lintasan intensitasnya saat ini sangat mungkin dimodifikasi. Mengalihkan bahkan 5–30% beban kerja inferensi dari cloud ke perangkat pada skala saat ini dapat berarti. Masalah sulit tetap terpusat di cloud. Tetapi "AI sehari-hari" menjadi fitur perangkat keras yang sudah Anda miliki vs. utilitas terukur yang disewa oleh kueri.