Di Box, kami menghabiskan banyak waktu untuk menguji Box AI dengan model baru pada data tidak terstruktur untuk melihat kinerja mereka dengan baik di bidang pengetahuan yang nyata. Seperti yang telah kita lihat dari tolok ukur, GPT-5 menawarkan lompatan kemampuan yang berarti dibandingkan GPT-4.1 dalam penalaran, matematika, logika, pengkodean, dan bidang pekerjaan lainnya. Berikut adalah beberapa contoh di mana peningkatan tersebut berperan di dunia nyata: *GPT 5 mengontekstualisasikan informasi dengan lebih baik. Saat melakukan ekstraksi data seperti jumlah USD akhir pada faktur tanpa label mata uang tetapi dengan alamat di London, GPT 5 merespons dengan benar membutuhkan nilai konversi dari USD ke GBP. Sebagai perbandingan, GPT 4.1 melihat tagihan akhir dan mengembalikannya, dengan asumsi mata uang (salah). * GPT-5 memberikan analisis multimoda yang lebih baik. Untuk pengajuan tahunan perusahaan publik, GPT-5 diminta untuk mengisolasi sel dalam tabel dari gambar yang menunjukkan perubahan komponen ekuitas perusahaan. Bagian atas tabel mengklarifikasi bahwa semua jumlah saham dalam ribuan, dan GPT-5 dengan jelas menyatakan konversi ini, sedangkan GPT-4.1 tidak, menjadi bingung mengingat tabel mengatakan saham dan legenda mengatakan saham. * GPT-5 berkinerja lebih baik dengan tingkat prompt dan kompleksitas data yang tinggi. Saat melakukan ekstraksi data pada resume untuk semua tanggal mulai pekerjaan, nama posisi pekerjaan, dan nama pemberi kerja, GPT-5 mampu menarik setiap bagian data sementara GPT-4.1 tampaknya kewalahan dan tidak mengekstrak bidang yang sama mengingat ukuran prompt dan kompleksitas dokumen. * GPT-5 jauh lebih jelas dan eksplisit dalam jawabannya. Dalam perjanjian outsourcing dengan 6 layanan berbeda yang dibahas secara eksplisit, ketika ditanya tentang "5 layanan spesifik dalam kontrak", GPT-5 akan mengembalikan 5 layanan pertama dan menanyakan apakah disengaja bahwa yang keenam tidak ditanyakan. Sebagai perbandingan, GPT-4.1 hanya mengembalikan 5 yang pertama tanpa peringatan lebih lanjut, yang dapat menyebabkan kebingungan hilir bagi pengguna. * GPT-5 lebih baik dalam interpretasi data di bidang yang kompleks. Untuk bagan sitometri aliran, biasanya digunakan dalam imunologi, GPT-5 dengan benar mengidentifikasi proporsi sel mati yang tinggi dan memberikan akar penyebab yang masuk akal yang dapat menyebabkan situasi sementara GPT-4.1 memberikan alasan minimal, membutuhkan konfirmasi lebih lanjut untuk memiliki tebakan dari data mentah. * GPT-5 lebih mampu mengidentifikasi inkonsistensi dalam kode. Ketika diminta untuk mengidentifikasi masalah dalam file kode python tertentu, sementara GPT-5 dan 4.1 dapat mengidentifikasi kesalahan nyata yang menyebabkan malfungsi, hanya GPT-5 yang dapat menyimpulkan masalah yang lebih halus, seperti mencetak variabel yang salah ketika itu tidak masuk akal dalam konteks program. Peningkatan dalam matematika, penalaran, logika, dan kualitas respons dalam jendela konteks yang lebih panjang ini sangat membantu pengguna akhir dalam pekerjaan sehari-hari, tetapi mereka akan muncul lebih banyak lagi dengan agen AI yang berjalan lebih lama, terutama ketika tidak ada manusia dalam lingkaran untuk memverifikasi informasi di setiap langkah. Sungguh luar biasa melihat peningkatan ini terus datang dalam model AI terbaru karena ini akan mengarah pada agen AI yang dapat digunakan di bidang kerja yang lebih penting secara bertahap.
72,41K