
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Sayangnya untuk Google, rilis model bahasa andalan terbarunya, Gemini 2.5 Pro, dimakamkan di bawah Studio Ghibli AI Image Storm yang menyedot udara keluar dari ruang AI. Dan mungkin takut dengan peluncuran yang gagal sebelumnya, Google dengan hati -hati menyajikannya sebagai “model AI kami yang paling cerdas” alih -alih pendekatan laboratorium AI lainnya, yang memperkenalkan model baru mereka sebagai yang terbaik di dunia.
Namun, eksperimen praktis dengan contoh dunia nyata menunjukkan bahwa Gemini 2.5 Pro benar-benar mengesankan dan saat ini mungkin menjadi model penalaran terbaik. Ini membuka jalan bagi banyak aplikasi baru dan mungkin menempatkan Google di garis depan balapan AI generatif.
Konteks panjang dengan kemampuan pengkodean yang baik
Fitur luar biasa dari Gemini 2.5 Pro adalah jendela konteks yang sangat panjang dan panjang output. Model ini dapat memproses hingga 1 juta token (dengan 2 juta segera hadir), memungkinkan untuk menyesuaikan beberapa dokumen panjang dan seluruh repositori kode ke dalam prompt bila perlu. Model ini juga memiliki batas output 64.000 token, bukan sekitar 8.000 untuk model Gemini lainnya.
Jendela konteks yang panjang juga memungkinkan untuk percakapan yang diperluas, karena setiap interaksi dengan model penalaran dapat menghasilkan puluhan ribu token, terutama jika melibatkan kode, gambar, dan video (saya telah mengalami masalah ini dengan Claude 3.7 soneta, yang memiliki jendela konteks 200.000 yang ditandai).
Misalnya, insinyur perangkat lunak Simon Willison menggunakan Gemini 2.5 Pro untuk membuat fitur baru untuk situs webnya. Willison berkata di sebuah blog, “Itu berderak melalui seluruh basis kode saya dan mencari tahu semua tempat yang perlu saya ubah – total file 18 file, seperti yang dapat Anda lihat dalam PR yang dihasilkan. Seluruh proyek membutuhkan waktu sekitar 45 menit dari awal hingga selesai – dengan harga kurang dari tiga menit, saya harus memodifikasi. Saya telah melemparkan sekelompok tantangan kode saya sendiri di dalamnya dan mengevaluasi mereka sendiri, dan mengevaluasi mereka sendiri.
Penalaran multimoda yang mengesankan
Gemini 2.5 Pro juga memiliki kemampuan penalaran yang mengesankan atas teks, gambar, dan video yang tidak terstruktur. Sebagai contoh, saya menyediakan teks artikel terbaru saya tentang pencarian berbasis pengambilan sampel dan mendorongnya untuk membuat grafik SVG yang menggambarkan algoritma yang dijelaskan dalam teks. Gemini 2.5 Pro Extracted Informasi Kunci dengan benar dari artikel dan membuat diagram alur untuk proses pengambilan sampel dan pencarian, bahkan mendapatkan langkah -langkah bersyarat dengan benar. (Untuk referensi, tugas yang sama mengambil beberapa interaksi dengan Claude 3.7 sonnet dan saya akhirnya memaksimalkan batas token.)

Gambar yang diberikan memiliki beberapa kesalahan visual (panah salah tempat). Itu bisa menggunakan facelift, jadi saya selanjutnya menguji Gemini 2.5 Pro dengan prompt multi-modal, memberikan tangkapan layar dari file SVG yang diberikan bersama dengan kode dan meminta untuk memperbaikinya. Hasilnya mengesankan. Ini mengoreksi panah dan meningkatkan kualitas visual diagram.

Pengguna lain memiliki pengalaman serupa dengan permintaan multimodal. Misalnya, dalam pengujian mereka, DataCamp mereplikasi contoh game runner yang disajikan di blog Google, kemudian memberikan kode dan perekaman video game ke Gemini 2.5 Pro dan mendorongnya untuk membuat beberapa perubahan pada kode game. Model dapat beralasan selama visual, menemukan bagian dari kode yang perlu diubah, dan membuat modifikasi yang benar.
Perlu dicatat, bahwa seperti model generatif lainnya, Gemini 2.5 Pro cenderung membuat kesalahan seperti memodifikasi file yang tidak terkait dan segmen kode. Semakin tepat instruksi Anda, semakin rendah risiko model membuat perubahan yang salah.
Analisis data dengan jejak penalaran yang bermanfaat
Akhirnya, saya menguji Gemini 2.5 Pro pada tes analisis data klasik saya yang berantakan untuk model penalaran. Saya menyediakannya dengan file yang berisi campuran teks biasa dan data HTML mentah yang telah saya salin dan tempel dari berbagai halaman riwayat stok di Yahoo! Keuangan. Kemudian saya meminta untuk menghitung nilai portofolio yang akan menginvestasikan $ 140 pada awal setiap bulan, menyebar secara merata di seluruh 7 saham yang luar biasa, dari Januari 2024 hingga tanggal terbaru dalam file tersebut.
Model ini dengan benar mengidentifikasi stok mana yang harus dipilih dari file (Amazon, Apple, NVIDIA, Microsoft, Tesla, Alphabet dan Meta), mengekstraksi informasi keuangan dari data HTML, dan menghitung nilai setiap investasi berdasarkan harga saham pada awal setiap bulan. Ini menanggapi tabel yang diformat dengan baik dengan nilai saham dan portofolio pada setiap bulan dan memberikan rincian berapa nilai seluruh investasi pada akhir periode.

Lebih penting lagi, saya menemukan jejak alasannya sangat berguna. Tidak jelas apakah Google mengungkapkan token rantai-dipikirkan (COT) mentah untuk Gemini 2.5 Pro, tetapi penalaran jejaknya sangat rinci. Anda dapat dengan jelas melihat bagaimana model tersebut beralasan atas data, mengekstraksi berbagai informasi, dan menghitung hasilnya sebelum menghasilkan jawaban. Ini dapat membantu memecahkan masalah perilaku model dan mengarahkannya ke arah yang benar ketika membuat kesalahan.

Penalaran kelas perusahaan?
Salah satu kekhawatiran tentang Gemini 2.5 Pro adalah bahwa itu hanya tersedia dalam mode penalaran, yang berarti model selalu melalui proses “berpikir” bahkan untuk petunjuk yang sangat sederhana yang dapat dijawab secara langsung.
Gemini 2.5 Pro saat ini sedang dalam rilis pratinjau. Setelah model lengkap dirilis dan informasi harga tersedia, kami akan memiliki pemahaman yang lebih baik tentang berapa biaya untuk membangun aplikasi perusahaan di atas model. Namun, karena biaya inferensi terus turun, kita dapat mengharapkannya menjadi praktis dalam skala.
Gemini 2.5 Pro mungkin tidak memiliki debut paling indah, tetapi kemampuannya menuntut perhatian. Jendela konteksnya yang besar, penalaran multimodal yang mengesankan dan rantai penalaran rinci menawarkan keuntungan nyata untuk beban kerja perusahaan yang kompleks, dari refactoring basis kode hingga analisis data yang bernuansa.