
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Rilis Gemini 2.5 Pro pada hari Selasa tidak benar -benar mendominasi siklus berita. Ini mendarat pada minggu yang sama pembaruan generasi gambar Openai menyalakan media sosial dengan avatar studio ghibli dan render instan yang menjatuhkan rahang. Tetapi sementara buzz pergi ke Openai, Google mungkin dengan diam-diam menjatuhkan model penalaran paling siap perusahaan hingga saat ini.
Gemini 2.5 Pro menandai lompatan ke depan yang signifikan untuk Google dalam ras model dasar – tidak hanya dalam tolok ukur, tetapi dalam kegunaan. Berdasarkan eksperimen awal, data benchmark, dan reaksi pengembang langsung, ini adalah model yang patut diperhatikan dengan serius dari para pembuat keputusan teknis perusahaan, terutama mereka yang secara historis default ke Openai atau Claude untuk penalaran tingkat produksi.
Berikut adalah empat takeaways utama untuk tim perusahaan yang mengevaluasi Gemini 2.5 Pro.
1. Penalaran transparan dan terstruktur-bar baru untuk kejelasan rantai
Apa yang membuat Gemini 2.5 Pro terpisah bukan hanya kecerdasannya – seberapa jelas kecerdasan itu menunjukkan pekerjaannya. Pendekatan pelatihan langkah demi langkah Google menghasilkan rantai pemikiran terstruktur (COT) yang tidak terasa seperti mengoceh atau menebak, seperti apa yang telah kita lihat dari model seperti Deepseek. Dan dipan ini tidak terpotong menjadi ringkasan yang dangkal seperti apa yang Anda lihat dalam model Openai. Model Gemini baru menyajikan ide-ide dalam langkah-langkah bernomor, dengan sub-bullet dan logika internal yang sangat koheren dan transparan.
Dalam istilah praktis, ini adalah terobosan untuk kepercayaan dan kemauan. Pengguna perusahaan yang mengevaluasi output untuk tugas -tugas penting – seperti meninjau implikasi kebijakan, logika pengkodean, atau merangkum penelitian yang kompleks – sekarang dapat melihat bagaimana model sampai pada jawaban. Itu berarti mereka dapat memvalidasi, memperbaiki, atau mengarahkannya dengan lebih percaya diri. Ini adalah evolusi utama dari “kotak hitam” yang masih mengganggu banyak output LLM.
Untuk panduan yang lebih dalam tentang cara kerja ini beraksi, lihat rincian video di mana kami menguji Gemini 2.5 Pro Live. Salah satu contoh yang kita bahas: ketika ditanya tentang keterbatasan model bahasa besar, Gemini 2.5 Pro menunjukkan kesadaran yang luar biasa. Ini melafalkan kelemahan umum, dan mengkategorikannya ke dalam bidang-bidang seperti “intuisi fisik,” “sintesis konsep baru,” “perencanaan jangka panjang,” dan “nuansa etis,” memberikan kerangka kerja yang membantu pengguna memahami apa yang diketahui model dan bagaimana hal itu mendekati masalah.
Tim teknis perusahaan dapat memanfaatkan kemampuan ini untuk:
- Debug rantai penalaran kompleks dalam aplikasi kritis
- Lebih memahami keterbatasan model di domain tertentu
- Memberikan pengambilan keputusan AI yang lebih transparan untuk pemangku kepentingan
- Meningkatkan pemikiran kritis mereka sendiri dengan mempelajari pendekatan model
Salah satu batasan yang perlu dicatat: Meskipun penalaran terstruktur ini tersedia di aplikasi Gemini dan Google AI Studio, itu belum dapat diakses melalui API – kekurangan bagi pengembang yang ingin mengintegrasikan kemampuan ini ke dalam aplikasi perusahaan.
2. Pesaing nyata untuk canggih-tidak hanya di atas kertas
Model ini saat ini duduk di bagian atas papan peringkat Chatbot Arena dengan margin terkenal-35 poin ELO di depan model terbaik berikutnya-yang terutama merupakan pembaruan OpenAI 4O yang turun sehari setelah Gemini 2.5 Pro turun. Dan sementara supremasi benchmark sering kali merupakan mahkota yang singkat (karena model baru turun setiap minggu), Gemini 2.5 Pro terasa benar -benar berbeda.
Ini unggul dalam tugas-tugas yang menghargai penalaran mendalam: pengkodean, pemecahan masalah yang bernuansa, sintesis lintas dokumen, bahkan perencanaan abstrak. Dalam pengujian internal, ini dilakukan dengan sangat baik pada tolok ukur yang sebelumnya sulit untuk retak seperti “Ujian Terakhir Kemanusiaan,” favorit untuk mengekspos kelemahan LLM dalam domain abstrak dan bernuansa. (Anda dapat melihat pengumuman Google di sini, bersama dengan semua informasi benchmark.)
Tim perusahaan mungkin tidak peduli model mana yang memenangkan papan peringkat akademik mana. Tetapi mereka akan peduli bahwa yang ini bisa dipikirkan – dan menunjukkan kepada Anda bagaimana hal itu. Tes getaran itu penting, dan untuk sekali ini, giliran Google terasa seperti mereka telah melewatinya.
Seperti yang dicatat oleh insinyur AI yang dihormati Nathan Lambert, “Google memiliki model terbaik lagi, karena mereka seharusnya memulai seluruh mekar AI ini. Kesalahan strategis telah diperbaiki.” Pengguna perusahaan harus melihat ini bukan hanya ketika Google mengejar pesaing, tetapi berpotensi melompati mereka dalam kemampuan yang penting bagi aplikasi bisnis.
3. Akhirnya: Game pengkodean Google kuat
Secara historis, Google telah tertinggal di belakang Openai dan Anthropic ketika datang ke bantuan pengkodean yang berfokus pada pengembang. Gemini 2.5 Pro mengubahnya – secara besar -besaran.
Dalam tes langsung, itu menunjukkan kemampuan satu tembakan yang kuat pada tantangan pengkodean, termasuk membangun permainan Tetris yang berfungsi yang berlari pada percobaan pertama ketika diekspor untuk mengganti-tidak diperlukan debugging. Yang lebih menonjol: itu beralasan melalui struktur kode dengan kejelasan, variabel pelabelan dan langkah -langkah dengan penuh pertimbangan, dan meletakkan pendekatannya sebelum menulis satu baris kode.
Model saingan Antropik Claude 3.7 sonnet, yang telah dianggap sebagai pemimpin dalam pembuatan kode, dan alasan utama keberhasilan antropik di perusahaan. Tetapi Gemini 2.5 menawarkan keuntungan kritis: jendela konteks token 1 juta besar. Claude 3.7 Sonnet baru sekarang berhasil menawarkan 500.000 token.
Jendela konteks besar ini membuka kemungkinan baru untuk penalaran di seluruh basis kode, membaca dokumentasi inline, dan bekerja di beberapa file yang saling tergantung. Pengalaman insinyur perangkat lunak Simon Willison menggambarkan keuntungan ini. Saat menggunakan Gemini 2.5 Pro untuk mengimplementasikan fitur baru di seluruh basis kode, model mengidentifikasi perubahan yang diperlukan di 18 file yang berbeda dan menyelesaikan seluruh proyek dalam waktu sekitar 45 menit – rata -rata kurang dari tiga menit per file yang dimodifikasi. Untuk perusahaan yang bereksperimen dengan kerangka kerja agen atau lingkungan pengembangan yang dibantu AI, ini adalah alat yang serius.
4. Integrasi multimodal dengan perilaku seperti agen
Sementara beberapa model seperti 4O terbaru Openai mungkin menunjukkan lebih banyak mempesona dengan generasi gambar yang mencolok, Gemini 2.5 Pro terasa seperti itu dengan diam -diam mendefinisikan kembali seperti apa penalaran multimodal seperti apa.
Dalam satu contoh, pengujian langsung Ben Dickson untuk VentureBeat menunjukkan kemampuan model untuk mengekstrak informasi kunci dari artikel teknis tentang algoritma pencarian dan membuat diagram alur SVG yang sesuai-kemudian meningkatkan diagram alur itu ketika ditunjukkan versi yang diberikan dengan kesalahan visual. Tingkat penalaran multimoda ini memungkinkan alur kerja baru yang sebelumnya tidak mungkin dengan model teks saja.
Dalam contoh lain, pengembang Sam Witteveen mengunggah tangkapan layar sederhana dari peta Las Vegas dan menanyakan acara Google apa yang terjadi di dekatnya pada 9 April (lihat menit 16:35 dari video ini). Model mengidentifikasi lokasi, menyimpulkan niat pengguna, mencari secara online (dengan landasan diaktifkan), dan mengembalikan detail akurat tentang Google Cloud Next – termasuk tanggal, lokasi, dan kutipan. Semua tanpa kerangka kerja agen khusus, hanya model inti dan pencarian terintegrasi.
Model sebenarnya beralasan dari input multimodal ini, di luar hanya melihatnya. Dan itu mengisyaratkan seperti apa alur kerja perusahaan yang bisa terlihat dalam enam bulan: mengunggah dokumen, diagram, dasbor – dan memiliki model melakukan sintesis, perencanaan, atau tindakan yang bermakna berdasarkan konten.
Bonus: Itu hanya … berguna
Meskipun bukan takeaway yang terpisah, perlu dicatat: ini adalah rilis Gemini pertama yang menarik Google keluar dari “backwater” LLM bagi banyak dari kita. Versi sebelumnya tidak pernah cukup berhasil, karena model seperti OpenAi atau Claude mengatur agenda. Gemini 2.5 Pro terasa berbeda. Kualitas penalaran, utilitas konteks panjang, dan sentuhan UX praktis-seperti balasan ekspor dan akses studio-menjadikannya model yang sulit diabaikan.
Tetap saja, hari -hari awal. Model ini belum ada di Google Cloud's Vertex AI, meskipun Google mengatakan itu akan segera hadir. Beberapa pertanyaan latensi tetap ada, terutama dengan proses penalaran yang lebih dalam (dengan begitu banyak token pemikiran yang sedang diproses, apa artinya bagi waktu untuk token pertama?), Dan harga belum diungkapkan.
Peringatan lain dari pengamatan saya tentang kemampuan menulisnya: Openai dan Claude masih merasa seperti mereka memiliki keunggulan dalam memproduksi prosa yang dapat dibaca dengan baik. Gemini. 2.5 terasa sangat terstruktur, dan tidak memiliki sedikit kehalusan percakapan yang ditawarkan orang lain. Ini adalah sesuatu yang saya perhatikan Openai secara khusus menghabiskan banyak fokus pada akhir -akhir ini.
Tetapi untuk perusahaan menyeimbangkan kinerja, transparansi, dan skala, Gemini 2.5 Pro mungkin baru saja menjadikan Google pesaing yang serius lagi.
Seperti yang dimasukkan Zoom CTO Xuedong Huang dalam percakapan dengan saya kemarin: Google tetap kuat dalam campuran ketika datang ke LLMS dalam produksi. Gemini 2.5 Pro hanya memberi kami alasan untuk percaya bahwa mungkin lebih benar besok daripada kemarin.
Tonton video lengkap konsekuensi perusahaan di sini: