
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Google bergerak lebih dekat ke tujuannya dari “asisten AI universal” yang dapat memahami konteks, merencanakan dan mengambil tindakan.
Hari ini di Google I/O, raksasa teknologi itu mengumumkan peningkatan pada Gemini 2.5 Flash – sekarang lebih baik di hampir setiap dimensi, termasuk tolok ukur untuk penalaran, kode dan konteks panjang – dan 2,5 Pro, termasuk mode penalaran yang ditingkatkan eksperimental, 'Think Deep,' yang memungkinkan Pro untuk mempertimbangkan beberapa hipotesis sebelum menanggapi.
“Ini adalah tujuan utama kami untuk aplikasi Gemini: A AI yang bersifat pribadi, proaktif, dan kuat,” Demis Hassabis, CEO Google DeepMind, mengatakan dalam pra-perhiasan pers.
Skor 'Deep Think' secara mengesankan di tolok ukur teratas
Google mengumumkan Gemini 2.5 Pro-apa yang dianggapnya sebagai modelnya yang paling cerdas, dengan jendela konteks satu juta yang ditandai-pada bulan Maret, dan merilis edisi pengkodean “I/O” awal bulan ini (dengan Hassabis menyebutnya “model pengkodean terbaik yang pernah kami bangun!”).
“Kami benar -benar terkesan dengan apa yang orang ciptakan, dari mengubah sketsa menjadi aplikasi interaktif hingga mensimulasikan seluruh kota,” kata Hassabis.
Dia mencatat bahwa, berdasarkan pengalaman Google dengan respons model Alphago, AI meningkat ketika mereka diberikan lebih banyak waktu untuk berpikir. Hal ini menyebabkan para ilmuwan DeepMind mengembangkan Deep Think, yang menggunakan penelitian mutakhir terbaru Google dalam pemikiran dan penalaran, termasuk teknik paralel.
Deep Think telah menunjukkan skor yang mengesankan pada tolok ukur matematika dan pengkodean tersulit, termasuk Olimpiade Matematika USA 2025 (USAMO). Ini juga mengarah pada LiveCodebench, tolok ukur yang sulit untuk pengkodean tingkat kompetisi, dan skor 84,0% pada MMMU, yang menguji pemahaman dan penalaran multimoda.
Hassabis menambahkan, “Kami membutuhkan sedikit waktu ekstra untuk melakukan lebih banyak evaluasi keselamatan perbatasan dan mendapatkan masukan lebih lanjut dari para ahli keselamatan.” (Artinya: untuk saat ini, tersedia untuk penguji tepercaya melalui API untuk umpan balik sebelum kemampuannya tersedia secara luas.)
Secara keseluruhan, 2.5 Pro yang baru memimpin Populer Coding Leaderboard Webdev Arena, dengan skor ELO-yang mengukur tingkat keterampilan relatif pemain dalam permainan dua pemain seperti Catur-dari 1420 (menengah hingga mahir). Ini juga mengarah di semua kategori papan peringkat Lmarena, yang mengevaluasi AI berdasarkan preferensi manusia.
Sejak diluncurkan, “Kami benar -benar terkesan dengan apa [users have] Dibuat, dari mengubah sketsa menjadi aplikasi interaktif hingga mensimulasikan seluruh kota, ”kata Hassabis.
Pembaruan penting untuk Gemini 2.5 Pro, Flash
Juga hari ini, Google mengumumkan flash 2.5 yang ditingkatkan, dianggap sebagai model pekerja keras yang dirancang untuk kecepatan, efisiensi, dan biaya rendah. 2.5 Flash telah ditingkatkan di seluruh papan dalam tolok ukur untuk penalaran, multimodality, kode dan konteks panjang – Hassabis mencatat bahwa itu “hanya kedua” menjadi 2,5 Pro di papan peringkat Lmarena. Model ini juga lebih efisien, menggunakan token 20 hingga 30% lebih sedikit.
Google membuat penyesuaian akhir menjadi 2,5 flash berdasarkan umpan balik pengembang; Sekarang tersedia untuk pratinjau di Google AI Studio, Vertex AI dan di aplikasi Gemini. Secara umum akan tersedia untuk diproduksi pada awal Juni.
Google membawa kemampuan tambahan untuk Gemini 2.5 Pro dan 2.5 Flash, termasuk output audio asli untuk menciptakan pengalaman percakapan yang lebih alami, teks-ke-speech untuk mendukung banyak pembicara, ringkasan pemikiran dan anggaran berpikir.
Dengan input audio asli (dalam pratinjau), pengguna dapat mengarahkan nada, aksen, dan gaya berbicara Gemini (pikirkan: mengarahkan model menjadi melodramatik atau maudlin saat menceritakan sebuah kisah). Seperti Project Mariner, model ini juga dilengkapi dengan penggunaan alat, memungkinkannya untuk mencari atas nama pengguna.
Fitur suara awal eksperimental lainnya termasuk dialog afektif, yang memberikan model kemampuan untuk mendeteksi emosi dalam suara pengguna dan merespons dengan tepat; audio proaktif yang memungkinkannya untuk menghilangkan percakapan latar belakang; dan berpikir di Live API untuk mendukung tugas yang lebih kompleks.
Fitur multi-speaker baru baik dalam dukungan pro dan flash lebih dari 24 bahasa, dan model dapat dengan cepat beralih dari satu dialek ke dialek lainnya. “Teks-ke-speech ekspresif dan dapat menangkap nuansa halus, seperti bisikan,” Koray Kavukcuoglu, CTO dari Google DeepMind, dan Tulsee Doshi, direktur senior untuk manajemen produk di Google DeepMind, menulis di sebuah blog yang diposting hari ini.
Lebih lanjut, 2.5 Pro dan Flash sekarang termasuk ringkasan pemikiran di Gemini API dan Vertex AI. Ini “mengambil pemikiran mentah model dan mengaturnya menjadi format yang jelas dengan header, detail utama, dan informasi tentang tindakan model, seperti ketika mereka menggunakan alat,” Kavukcuoglu dan Doshi menjelaskan. Tujuannya adalah untuk memberikan format yang lebih terstruktur dan ramping untuk proses berpikir model dan memberikan interaksi kepada pengguna dengan Gemini yang lebih sederhana untuk dipahami dan debug.
Seperti 2.5 Flash, Pro juga sekarang dilengkapi dengan 'anggaran berpikir,' yang memberi pengembang kemampuan untuk mengontrol jumlah token yang digunakan model untuk dipikirkan sebelum merespons, atau, jika mereka lebih suka, mematikan kemampuan berpikirnya sama sekali. Kemampuan ini secara umum akan tersedia dalam beberapa minggu mendatang.
Akhirnya, Google telah menambahkan dukungan SDK asli untuk definisi Model Context Protocol (MCP) di Gemini API sehingga model dapat lebih mudah diintegrasikan dengan alat open-source.
Seperti yang dikatakan Hassabis: “Kami hidup melalui momen yang luar biasa dalam sejarah di mana AI memungkinkan masa depan baru yang luar biasa. Ini adalah kemajuan tanpa henti.”