
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Google telah meluncurkan Gemini 2.5 Flash, peningkatan besar ke lineup AI -nya yang memberikan bisnis dan pengembang kontrol yang belum pernah terjadi sebelumnya atas seberapa banyak “berpikir” yang dilakukan AI mereka. Model baru, yang dirilis hari ini dalam pratinjau melalui Google AI Studio dan Vertex AI, merupakan upaya strategis untuk memberikan kemampuan penalaran yang lebih baik sambil mempertahankan harga kompetitif di pasar AI yang semakin ramai.
Model ini memperkenalkan apa yang Google sebut sebagai “anggaran berpikir” – mekanisme yang memungkinkan pengembang untuk menentukan seberapa banyak kekuatan komputasi yang harus dialokasikan untuk penalaran melalui masalah yang kompleks sebelum menghasilkan respons. Pendekatan ini bertujuan untuk mengatasi ketegangan mendasar di pasar AI saat ini: alasan yang lebih canggih biasanya datang dengan biaya latensi dan harga yang lebih tinggi.
“Kami tahu masalah biaya dan latensi untuk sejumlah kasus penggunaan pengembang, dan karenanya kami ingin menawarkan pengembang fleksibilitas untuk menyesuaikan jumlah pemikiran yang dilakukan model, tergantung pada kebutuhan mereka,” kata Tulsee Doshi, direktur produk untuk model Gemini di Google Deepmind, dalam wawancara eksklusif dengan VentureBeat.
Fleksibilitas ini mengungkapkan pendekatan pragmatis Google untuk penyebaran AI karena teknologi semakin tertanam dalam aplikasi bisnis di mana prediktabilitas biaya sangat penting. Dengan membiarkan kemampuan berpikir dihidupkan atau dimatikan, Google telah menciptakan apa yang disebutnya “model penalaran hibrida sepenuhnya sepenuhnya.”
Bayar hanya untuk kekuatan otak yang Anda butuhkan: Di dalam model penetapan harga AI baru Google
Struktur harga baru menyoroti biaya penalaran dalam sistem AI saat ini. Saat menggunakan Flash Gemini 2.5, pengembang membayar $ 0,15 per juta token untuk input. Biaya output bervariasi secara dramatis berdasarkan pengaturan penalaran: $ 0,60 per juta token dengan pemikiran dimatikan, melonjak menjadi $ 3,50 per juta token dengan alasan diaktifkan.
Perbedaan harga yang hampir enam kali lipat ini untuk output yang beralasan mencerminkan intensitas komputasi dari proses “berpikir”, di mana model mengevaluasi beberapa jalur potensial dan pertimbangan sebelum menghasilkan respons.
“Pelanggan membayar token pemikiran dan output yang dihasilkan model,” kata Doshi kepada VentureBeat. “Di AI Studio UX, Anda dapat melihat pemikiran ini sebelum respons. Di API, kami saat ini tidak memberikan akses ke pikiran, tetapi pengembang dapat melihat berapa banyak token yang dihasilkan.”
Anggaran berpikir dapat disesuaikan dari 0 hingga 24.576 token, beroperasi sebagai batas maksimum daripada alokasi tetap. Menurut Google, model secara cerdas menentukan berapa banyak anggaran ini untuk digunakan berdasarkan kompleksitas tugas, melestarikan sumber daya ketika penalaran yang rumit tidak diperlukan.
Bagaimana Gemini 2.5 Flash Stacks Up: Hasil Benchmark Melawan Model AI Terkemuka
Google mengklaim Gemini 2.5 Flash menunjukkan kinerja kompetitif di seluruh tolok ukur utama sambil mempertahankan ukuran model yang lebih kecil daripada alternatif. Pada ujian terakhir kemanusiaan, tes ketat yang dirancang untuk mengevaluasi penalaran dan pengetahuan, 2,5 flash mencetak 12,1%, mengungguli Antropik Claude 3,7 soneta (8,9%) dan Deepseek R1 (8,6%), meskipun gagal dari Openai yang baru-baru ini diluncurkan O4-Mini (14,3%).
Model ini juga membukukan hasil yang kuat pada tolok ukur teknis seperti GPQA Diamond (78,3%) dan Ujian Matematika AIMe (78,0% pada tes 2025 dan 88,0% pada tes 2024).
“Perusahaan harus memilih 2.5 Flash karena memberikan nilai terbaik untuk biaya dan kecepatannya,” kata Doshi. “Ini sangat kuat relatif terhadap pesaing pada matematika, penalaran multimoda, konteks panjang, dan beberapa metrik kunci lainnya.”
Analis industri mencatat bahwa tolok ukur ini menunjukkan Google mempersempit kesenjangan kinerja dengan pesaing sambil mempertahankan keuntungan harga – strategi yang mungkin beresonansi dengan pelanggan perusahaan yang menonton anggaran AI mereka.
Smart vs Speedy: Kapan AI Anda perlu berpikir secara mendalam?
Pengenalan penalaran yang dapat disesuaikan merupakan evolusi yang signifikan dalam bagaimana bisnis dapat menggunakan AI. Dengan model tradisional, pengguna memiliki sedikit visibilitas ke dalam atau mengontrol proses penalaran internal model.
Pendekatan Google memungkinkan pengembang untuk mengoptimalkan skenario yang berbeda. Untuk pertanyaan sederhana seperti terjemahan bahasa atau pengambilan informasi dasar, pemikiran dapat dinonaktifkan untuk efisiensi biaya maksimum. Untuk tugas-tugas kompleks yang membutuhkan penalaran multi-langkah, seperti pemecahan masalah matematika atau analisis bernuansa, fungsi berpikir dapat diaktifkan dan disesuaikan.
Inovasi utama adalah kemampuan model untuk menentukan berapa banyak penalaran yang sesuai berdasarkan kueri. Google mengilustrasikan ini dengan contoh: pertanyaan sederhana seperti “Berapa banyak provinsi yang dimiliki Kanada?” Membutuhkan penalaran minimal, sementara pertanyaan rekayasa yang kompleks tentang perhitungan tegangan balok akan secara otomatis melibatkan proses berpikir yang lebih dalam.
“Mengintegrasikan kemampuan berpikir ke dalam model Mainline Gemini kami, dikombinasikan dengan perbaikan di seluruh papan, telah menyebabkan jawaban berkualitas lebih tinggi,” kata Doshi. “Perbaikan ini benar di seluruh tolok ukur akademik – termasuk SimpleQA, yang mengukur faktualitas.”
Google's AI Week: Akses siswa gratis dan pembuatan video bergabung dengan peluncuran flash 2.5
Rilis Gemini 2.5 Flash datang selama seminggu gerakan agresif oleh Google di ruang AI. Pada hari Senin, perusahaan meluncurkan kemampuan pembuatan video VEO 2 untuk pelanggan Gemini Advanced, yang memungkinkan pengguna untuk membuat klip video delapan detik dari permintaan teks. Hari ini, di samping pengumuman 2,5 Flash, Google mengungkapkan bahwa semua mahasiswa AS akan menerima akses gratis ke Gemini Advanced hingga Spring 2026 – sebuah langkah yang ditafsirkan oleh analis sebagai upaya untuk membangun loyalitas di antara pekerja pengetahuan di masa depan.
Pengumuman ini mencerminkan strategi multi-cabang Google untuk bersaing di pasar yang didominasi oleh Openai's ChatGPT, yang dilaporkan melihat lebih dari 800 juta pengguna mingguan dibandingkan dengan perkiraan 250-275 juta pengguna bulanan Gemini, menurut analisis pihak ketiga.
Model Flash 2.5, dengan fokus eksplisit pada efisiensi biaya dan kustomisasi kinerja, tampaknya dirancang untuk menarik terutama bagi pelanggan perusahaan yang perlu mengelola biaya penyebaran AI dengan hati -hati sambil tetap mengakses kemampuan canggih.
“Kami sangat bersemangat untuk mulai mendapatkan umpan balik dari pengembang tentang apa yang mereka bangun dengan Gemini Flash 2.5 dan bagaimana mereka menggunakan anggaran berpikir,” kata Doshi.
Di luar pratinjau: apa yang bisa diharapkan oleh bisnis saat Gemini 2.5 flash matang
Sementara rilis ini dalam pratinjau, model ini sudah tersedia bagi pengembang untuk mulai membangun, meskipun Google belum menentukan garis waktu untuk ketersediaan umum. Perusahaan menunjukkan akan terus menyempurnakan kemampuan berpikir dinamis berdasarkan umpan balik pengembang selama fase pratinjau ini.
Untuk pengadopsi AI perusahaan, rilis ini merupakan peluang untuk bereksperimen dengan pendekatan yang lebih bernuansa untuk penyebaran AI, berpotensi mengalokasikan lebih banyak sumber daya komputasi untuk tugas-tugas berisiko tinggi sambil menghemat biaya pada aplikasi rutin.
Model ini juga tersedia untuk konsumen melalui aplikasi Gemini, di mana ia muncul sebagai “2.5 flash (eksperimental)” di menu dropdown model, mengganti opsi pemikiran 2.0 sebelumnya (eksperimental). Penyebaran yang menghadap konsumen ini menunjukkan bahwa Google menggunakan ekosistem aplikasi untuk mengumpulkan umpan balik yang lebih luas tentang arsitektur penalarannya.
Ketika AI menjadi semakin tertanam dalam alur kerja bisnis, pendekatan Google dengan penalaran yang dapat disesuaikan mencerminkan pasar yang matang di mana optimasi biaya dan penyetelan kinerja menjadi sama pentingnya dengan kemampuan mentah – menandakan fase baru dalam komersialisasi teknologi AI generatif.