
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Dalam upaya terbarunya untuk mendefinisikan kembali lanskap AI, Google telah mengumumkan Gemini 2.0 Flash Thinking, model penalaran multimodal yang mampu mengatasi masalah kompleks dengan kecepatan dan transparansi.
Dalam sebuah postingan di jejaring sosial X, CEO Google Sundar Pichai menulis bahwa ini adalah: “Model kami yang paling bijaksana :)”
Dan pada dokumentasi pengembang, Google menjelaskan, “Mode Berpikir memiliki kemampuan penalaran yang lebih kuat dalam merespons dibandingkan model dasar Flash Gemini 2.0,” yang sebelumnya merupakan model terbaru dan terhebat dari Google, yang baru dirilis delapan hari yang lalu.
Model baru ini hanya mendukung 32.000 token masukan (teks senilai sekitar 50-60 halaman) dan dapat menghasilkan 8.000 token per respons keluaran. Di panel samping Google AI Studio, perusahaan mengklaim bahwa ini adalah yang terbaik untuk “pemahaman multimodal, penalaran” dan “pengkodean.”
Rincian lengkap tentang proses pelatihan model, arsitektur, perizinan, dan biayanya belum dirilis. Saat ini, ini menunjukkan nol biaya per token di Google AI Studio.
Alasan yang dapat diakses dan lebih transparan
Tidak seperti model penalaran pesaing o1 dan o1 mini dari OpenAI, Gemini 2.0 memungkinkan pengguna untuk mengakses penalaran langkah demi langkah melalui menu tarik-turun, menawarkan wawasan yang lebih jelas dan transparan tentang bagaimana model sampai pada kesimpulannya.
Dengan memungkinkan pengguna melihat bagaimana keputusan dibuat, Gemini 2.0 mengatasi kekhawatiran lama tentang fungsi AI sebagai “kotak hitam”, dan menjadikan model ini – persyaratan lisensinya masih belum jelas – setara dengan model sumber terbuka lainnya yang dibuat oleh pesaing.
Pengujian sederhana awal saya terhadap model tersebut menunjukkan bahwa model tersebut dengan benar dan cepat (dalam satu hingga tiga detik) menjawab beberapa pertanyaan yang terkenal rumit untuk model AI lainnya, seperti menghitung jumlah R dalam kata “Strawberry”. (Lihat tangkapan layar di atas).
Dalam pengujian lain, ketika membandingkan dua angka desimal (9,9 dan 9,11), model secara sistematis membagi soal menjadi langkah-langkah yang lebih kecil, mulai dari menganalisis bilangan bulat hingga membandingkan tempat desimal.
Hasil ini didukung oleh analisis pihak ketiga independen dari LM Arena, yang menyebut Gemini 2.0 Flash Thinking sebagai model berkinerja nomor satu di semua kategori LLM.
Dukungan asli untuk pengunggahan dan analisis gambar
Dalam peningkatan lebih lanjut dibandingkan keluarga saingannya OpenAI o1, Gemini 2.0 Flash Thinking dirancang untuk memproses gambar dari lompatan.
o1 diluncurkan sebagai model teks saja, namun sejak itu diperluas untuk menyertakan analisis unggahan gambar dan file. Kedua model juga hanya dapat mengembalikan teks saat ini.
Gemini 2.0 Flash Thinking juga saat ini tidak mendukung landasan dengan Google Penelusuran, atau integrasi dengan aplikasi Google lainnya dan alat pihak ketiga eksternal, menurut dokumentasi pengembang.
Kemampuan multimodal Gemini 2.0 Flash Thinking memperluas potensi kasus penggunaannya, memungkinkannya menangani skenario yang menggabungkan berbagai jenis data.
Misalnya, dalam satu pengujian, model memecahkan teka-teki yang memerlukan analisis elemen tekstual dan visual, menunjukkan keserbagunaannya dalam mengintegrasikan dan memberikan alasan di berbagai format.
Pengembang dapat memanfaatkan fitur ini melalui Google AI Studio dan Vertex AI, tempat model tersedia untuk eksperimen.
Ketika lanskap AI semakin kompetitif, Gemini 2.0 Flash Thinking dapat menandai dimulainya era baru untuk model pemecahan masalah. Kemampuannya untuk menangani beragam tipe data, menawarkan penalaran yang jelas, dan bekerja pada skala besar menempatkannya sebagai pesaing serius di pasar AI penalaran, menyaingi keluarga o1 OpenAI dan seterusnya.