
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Google diam-diam telah merilis pembaruan besar pada model kecerdasan buatan populernya, Gemini, yang kini menjelaskan proses penalarannya, mencetak rekor kinerja baru dalam tugas matematika dan ilmiah, dan menawarkan alternatif gratis untuk layanan premium OpenAI.
Model Pemikiran Flash Gemini 2.0 yang baru, dirilis Selasa di Google AI Studio dengan sebutan eksperimental “Exp-01-21,” telah mencapai skor 73,3% pada American Invitational Mathematics Examination (AIME) dan 74,2% pada sains GPQA Diamond tolok ukur. Hasil ini menunjukkan peningkatan yang jelas dibandingkan model AI sebelumnya dan menunjukkan peningkatan kekuatan Google dalam penalaran tingkat lanjut.
“Kami telah memelopori sistem perencanaan jenis ini selama lebih dari satu dekade, dimulai dengan program seperti AlphaGo, dan sangat menarik untuk melihat kombinasi yang kuat dari ide-ide ini dengan model fondasi yang paling mumpuni,” tulis Demis Hassabis, CEO Google DeepMind , dalam postingan di X.com (sebelumnya Twitter).
Pembaruan terbaru kami untuk model Gemini 2.0 Flash Thinking (tersedia di sini: https://t.co/Rr9DvqbUdO) mendapat skor 73,3% pada AIME (matematika) & 74,2% pada tolok ukur GPQA Diamond (sains). Terima kasih atas semua masukan Anda, ini menunjukkan kemajuan super cepat dari rilis pertama kami beberapa waktu lalu… pic.twitter.com/cM1gNwBoTO
— Demis Hassabis (@demishassabis) 21 Januari 2025
Gemini 2.0 Flash Thinking memecahkan rekor dengan pemrosesan jutaan token
Fitur model yang paling mencolok adalah kemampuannya memproses hingga satu juta token teks — lima kali lebih banyak dibandingkan model o1 Pro OpenAI — sekaligus mempertahankan waktu respons yang lebih cepat. Jendela konteks yang diperluas ini memungkinkan model untuk menganalisis beberapa makalah penelitian atau kumpulan data yang luas secara bersamaan, suatu kemampuan yang dapat mengubah cara peneliti dan analis bekerja dengan informasi dalam jumlah besar.
“Sebagai percobaan pertama, saya mengambil berbagai teks keagamaan dan filosofi dan meminta Gemini 2.0 Flash Thinking untuk merangkainya bersama-sama, mengekstraksi wawasan baru dan unik,” kata Dan Mac, peneliti AI yang menguji model tersebut, dalam sebuah postingan di X.com . “Ini memproses total 970,000 token. Hasilnya sungguh luar biasa.”
Peluncuran ini dilakukan pada saat yang kritis dalam evolusi industri AI. OpenAI baru-baru ini mengumumkan model o3-nya, yang mencapai skor 87,7% pada benchmark GPQA Diamond. Namun, keputusan Google untuk menawarkan modelnya secara gratis selama pengujian beta (dengan batasan penggunaan) dapat menarik pengembang dan perusahaan yang mencari alternatif selain langganan bulanan OpenAI senilai $200.
Google menawarkan Gemini 2.0 Flash Thinking gratis dengan eksekusi kode bawaan
Jeff Dean, Kepala Ilmuwan di Google DeepMind, menekankan peningkatan dalam keandalan model: “Kami terus melakukan iterasi, dengan keandalan yang lebih tinggi dan mengurangi kontradiksi antara pemikiran model dan jawaban akhir,” tulisnya.
Model ini juga mencakup kemampuan eksekusi kode asli, yang memungkinkan pengembang untuk menjalankan dan menguji kode secara langsung di dalam sistem. Fitur ini, dikombinasikan dengan peningkatan perlindungan kontradiksi, menempatkan Gemini 2.0 Flash Thinking sebagai pesaing serius untuk penelitian dan aplikasi komersial.
Analis industri mencatat bahwa fokus Google dalam menjelaskan proses penalarannya dapat membantu mengatasi kekhawatiran yang semakin besar mengenai transparansi dan keandalan AI. Berbeda dengan model “kotak hitam” tradisional, Gemini 2.0 Flash Thinking menunjukkan cara kerjanya, sehingga memudahkan pengguna untuk memahami dan memverifikasi kesimpulannya.
Kami terus melakukan iterasi, dengan keandalan yang lebih tinggi dan mengurangi kontradiksi antara pemikiran model dan jawaban akhir.
Lihat sebagai gemini-2.0-flash-thinking-exp-01-21 di https://t.co/sw0jY6k74m
— Jeff Dekan (@JeffDean) 21 Januari 2025
Transparansi AI menjadi medan pertempuran baru saat Google menantang OpenAI
Model ini telah menempati posisi teratas di papan peringkat Chatbot Arena, sebuah tolok ukur terkemuka untuk kinerja AI, memimpin dalam kategori-kategori termasuk perintah keras, pengkodean, dan penulisan kreatif.
Namun, masih ada pertanyaan mengenai performa dan keterbatasan model di dunia nyata. Meskipun skor benchmark memberikan metrik yang berharga, skor tersebut tidak selalu diterjemahkan langsung ke dalam penerapan praktis. Tantangan Google adalah meyakinkan pelanggan perusahaan bahwa penawaran gratisnya dapat menyamai atau melampaui kemampuan alternatif premium.
Ketika perlombaan senjata AI semakin intensif, rilis terbaru Google menunjukkan perubahan strategi: menggabungkan kemampuan tingkat lanjut dengan aksesibilitas. Masih belum diketahui apakah pendekatan ini akan membantu menutup kesenjangan dengan OpenAI, namun hal ini tentunya memberikan alasan kuat bagi para pengambil keputusan teknis untuk mempertimbangkan kembali kemitraan AI mereka.
Untuk saat ini, satu hal yang jelas: era AI yang dapat menunjukkan fungsinya telah tiba, dan tersedia bagi siapa saja yang memiliki akun Google.