
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Penskalaan waktu inferensi adalah salah satu tema besar kecerdasan buatan pada tahun 2025, dan laboratorium AI membahasnya dari berbagai sudut. Dalam makalah penelitian terbarunya, Google DeepMind memperkenalkan konsep “Evolusi Pikiran,” sebuah teknik yang mengoptimalkan respons model bahasa besar (LLM) untuk tugas perencanaan dan penalaran.
Teknik penskalaan waktu inferensi mencoba meningkatkan kinerja LLM dengan memungkinkan mereka “berpikir” lebih banyak ketika menghasilkan jawaban. Secara praktis, hal ini berarti bahwa alih-alih menghasilkan jawaban sekaligus, sebuah model diperbolehkan untuk menghasilkan beberapa jawaban, meninjau dan memperbaiki jawabannya, serta mengeksplorasi berbagai cara untuk memecahkan masalah.
Respons LLM yang berkembang
Mind Evolution bergantung pada dua komponen utama: pencarian dan algoritma genetika. Algoritma pencarian adalah komponen umum dalam banyak teknik penskalaan waktu inferensi. Mereka memungkinkan LLM menemukan jalur penalaran terbaik untuk solusi optimal. Algoritma genetika terinspirasi oleh seleksi alam. Mereka menciptakan dan mengembangkan populasi kandidat solusi untuk mengoptimalkan suatu tujuan, yang sering disebut sebagai “fungsi kebugaran”.
Mind Evolution dimulai dengan menciptakan populasi kandidat solusi yang diungkapkan dalam bahasa alami. Solusi dihasilkan oleh LLM yang telah diberikan gambaran masalah beserta informasi dan instruksi yang berguna. LLM kemudian mengevaluasi setiap kandidat dan memperbaikinya jika tidak memenuhi kriteria solusi.
Algoritme kemudian memilih induk solusi generasi berikutnya dengan mengambil sampel dari populasi yang ada, dengan solusi berkualitas lebih tinggi memiliki peluang lebih besar untuk dipilih. Selanjutnya menciptakan solusi baru melalui crossover (memilih pasangan induk dan menggabungkan elemen-elemennya untuk membuat solusi baru) dan mutasi (membuat perubahan acak pada solusi yang baru dibuat). Ini menggunakan kembali metode evaluasi untuk menyempurnakan solusi baru.
Siklus evaluasi, seleksi dan rekombinasi berlanjut hingga algoritma mencapai solusi optimal atau menghabiskan sejumlah iterasi yang telah ditentukan.

Salah satu bagian penting dari Mind Evolution adalah fungsi evaluasi. Evaluator teknik penskalaan waktu inferensi sering kali memerlukan masalah untuk diformalkan dari bahasa alami menjadi representasi simbolis terstruktur yang dapat diproses oleh program pemecah. Memformalkan suatu masalah memerlukan keahlian domain yang signifikan dan pemahaman mendalam tentang masalah tersebut untuk mengidentifikasi semua elemen kunci yang perlu direpresentasikan secara simbolis dan bagaimana elemen-elemen tersebut berhubungan satu sama lain, sehingga membatasi penerapannya.
Dalam Mind Evolution, fungsi kebugaran dirancang untuk bekerja dengan tugas perencanaan bahasa alami di mana solusi dinyatakan dalam bahasa alami. Hal ini memungkinkan sistem menghindari formalisasi masalah, selama evaluator solusi terprogram tersedia. Ini juga memberikan umpan balik tekstual selain skor numerik, yang memungkinkan LLM memahami isu-isu spesifik dan melakukan perbaikan yang ditargetkan.
“Kami fokus pada pengembangan solusi di ruang bahasa alami, bukan di ruang formal. Hal ini menghilangkan persyaratan formalisasi tugas, yang memerlukan upaya signifikan dan pengetahuan ahli untuk setiap tugas,” tulis para peneliti.
Mind Evolution juga menggunakan pendekatan “pulau” untuk memastikannya mengeksplorasi beragam solusi. Pada setiap tahap, algoritme menciptakan kelompok solusi terpisah yang berkembang di dalam dirinya sendiri. Ia kemudian “memigrasikan” solusi optimal dari satu kelompok ke kelompok lain untuk menggabungkan dan menciptakan solusi baru.
Evolusi Pikiran dalam tugas perencanaan
Para peneliti menguji Mind Evolution terhadap garis dasar seperti 1-pass, di mana model hanya menghasilkan satu jawaban; Best-of-N, dimana model menghasilkan banyak jawaban dan memilih yang terbaik; dan Revisi Berurutan+, yaitu teknik revisi di mana 10 kandidat solusi diusulkan secara independen, kemudian direvisi secara terpisah selama 80 putaran. Sequential Revisions+ adalah yang paling dekat dengan Mind Evolution, meskipun tidak memiliki komponen algoritma genetika untuk menggabungkan bagian terbaik dari solusi yang ditemukan. Sebagai referensi, mereka juga menyertakan baseline 1-pass tambahan yang menggunakan OpenAI o1-preview.

Para peneliti melakukan sebagian besar pengujian pada Gemini 1.5 Flash yang cepat dan terjangkau. Mereka juga mengeksplorasi pendekatan dua tahap, di mana model Gemini 1.5 Pro digunakan ketika model Flash tidak dapat mengatasi masalah tersebut. Pendekatan dua tahap ini memberikan efisiensi biaya yang lebih baik dibandingkan menggunakan model Pro pada setiap permasalahan.
Para peneliti menguji Mind Evolution pada beberapa tolok ukur perencanaan bahasa alami untuk tugas-tugas seperti perencanaan perjalanan dan pertemuan. Penelitian sebelumnya menunjukkan bahwa LLM tidak dapat mencapai kinerja yang baik pada tugas-tugas ini tanpa bantuan pemecah formal.
Misalnya, Gemini 1.5 Flash dan o1-preview mencapai tingkat keberhasilan hanya 5,6% dan 11,7% di TravelPlanner, sebuah tolok ukur yang menyimulasikan pengorganisasian rencana perjalanan berdasarkan preferensi pengguna dan batasan yang diungkapkan dalam bahasa alami. Bahkan dengan memanfaatkan Best-of-N lebih dari 800 respons yang dihasilkan secara independen, Gemini 1.5 Flash hanya mencapai 55,6% keberhasilan di TravelPlanner.

Dalam semua pengujiannya, Mind Evolution mengungguli baseline dengan selisih yang besar, terutama karena tugasnya menjadi lebih sulit.
Misalnya, Mind Evolution mencapai tingkat keberhasilan 95% di TravelPlanner. Pada tolok ukur Perencanaan Perjalanan, yang melibatkan pembuatan rencana perjalanan kota-kota yang akan dikunjungi dengan jumlah hari di masing-masing kota, Mind Evolution mencapai 94,1% pada contoh pengujian sementara metode lain mencapai tingkat keberhasilan maksimum 77%. Menariknya, kesenjangan antara Mind Evolution dan teknik lainnya meningkat seiring dengan bertambahnya jumlah kota, yang menunjukkan kemampuannya untuk menangani tugas perencanaan yang lebih kompleks. Dengan proses dua tahap, Mind Evolution mencapai tingkat keberhasilan yang hampir sempurna di semua tolok ukur.
Mind Evolution juga membuktikan pendekatan hemat biaya untuk memecahkan masalah perencanaan bahasa alami, menggunakan sebagian kecil dari jumlah token yang digunakan oleh Sequential-Revision+, satu-satunya teknik lain yang mendekati kinerjanya.
“Secara keseluruhan, hasil ini menunjukkan keuntungan yang jelas dari strategi evolusi yang menggabungkan pencarian luas, melalui eksplorasi stokastik, dengan pencarian mendalam yang memanfaatkan LLM untuk penyempurnaan solusi,” tulis para peneliti.