
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model penalaran seperti Openai O1 dan Deepseek-R1 memiliki masalah: mereka terlalu banyak berpikir. Tanyakan kepada mereka pertanyaan sederhana seperti “Apa itu 1+1?” Dan mereka akan berpikir selama beberapa detik sebelum menjawab.
Idealnya, seperti manusia, model AI harus dapat mengetahui kapan harus memberikan jawaban langsung dan kapan harus menghabiskan waktu dan sumber daya tambahan untuk bernalar sebelum merespons. Teknik baru yang disajikan oleh para peneliti di Meta AI dan Model University of Illinois Chicago untuk mengalokasikan anggaran inferensi berdasarkan kesulitan kueri. Ini menghasilkan respons yang lebih cepat, mengurangi biaya, dan alokasi sumber daya komputasi yang lebih baik.
Alasan yang mahal
Model bahasa besar (LLM) dapat meningkatkan kinerja mereka pada masalah penalaran ketika mereka menghasilkan rantai penalaran yang lebih lama, sering disebut sebagai “rantai-pemikiran” (COT). Keberhasilan COT telah menyebabkan seluruh jajaran teknik penskalaan waktu inferensi yang mendorong model untuk “berpikir” lebih lama tentang masalah, memproduksi dan meninjau beberapa jawaban dan memilih yang terbaik.
Salah satu cara utama yang digunakan dalam model penalaran adalah dengan menghasilkan banyak jawaban dan memilih salah satu yang paling sering berulang, juga dikenal sebagai “pemungutan suara mayoritas” (MV). Masalah dengan pendekatan ini adalah bahwa model mengadopsi perilaku yang seragam, memperlakukan setiap prompt sebagai masalah penalaran yang sulit dan menghabiskan sumber daya yang tidak perlu untuk menghasilkan banyak jawaban.
Alasan Cerdas
Makalah baru ini mengusulkan serangkaian teknik pelatihan yang membuat model penalaran lebih efisien dalam menanggapi. Langkah pertama adalah “Sequential Voting” (SV), di mana model membatalkan proses penalaran segera setelah jawaban muncul beberapa kali. Misalnya, model ini diminta untuk menghasilkan maksimal delapan jawaban dan memilih jawaban yang muncul setidaknya tiga kali. Jika model diberikan kueri sederhana yang disebutkan di atas, tiga jawaban pertama mungkin akan serupa, yang akan memicu stopping awal, menghemat waktu dan menghitung sumber daya.
Eksperimen mereka menunjukkan bahwa SV mengungguli MV klasik dalam masalah kompetisi matematika ketika menghasilkan jumlah jawaban yang sama. Namun, SV membutuhkan instruksi tambahan dan generasi token, yang menempatkannya setara dengan MV dalam hal rasio token-to-akurasi.

Teknik kedua, “pemungutan suara berurutan adaptif” (ASV), meningkatkan SV dengan mendorong model untuk memeriksa masalah dan hanya menghasilkan banyak jawaban ketika masalahnya sulit. Untuk masalah sederhana (seperti prompt 1+1), model ini hanya menghasilkan satu jawaban tanpa melalui proses pemungutan suara. Ini membuat model jauh lebih efisien dalam menangani masalah sederhana dan kompleks.
Pembelajaran Penguatan
Sementara SV dan ASV meningkatkan efisiensi model, mereka membutuhkan banyak data berlabel tangan. Untuk mengurangi masalah ini, para peneliti mengusulkan “optimasi kebijakan yang dibatasi anggaran” (IBPO), sebuah algoritma pembelajaran penguatan yang mengajarkan model untuk menyesuaikan lamanya jejak penalaran berdasarkan kesulitan kueri.
IBPO dirancang untuk memungkinkan LLM untuk mengoptimalkan respons mereka sambil tetap berada dalam kendala anggaran inferensi. Algoritma RL memungkinkan model untuk melampaui keuntungan yang diperoleh melalui pelatihan tentang data berlabel manual dengan terus menghasilkan jejak ASV, mengevaluasi tanggapan, dan memilih hasil yang memberikan jawaban yang benar dan anggaran inferensi yang optimal.
Eksperimen mereka menunjukkan bahwa IBPO meningkatkan bagian depan Pareto, yang berarti untuk anggaran inferensi tetap, model yang dilatih pada IBPO mengungguli baseline lainnya.

Temuan ini datang dengan latar belakang para peneliti yang memperingatkan bahwa model AI saat ini menabrak dinding. Perusahaan berjuang untuk menemukan data pelatihan yang berkualitas dan sedang mengeksplorasi metode alternatif untuk meningkatkan model mereka.
Salah satu solusi yang menjanjikan adalah pembelajaran penguatan, di mana model diberi tujuan dan diizinkan untuk menemukan solusinya sendiri sebagai lawan dari Fine-tuning (SFT) yang diawasi, di mana model dilatih pada contoh berlabel manual.
Anehnya, model ini sering menemukan solusi yang tidak dipikirkan manusia. Ini adalah formula yang tampaknya telah bekerja dengan baik untuk Deepseek-R1, yang telah menantang dominasi laboratorium AI yang berbasis di AS.
Para peneliti mencatat bahwa “metode berbasis berbasis dan SFT berjuang dengan peningkatan dan efisiensi absolut, mendukung dugaan bahwa SFT saja tidak memungkinkan kemampuan koreksi diri. Pengamatan ini juga sebagian didukung oleh pekerjaan bersamaan, yang menunjukkan bahwa perilaku koreksi diri seperti itu muncul secara otomatis selama RL daripada secara manual dibuat dengan mendorong atau SFT. “