
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Sebuah makalah baru oleh para peneliti dari Google Research dan University of California, Berkeley, menunjukkan bahwa pendekatan penskalaan waktu tes yang sangat sederhana dapat meningkatkan kemampuan penalaran model bahasa besar (LLM). Kuncinya? Meningkatkan pencarian berbasis pengambilan sampel, teknik yang bergantung pada menghasilkan banyak respons dan menggunakan model itu sendiri untuk memverifikasi.
Temuan inti adalah bahwa bahkan implementasi minimalis dari pencarian berbasis pengambilan sampel, menggunakan pengambilan sampel acak dan verifikasi diri, dapat meningkatkan kinerja penalaran model seperti Gemini 1.5 Pro di luar pandangan O1 pada tolok ukur populer. Temuan ini dapat memiliki implikasi penting untuk aplikasi perusahaan dan menantang asumsi bahwa pelatihan yang sangat khusus atau arsitektur kompleks selalu diperlukan untuk mencapai kinerja tingkat atas.
Batas penskalaan komputasi waktu uji saat ini
Metode populer saat ini untuk penskalaan waktu tes di LLMS adalah untuk melatih model melalui penguatan pembelajaran untuk menghasilkan respons yang lebih lama dengan jejak rantai (COT). Pendekatan ini digunakan dalam model seperti OpenAI O1 dan Deepseek-R1. Meskipun bermanfaat, metode ini biasanya membutuhkan investasi substansial dalam fase pelatihan.
Metode penskalaan waktu tes lain adalah “konsistensi diri,” di mana model menghasilkan banyak respons terhadap kueri dan memilih jawaban yang lebih sering muncul. Konsistensi diri mencapai batasnya ketika menangani masalah yang kompleks, seperti dalam kasus ini, jawaban yang paling berulang tidak selalu yang benar.
Pencarian berbasis pengambilan sampel menawarkan alternatif yang lebih sederhana dan sangat terukur untuk penskalaan waktu tes: Biarkan model menghasilkan banyak respons dan memilih yang terbaik melalui mekanisme verifikasi. Pencarian berbasis pengambilan sampel dapat melengkapi strategi penskalaan komputasi tes-waktu lainnya dan, seperti yang ditulis oleh para peneliti dalam makalah mereka, “Ini juga memiliki keuntungan unik karena secara paralel memalukan dan memungkinkan penskalaan yang sewenang-wenang: cukup sampel lebih banyak respons.”
Lebih penting lagi, pencarian berbasis pengambilan sampel dapat diterapkan pada LLM apa pun, termasuk yang belum dilatih secara eksplisit untuk penalaran.
Cara kerja pencarian berbasis pengambilan sampel
Para peneliti fokus pada implementasi minimalis dari pencarian berbasis pengambilan sampel, menggunakan model bahasa untuk menghasilkan respons kandidat dan memverifikasi. Ini adalah proses “verifikasi diri”, di mana model menilai outputnya sendiri tanpa mengandalkan jawaban kebenaran tanah eksternal atau sistem verifikasi simbolik.
Algoritma ini bekerja dalam beberapa langkah sederhana:
1 – Algoritma dimulai dengan menghasilkan serangkaian solusi kandidat untuk masalah yang diberikan menggunakan model bahasa. Ini dilakukan dengan memberikan model prompt yang sama beberapa kali dan menggunakan pengaturan suhu tidak nol untuk membuat beragam respons.
2 – Setiap tanggapan kandidat mengalami proses verifikasi di mana LLM diminta beberapa kali untuk menentukan apakah responsnya benar. Hasil verifikasi kemudian dirata -rata untuk membuat skor verifikasi akhir untuk respons.
3— Algoritma memilih respons skor tertinggi sebagai jawaban akhir. Jika beberapa kandidat berada dalam jarak dekat satu sama lain, LLM diminta untuk membandingkannya berpasangan dan memilih yang terbaik. Respons yang memenangkan perbandingan paling berpasangan dipilih sebagai jawaban terakhir.
Para peneliti mempertimbangkan dua sumbu kunci untuk penskalaan waktu tes:
Pengambilan sampel: Jumlah respons yang dihasilkan model untuk setiap masalah input.
Verifikasi: Jumlah skor verifikasi yang dihitung untuk setiap solusi yang dihasilkan
Bagaimana pencarian berbasis pengambilan sampel dibandingkan dengan teknik lain
Studi ini mengungkapkan bahwa penalaran kinerja terus meningkat dengan pencarian berbasis pengambilan sampel, bahkan ketika komputasi waktu tes ditingkatkan jauh melampaui titik di mana konsistensi diri jenuh.
Pada skala yang cukup, implementasi minimalis ini secara signifikan meningkatkan akurasi penalaran pada tolok ukur penalaran seperti AIME dan Matematika. Sebagai contoh, kinerja Gemini 1.5 Pro melampaui prestasi O1, yang secara eksplisit telah dilatih tentang masalah penalaran, dan Gemini 1.5 Flash melampaui Gemini 1.5 Pro.

“Ini tidak hanya menyoroti pentingnya pencarian berbasis pengambilan sampel untuk kemampuan penskalaan, tetapi juga menyarankan kegunaan pencarian berbasis pengambilan sampel sebagai garis dasar sederhana untuk membandingkan strategi penskalaan komputasi waktu tes lainnya dan mengukur peningkatan asli dalam kemampuan pencarian model,” tulis para peneliti.
Perlu dicatat bahwa sementara hasil pengambilan sampel berbasis pencarian mengesankan, biayanya juga bisa menjadi penghalang. Misalnya, dengan 200 sampel dan 50 langkah verifikasi per sampel, kueri dari AIMe akan menghasilkan sekitar 130 juta token, yang harganya $ 650 dengan Gemini 1,5 Pro. Namun, ini adalah pendekatan yang sangat minimalis untuk pencarian berbasis pengambilan sampel, dan kompatibel dengan teknik optimasi yang diusulkan dalam penelitian lain. Dengan metode pengambilan sampel dan verifikasi yang lebih cerdas, biaya inferensi dapat dikurangi dengan menggunakan model yang lebih kecil dan menghasilkan lebih sedikit token. Misalnya, dengan menggunakan Flash Gemini 1.5 untuk melakukan verifikasi, biaya turun menjadi $ 12 per pertanyaan.
Strategi verifikasi diri yang efektif
Ada perdebatan yang sedang berlangsung tentang apakah LLMS dapat memverifikasi jawaban mereka sendiri. Para peneliti mengidentifikasi dua strategi utama untuk meningkatkan verifikasi diri menggunakan komputasi waktu tes:
Secara langsung membandingkan kandidat respons: Ketidaksepakatan antara solusi kandidat sangat menunjukkan kesalahan potensial. Dengan memberikan verifier dengan beberapa respons untuk dibandingkan, model dapat mengidentifikasi kesalahan dan halusinasi dengan lebih baik, mengatasi kelemahan inti LLMS. Para peneliti menggambarkan ini sebagai contoh “penskalaan implisit.”
Penulisan ulang khusus tugas: Para peneliti mengusulkan bahwa gaya output optimal LLM tergantung pada tugas. Rantai pemikiran efektif untuk menyelesaikan tugas penalaran, tetapi respons lebih mudah diverifikasi ketika ditulis dengan gaya konvensional yang lebih formal, secara matematis. Verifikasi dapat menulis ulang respons kandidat ke dalam format yang lebih terstruktur (misalnya, teorem-lemma-tahan) sebelum evaluasi.
“Kami mengantisipasi model kemampuan verifikasi diri untuk meningkat dengan cepat dalam jangka pendek, karena model belajar untuk memanfaatkan prinsip-prinsip penskalaan implisit dan kesesuaian gaya output, dan mendorong peningkatan tarif penskalaan untuk pencarian berbasis pengambilan sampel,” tulis para peneliti.
Implikasi untuk aplikasi dunia nyata
Studi ini menunjukkan bahwa teknik yang relatif sederhana dapat mencapai hasil yang mengesankan, berpotensi mengurangi kebutuhan akan arsitektur model yang kompleks dan mahal atau rezim pelatihan.
Ini juga merupakan teknik yang dapat diskalakan, memungkinkan perusahaan untuk meningkatkan kinerja dengan mengalokasikan lebih banyak sumber daya komputasi untuk pengambilan sampel dan verifikasi. Ini juga memungkinkan pengembang untuk mendorong model bahasa Frontier di luar keterbatasan mereka pada tugas -tugas kompleks.
“Mengingat bahwa ia melengkapi strategi penskalaan komputasi waktu tes lainnya, dapat paralelisasi dan memungkinkan untuk penskalaan secara sewenang-wenang, dan mengakui implementasi sederhana yang terbukti efektif, kami berharap pencarian berbasis pengambilan sampel memainkan peran penting karena model bahasa ditugaskan untuk memecahkan masalah yang semakin kompleks dengan anggaran komputasi yang semakin besar,” para peneliti menulis.