
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Dalam studi kasus baru, peneliti Hugging Face telah menunjukkan bagaimana model bahasa kecil (SLM) dapat dikonfigurasi untuk mengungguli model yang jauh lebih besar. Temuan mereka menunjukkan bahwa model Llama 3 dengan parameter 3B dapat mengungguli model versi 70B dalam soal matematika yang kompleks.
Hugging Face telah sepenuhnya mendokumentasikan seluruh proses dan memberikan peta jalan bagi perusahaan yang ingin membuat model penalaran khusus mereka sendiri.
Menskalakan komputasi waktu pengujian
Karya ini terinspirasi oleh OpenAI o1, yang menggunakan “pemikiran” ekstra untuk memecahkan masalah matematika, pengkodean, dan penalaran yang kompleks.
Ide utama di balik model seperti o1 adalah untuk menskalakan “komputasi waktu pengujian”, yang secara efektif berarti menggunakan lebih banyak siklus komputasi selama inferensi untuk menguji dan memverifikasi respons dan jalur penalaran yang berbeda sebelum menghasilkan jawaban akhir. Penskalaan komputasi waktu pengujian sangat berguna ketika memori tidak cukup untuk menjalankan model besar.
Karena o1 adalah model pribadi dan OpenAI tetap bungkam tentang cara kerja internalnya, para peneliti berspekulasi tentang cara kerjanya dan mencoba merekayasa balik prosesnya. Sudah ada beberapa alternatif terbuka untuk o1.
Pekerjaan Hugging Face didasarkan pada studi DeepMind yang dirilis pada bulan Agustus, yang menyelidiki trade-off antara waktu inferensi dan komputasi pra-pelatihan. Studi ini memberikan panduan komprehensif tentang cara menyeimbangkan pelatihan dan komputasi inferensi untuk mendapatkan hasil terbaik dengan anggaran tetap.
Selain menggunakan komputasi waktu inferensi ekstra, keberhasilan teknik ini bergantung pada dua komponen utama: Model penghargaan yang mengevaluasi jawaban SLM, dan algoritme penelusuran yang mengoptimalkan jalur yang diperlukan untuk menyempurnakan jawabannya.

Algoritma penalaran yang berbeda
Cara paling sederhana untuk menggunakan penskalaan waktu pengujian adalah “pemungutan suara mayoritas”, yang mana perintah yang sama dikirim ke model beberapa kali dan yang mendapat suara terbanyak akan dipilih. Dalam permasalahan sederhana, pemungutan suara mayoritas terbukti bermanfaat, namun perolehan suara tersebut akan cepat berhenti pada permasalahan penalaran yang kompleks atau tugas yang kesalahannya konsisten antar generasi.
Metode penalaran yang lebih maju adalah “Best-of-N.” Dalam teknik ini, SLM menghasilkan banyak jawaban, namun alih-alih pemungutan suara mayoritas, model penghargaan digunakan untuk mengevaluasi jawaban dan memilih yang terbaik. “Weighted Best-of-N,” versi yang lebih bernuansa dari metode ini, memperhitungkan konsistensi dalam memilih jawaban yang meyakinkan dan lebih sering muncul dibandingkan jawaban lainnya.
Para peneliti menggunakan “model imbalan proses” (PRM) yang menilai respons SLM tidak hanya berdasarkan jawaban akhir tetapi juga pada berbagai tahapan yang dilalui untuk mencapainya. Eksperimen mereka menunjukkan bahwa Weighted Best-of-N dan PRM membawa Llama-3.2 1B mendekati level Llama-3.2 8B pada benchmark MATH-500 yang sulit.

Menambahkan pencarian
Untuk lebih meningkatkan kinerja model, para peneliti menambahkan algoritma pencarian ke dalam proses penalaran model. Alih-alih menghasilkan jawaban dalam sekali jalan, mereka menggunakan “beam search,” sebuah algoritma yang memandu proses jawaban model langkah demi langkah.
Pada setiap langkah, SLM menghasilkan beberapa jawaban parsial. Algoritme pencarian menggunakan model penghargaan untuk mengevaluasi jawaban dan memilih subset yang perlu ditelusuri lebih lanjut. Proses ini diulangi hingga model menghabiskan anggaran inferensinya atau mencapai jawaban yang benar. Dengan cara ini, anggaran inferensi dapat dipersempit untuk fokus pada jawaban yang paling menjanjikan.
Para peneliti menemukan bahwa meskipun pencarian sinar meningkatkan kinerja model pada masalah yang kompleks, teknik tersebut cenderung memiliki kinerja yang lebih rendah dari teknik lain pada masalah sederhana. Untuk mengatasi tantangan ini, mereka menambahkan dua elemen lagi pada strategi inferensi mereka.
Yang pertama adalah Diverse Verifier Tree Search (DVTS), varian pencarian berkas yang memastikan bahwa SLM tidak terjebak dalam jalur penalaran yang salah dan mendiversifikasi cabang responsnya. Kedua, mereka mengembangkan “strategi penskalaan optimal komputasi,” seperti yang disarankan dalam makalah DeepMind, yang secara dinamis memilih strategi penskalaan waktu pengujian terbaik berdasarkan tingkat kesulitan masalah masukan.
Kombinasi teknik ini memungkinkan Llama-3.2 1B melampaui bobotnya dan mengungguli model 8B dengan selisih yang signifikan. Mereka juga menemukan bahwa strategi tersebut terukur, dan ketika diterapkan pada Llama-3.2 3B, mereka mampu mengungguli model 70B yang jauh lebih besar.

Belum merupakan solusi yang sempurna
Penskalaan komputasi waktu pengujian mengubah dinamika biaya model. Perusahaan kini memiliki kemampuan untuk memilih di mana mengalokasikan sumber daya komputasi mereka. Misalnya, jika Anda kekurangan memori atau dapat mentoleransi waktu respons yang lebih lambat, Anda dapat menggunakan model kecil dan menggunakan lebih banyak siklus waktu inferensi untuk menghasilkan jawaban yang lebih akurat.
Namun, penskalaan waktu pengujian juga memiliki keterbatasan. Misalnya, dalam eksperimen yang dilakukan oleh Hugging Face, peneliti menggunakan model Llama-3.1-8B yang dilatih secara khusus sebagai PRM, yang memerlukan pengoperasian dua model secara paralel (meskipun model tersebut jauh lebih hemat sumber daya dibandingkan model 70B). Para peneliti mengakui bahwa kunci utama dalam penskalaan waktu pengujian adalah adanya “verifikasi mandiri,” di mana model asli memverifikasi jawabannya sendiri dibandingkan mengandalkan pemverifikasi eksternal. Ini adalah area penelitian terbuka.
Teknik penskalaan waktu tes yang disajikan dalam penelitian ini juga terbatas pada soal-soal yang jawabannya dapat dievaluasi dengan jelas, seperti coding dan matematika. Membuat model penghargaan dan pemverifikasi untuk tugas subjektif seperti penulisan kreatif dan desain produk memerlukan penelitian lebih lanjut.
Namun yang jelas adalah bahwa penskalaan waktu pengujian telah menghasilkan banyak minat dan aktivitas dan kami berharap lebih banyak alat dan teknik akan muncul dalam beberapa bulan mendatang. Perusahaan sebaiknya mengawasi perkembangan lanskap.